Comment ajouter des réponses en streaming avec l'API Gemini (Étape par étape)

🌐🇩🇪 Deutsch 🇫🇷 Français 🇫🇷 Français 🇫🇷 Français 🇪🇸 Español 🇺🇸 English

📖 10 min read•1,968 words•Updated Mar 27, 2026

Comment ajouter des réponses en streaming avec Gemini API étape par étape

L’API Gemini a rapidement attiré l’attention des développeurs grâce à ses solides capacités de modèle linguistique et à ses options d’intégration flexibles. L’une des fonctionnalités les plus intéressantes que propose l’API Gemini est les réponses en streaming. Au lieu d’attendre l’arrivée de l’intégralité de la réponse, le streaming vous permet de recevoir des jetons ou du contenu partiel de manière incrémentielle, améliorant considérablement l’expérience utilisateur, surtout dans les applications interactives comme les chatbots ou les assistants en temps réel.

Dans ce guide détaillé, nous allons vous expliquer comment mettre en œuvre les réponses en streaming de l’API gemini étape par étape, accompagnée d’exemples de code pratiques, d’un tableau comparatif mettant en évidence le streaming par rapport au non-streaming, et de conseils pour optimiser votre mise en œuvre.

Comprendre les réponses en streaming dans l’API Gemini

Les appels API traditionnels aux modèles linguistiques suivent un schéma de demande-réponse : vous envoyez une invite et attendez la complétion entière avant de pouvoir l’afficher ou la traiter. Le streaming modifie cela en fragmentant la réponse en morceaux plus petits livrés séquentiellement. Cela revient à la façon dont le streaming vidéo fournit des parties d’une vidéo pendant que vous la regardez plutôt que de télécharger l’intégralité de la vidéo au préalable.

Les avantages des réponses en streaming incluent :

Latence réduite : Commencez à traiter ou afficher des jetons immédiatement.
Amélioration de l’expérience utilisateur : Les utilisateurs voient la sortie se générer en temps réel.
Meilleure gestion des ressources : Votre application peut réagir de manière dynamique, potentiellement annuler précocement et traiter les jetons à mesure qu’ils arrivent.

Étape 1 : Configurer votre environnement API Gemini

Avant d’explorer le streaming, assurez-vous d’avoir accès à l’API Gemini avec les identifiants appropriés, et que votre environnement de développement est configuré avec les bibliothèques nécessaires pour effectuer des requêtes HTTPS et gérer les flux.

Pour la démonstration, nous utiliserons Node.js avec le client HTTP populaire axios (avec prise en charge du streaming) et les modules natifs http/https. Cependant, les concepts s’appliquent de manière similaire en Python, Go ou d’autres langages.

Prérequis

Node.js installé (v14+ recommandé)
Une clé API pour l’API Gemini
Installez axios avec npm install axios

Étape 2 : Faire une demande de complétion standard (non-streaming)

Tout d’abord, considérons un exemple simple où vous envoyez une invite et attendez la réponse complète :

const axios = require('axios');

async function getCompletion() {
 const API_KEY = 'YOUR_GEMINI_API_KEY';
 const url = 'https://api.gemini.com/v1/completions';

 const data = {
 model: 'gemini-1',
 prompt: 'Écris un poème sur l'océan',
 max_tokens: 100
 };

 const response = await axios.post(url, data, {
 headers: {
 'Authorization': `Bearer ${API_KEY}`,
 'Content-Type': 'application/json'
 }
 });

 console.log('Complétion :', response.data.choices[0].text);
}

getCompletion();

Cela renverra l’ensemble de la complétion uniquement après que le modèle ait terminé de la générer. Bien que cela soit simple, cela peut provoquer un délai perceptible dans les applications nécessitant une réactivité en temps réel.

Étape 3 : Activer les réponses en streaming avec l’API Gemini

L’API Gemini prend en charge un mode de streaming via son point de terminaison de complétions. Pour activer le streaming, vous devez définir un paramètre de requête spécifique et gérer la réponse HTTP comme un flux plutôt qu’attendre le corps complet.

Points clés pour activer le streaming :

Définissez stream: true dans votre charge utile de requête.
Utilisez une méthode de requête HTTP qui prend en charge le traitement des morceaux en streaming.
Écoutez les événements de données sur le flux de réponse.

Exemple : Streaming avec Axios et Node.js

const axios = require('axios');

async function streamCompletion() {
 const API_KEY = 'YOUR_GEMINI_API_KEY';
 const url = 'https://api.gemini.com/v1/completions';

 const data = {
 model: 'gemini-1',
 prompt: 'Écris une histoire sur un chevalier courageux',
 max_tokens: 150,
 stream: true // Activer les réponses en streaming
 };

 const response = await axios({
 method: 'post',
 url: url,
 data: data,
 headers: {
 'Authorization': `Bearer ${API_KEY}`,
 'Content-Type': 'application/json'
 },
 responseType: 'stream'
 });

 response.data.on('data', (chunk) => {
 // Chaque morceau est un objet Buffer
 const payloads = chunk.toString().split('nn');
 for (const payload of payloads) {
 if (payload.includes('[DONE]')) return; // Fin du flux
 if (payload.trim() === '') continue;
 try {
 const data = JSON.parse(payload);
 const token = data.choices[0].delta?.content;
 if (token) {
 process.stdout.write(token);
 }
 } catch (err) {
 // Gérer les erreurs de parsing le cas échéant
 console.error('Erreur de parsing du morceau :', err);
 }
 }
 });

 response.data.on('end', () => {
 console.log('nn[Flux terminé]');
 });
}

streamCompletion();

Dans cet exemple, les jetons arrivent par morceaux encodés en JSON, et votre code les analyse et les affiche immédiatement.

Étape 4 : Analyser le format des données en streaming

Le format de réponse en streaming de l’API Gemini suit généralement un style Server-Sent Events (SSE) ou des charges utiles JSON fragmentées où chaque morceau contient des mises à jour sur les nouveaux jetons générés.

Un morceau typique ressemble à :

{
 "id": "completion-123",
 "object": "text_completion",
 "created": 1688749214,
 "model": "gemini-1",
 "choices": [
 {
 "delta": {
 "content": "Bonjour"
 },
 "index": 0,
 "finish_reason": null
 }
 ]
}

Le champ delta.content contient le nouveau morceau de texte pour ce morceau. Votre code doit accumuler ou diffuser ce contenu vers l’interface de votre application.

Étape 5 : Gérer la fin du flux et les erreurs

Lorsque le flux se termine, le serveur envoie un jeton ou message spécial tel que [DONE], indiquant qu’aucun contenu supplémentaire ne sera envoyé. Votre gestionnaire de flux doit écouter ce jeton et fermer la connexion gracieusement.

De plus, soyez prêt à gérer les erreurs réseau intermittentes ou les exceptions de parsing. Implémentez une logique de nouvelle tentative ou des affichages d’erreurs conviviaux si les données de streaming sont interrompues.

Tableau comparatif : Réponses en streaming vs non-streaming dans l’API Gemini

Caractéristique	Réponse non-streaming	Réponse en streaming
Livraison de la réponse	Livraison par batch après génération complète	Livraison incrémentale de jetons/morceaux au fur et à mesure de leur génération
Latence	Latence plus élevée, attente de la réponse complète	Latence réduite, sortie partielle rapidement disponible
Expérience utilisateur	Affichage statique et retardé	Sortie dynamique en temps réel
Complexité de mise en œuvre	Facile à mettre en œuvre	Complexité modérée en raison de la gestion du streaming
Gestion des erreurs	Plus facile, réponse unique	Plus approfondie, gérer les interruptions de flux
Cas d’utilisation	Traitement par batch, tâches non en temps réel	Chatbots, assistants interactifs, génération de données en direct

Conseils pratiques pour mettre en œuvre les réponses en streaming de l’API Gemini

1. Tamponner les jetons de manière appropriée

En fonction des besoins de votre interface utilisateur ou de votre backend, vous pouvez vouloir collecter des jetons et les afficher par lots (par exemple, par mot ou par phrase) au lieu de les afficher brut un par un pour éviter des mises à jour saccadées ou écrasantes.

2. Implémenter la gestion de la rétropression

Si votre front-end ou d’autres systèmes ne peuvent pas gérer des rafales de jetons rapides, implémentez des mécanismes de rétropression ou de limitation pour réguler le flux et éviter de submerger les utilisateurs ou les ressources système.

3. Utiliser des signaux d’abandon ou des jetons d’annulation

Le streaming permet une terminaison anticipée si un utilisateur annule une opération. Intégrez des signaux d’abandon dans vos requêtes HTTP pour arrêter le streaming et libérer immédiatement les ressources.

4. Journalisation et monitoring détaillés

Le streaming est état-plein et plus complexe, donc ajoutez des journaux détaillés pour surveiller le flux de données, les erreurs et les complétions de flux, aidant au débogage et aux insights opérationnels.

5. Considérations de sécurité

Protégez toujours votre clé API et ne l’exposez pas publiquement. Pour les scénarios de streaming côté front-end, propagez le streaming via le backend pour éviter l’exposition de la clé.

Exemple du monde réel : Création d’une interface de chatbot en direct utilisant le streaming Gemini

Imaginez une fenêtre de chat où les messages des utilisateurs sont envoyés à l’API Gemini et les réponses apparaissent jeton par jeton :

const readline = require('readline');
const axios = require('axios');

const rl = readline.createInterface({
 input: process.stdin,
 output: process.stdout
});

async function chat() {
 const API_KEY = 'YOUR_GEMINI_API_KEY';
 rl.question('Vous : ', async (prompt) => {
 console.log('Gemini :');
 const url = 'https://api.gemini.com/v1/completions';
 const data = {
 model: 'gemini-1',
 prompt,
 max_tokens: 200,
 stream: true
 };
 
 try {
 const response = await axios({
 method: 'post',
 url: url,
 data: data,
 headers: {
 'Authorization': `Bearer ${API_KEY}`,
 'Content-Type': 'application/json'
 },
 responseType: 'stream'
 });
 
 response.data.on('data', (chunk) => {
 const lines = chunk.toString().split('nn');
 for (const line of lines) {
 if (line.trim() === '') continue;
 if (line.includes('[DONE]')) {
 rl.close();
 return;
 }
 try {
 const parsed = JSON.parse(line);
 const content = parsed.choices[0].delta?.content;
 if (content) {
 process.stdout.write(content);
 }
 } catch (e) {
 // ignorer les morceaux de JSON mal formés
 }
 }
 });
 
 response.data.on('end', () => {
 console.log('n[Finn de la réponse]');
 rl.close();
 });

 response.data.on('error', (err) => {
 console.error('Erreur de flux :', err.message);
 rl.close();
 });
 
 } catch (err) {
 console.error('La requête a échoué :', err.message);
 rl.close();
 }
 });
}

chat();

Ce script permet aux utilisateurs de taper des messages et de voir les réponses en streaming de Gemini en direct sur le terminal.

Résumé

Intégrer les réponses en streaming de l’API gemini peut considérablement améliorer l’interactivité et la réactivité de vos applications alimentées par l’IA. En activant le streaming, en gérant les données incrémentielles et en gérant les cas extrêmes comme les erreurs et la terminaison du flux, vous pouvez créer des interfaces qui semblent plus fluides et plus dynamiques.

N’oubliez pas les étapes clés :

Définir le paramètre stream: true dans votre charge utile de requête
Faire une requête qui prend en charge le streaming (traiter la réponse comme un flux)
Analyser les morceaux de données incrémentielles, en extrayant des jetons des charges JSON
Mettre à jour l’interface utilisateur de votre application ou le consommateur backend progressivement
Gérer l’achèvement du flux et les erreurs avec élégance

Avec le code d’exemple et les meilleures pratiques partagées dans cet article, vous êtes bien équipé pour commencer à ajouter des fonctionnalités de streaming à vos projets d’API Gemini. Bon codage !

Articles Connexes

🕒 Published: March 27, 2026

🛠️

Written by Jake Chen

Full-stack developer specializing in bot frameworks and APIs. Open-source contributor with 2000+ GitHub stars.

Learn more →

Comment ajouter des réponses en streaming avec l’API Gemini (Étape par étape)

Comment ajouter des réponses en streaming avec Gemini API étape par étape

Comprendre les réponses en streaming dans l’API Gemini

Étape 1 : Configurer votre environnement API Gemini

Prérequis

Étape 2 : Faire une demande de complétion standard (non-streaming)

Étape 3 : Activer les réponses en streaming avec l’API Gemini

Exemple : Streaming avec Axios et Node.js

Étape 4 : Analyser le format des données en streaming

Étape 5 : Gérer la fin du flux et les erreurs

Tableau comparatif : Réponses en streaming vs non-streaming dans l’API Gemini

Conseils pratiques pour mettre en œuvre les réponses en streaming de l’API Gemini

1. Tamponner les jetons de manière appropriée

2. Implémenter la gestion de la rétropression

3. Utiliser des signaux d’abandon ou des jetons d’annulation

4. Journalisation et monitoring détaillés

5. Considérations de sécurité

Exemple du monde réel : Création d’une interface de chatbot en direct utilisant le streaming Gemini

Résumé

Articles Connexes

Related Articles

Comment ajouter des réponses en streaming avec Gemini API étape par étape

Comprendre les réponses en streaming dans l’API Gemini

Étape 1 : Configurer votre environnement API Gemini

Prérequis

Étape 2 : Faire une demande de complétion standard (non-streaming)

Étape 3 : Activer les réponses en streaming avec l’API Gemini

Exemple : Streaming avec Axios et Node.js

Étape 4 : Analyser le format des données en streaming

Étape 5 : Gérer la fin du flux et les erreurs

Tableau comparatif : Réponses en streaming vs non-streaming dans l’API Gemini

Conseils pratiques pour mettre en œuvre les réponses en streaming de l’API Gemini

1. Tamponner les jetons de manière appropriée

2. Implémenter la gestion de la rétropression

3. Utiliser des signaux d’abandon ou des jetons d’annulation

4. Journalisation et monitoring détaillés

5. Considérations de sécurité

Exemple du monde réel : Création d’une interface de chatbot en direct utilisant le streaming Gemini

Résumé

Articles Connexes

You May Also Like

📚 You Might Also Like

Related Articles