Comment aggiungere risposte in streaming con l’API Gemini (Passo dopo passo)

🌐🇧🇷 Português 🇮🇹 Italiano 🇩🇪 Deutsch 🇫🇷 Français

📖 9 min read•1,661 words•Updated Apr 4, 2026

Come aggiungere risposte in streaming con l’API Gemini passo dopo passo

L’API Gemini ha rapidamente attirato l’attenzione degli sviluppatori grazie alle sue solide capacità di modello linguistico e alle sue opzioni di integrazione flessibili. Una delle funzionalità più interessanti offerte dall’API Gemini è le risposte in streaming. Invece di attendere il completamento della risposta, lo streaming ti consente di ricevere token o contenuto parziale in modo incrementale, migliorando notevolmente l’esperienza utente, soprattutto in applicazioni interattive come chatbot o assistenti in tempo reale.

In questa guida dettagliata, ti spiegheremo come implementare le risposte in streaming dell’API Gemini passo dopo passo, accompagnata da esempi di codice pratici, una tabella comparativa che mette a confronto lo streaming rispetto al non-streaming, e consigli per ottimizzare la tua implementazione.

Comprendere le risposte in streaming nell’API Gemini

Le chiamate API tradizionali ai modelli linguistici seguono uno schema di richiesta-risposta: invii un prompt e attendi il completamento intero prima di poterlo visualizzare o elaborare. Lo streaming modifica questo approccio frammentando la risposta in pezzi più piccoli consegnati in sequenza. È simile a come lo streaming video fornisce parti di un video mentre lo guardi, invece di scaricare l’intero video in anticipo.

I vantaggi delle risposte in streaming includono:

Riduzione della latenza: Inizia a elaborare o visualizzare token immediatamente.
Miglioramento dell’esperienza utente: Gli utenti vedono l’output generarsi in tempo reale.
Migliore gestione delle risorse: La tua applicazione può reagire in modo dinamico, potenzialmente annullando in anticipo e elaborando i token man mano che arrivano.

Passo 1: Configurare il tuo ambiente API Gemini

Prima di esplorare lo streaming, assicurati di avere accesso all’API Gemini con le credenziali appropriate e che il tuo ambiente di sviluppo sia configurato con le librerie necessarie per effettuare richieste HTTPS e gestire i flussi.

Per la dimostrazione, utilizzeremo Node.js con il popolare client HTTP axios (con supporto per lo streaming) e i moduli nativi http/https. Tuttavia, i concetti si applicano in modo simile anche in Python, Go o altri linguaggi.

Requisiti

Node.js installato (v14+ consigliato)
Una chiave API per l’API Gemini
Installa axios con npm install axios

Passo 2: Effettuare una richiesta di completamento standard (non-streaming)

Innanzitutto, consideriamo un esempio semplice in cui invii un prompt e attendi la risposta completa:

const axios = require('axios');

async function getCompletion() {
 const API_KEY = 'YOUR_GEMINI_API_KEY';
 const url = 'https://api.gemini.com/v1/completions';

 const data = {
 model: 'gemini-1',
 prompt: 'Scrivi una poesia sull'oceano',
 max_tokens: 100
 };

 const response = await axios.post(url, data, {
 headers: {
 'Authorization': `Bearer ${API_KEY}`,
 'Content-Type': 'application/json'
 }
 });

 console.log('Completamento:', response.data.choices[0].text);
}

getCompletion();

Questo restituirà l’intero completamento solo dopo che il modello avrà terminato di generarlo. Anche se semplice, questo può causare un ritardo percepibile in applicazioni che richiedono reattività in tempo reale.

Passo 3: Attivare le risposte in streaming con l’API Gemini

L’API Gemini supporta una modalità di streaming tramite il suo endpoint di completamenti. Per attivare lo streaming, devi impostare un parametro di richiesta specifico e gestire la risposta HTTP come un flusso invece di attendere il corpo completo.

Punti chiave per attivare lo streaming:

Imposta stream: true nel tuo payload di richiesta.
Utilizza un metodo di richiesta HTTP che supporti l’elaborazione dei pezzi in streaming.
Ascolta gli eventi di dati sul flusso di risposta.

Esempio: Streaming con Axios e Node.js

const axios = require('axios');

async function streamCompletion() {
 const API_KEY = 'YOUR_GEMINI_API_KEY';
 const url = 'https://api.gemini.com/v1/completions';

 const data = {
 model: 'gemini-1',
 prompt: 'Scrivi una storia su un cavaliere coraggioso',
 max_tokens: 150,
 stream: true // Attiva le risposte in streaming
 };

 const response = await axios({
 method: 'post',
 url: url,
 data: data,
 headers: {
 'Authorization': `Bearer ${API_KEY}`,
 'Content-Type': 'application/json'
 },
 responseType: 'stream'
 });

 response.data.on('data', (chunk) => {
 // Ogni pezzo è un oggetto Buffer
 const payloads = chunk.toString().split('nn');
 for (const payload of payloads) {
 if (payload.includes('[DONE]')) return; // Fine del flusso
 if (payload.trim() === '') continue;
 try {
 const data = JSON.parse(payload);
 const token = data.choices[0].delta?.content;
 if (token) {
 process.stdout.write(token);
 }
 } catch (err) {
 // Gestisci gli errori di parsing se necessario
 console.error('Errore di parsing del pezzo:', err);
 }
 }
 });

 response.data.on('end', () => {
 console.log('nn[Flusso terminato]');
 });
}

streamCompletion();

In questo esempio, i token arrivano in pezzi codificati in JSON, e il tuo codice li analizza e li visualizza immediatamente.

Passo 4: Analizzare il formato dei dati in streaming

Il formato di risposta in streaming dell’API Gemini segue generalmente uno stile Server-Sent Events (SSE) o payload JSON frammentati, dove ogni pezzo contiene aggiornamenti sui nuovi token generati.

Un pezzo tipico appare così:

{
 "id": "completion-123",
 "object": "text_completion",
 "created": 1688749214,
 "model": "gemini-1",
 "choices": [
 {
 "delta": {
 "content": "Ciao"
 },
 "index": 0,
 "finish_reason": null
 }
 ]
}

Il campo delta.content contiene il nuovo pezzo di testo per questo pezzo. Il tuo codice deve accumulare o trasmettere questo contenuto all’interfaccia della tua applicazione.

Passo 5: Gestire la fine del flusso e gli errori

Quando il flusso termina, il server invia un token o messaggio speciale come [DONE], indicando che non verrà inviato altro contenuto. Il tuo gestore di flusso deve ascoltare questo token e chiudere la connessione in modo corretto.

Inoltre, preparati a gestire errori di rete intermittenti o eccezioni di parsing. Implementa una logica di ripetizione o messaggi di errore amichevoli se i dati in streaming vengono interrotti.

Tabella comparativa: Risposte in streaming vs non-streaming nell’API Gemini

Caratteristica	Risposta non-streaming	Risposta in streaming
Consegna della risposta	Consegna in batch dopo generazione completa	Consegna incrementale di token/pezzi man mano che vengono generati
Latencia	Latencia più alta, attesa della risposta completa	Latencia ridotta, output parziale rapidamente disponibile
Esperienza utente	Visualizzazione statica e ritardata	Output dinamico in tempo reale
Complessità di implementazione	Facile da implementare	Complesso moderato a causa della gestione dello streaming
Gestione degli errori	Più semplice, risposta unica	Più approfondita, gestire le interruzioni di flusso
Casi d’uso	Elaborazione in batch, compiti non in tempo reale	Chatbot, assistenti interattivi, generazione di dati in tempo reale

Consigli pratici per implementare le risposte in streaming dell’API Gemini

1. Bufferizzare i token in modo appropriato

In base alle esigenze della tua interfaccia utente o del tuo backend, potresti voler raccogliere i token e mostrarli a gruppi (ad esempio, per parola o per frase) anziché visualizzarli uno per uno per evitare aggiornamenti a scatti o travolgenti.

2. Implementare la gestione della retroazione

Se il tuo front-end o altri sistemi non possono gestire raffiche di token rapidi, implementa meccanismi di retroazione o limitazione per regolare il flusso ed evitare di sopraffare gli utenti o le risorse di sistema.

3. Utilizzare segnali di abbandono o token di annullamento

Lo streaming consente una terminazione anticipata se un utente annulla un’operazione. Integra segnali di abbandono nelle tue richieste HTTP per fermare lo streaming e liberare immediatamente le risorse.

4. Registrazione e monitoraggio dettagliati

Lo streaming è stato complesso e più sofisticato, quindi aggiungi registrazioni dettagliate per monitorare il flusso di dati, gli errori e le completamenti del flusso, aiutando nel debugging e nelle intuizioni operative.

5. Considerazioni sulla sicurezza

Proteggi sempre la tua chiave API e non esporla pubblicamente. Per gli scenari di streaming lato front-end, propaga lo streaming attraverso il backend per evitare l’esposizione della chiave.

Esempio del mondo reale: Creazione di un’interfaccia di chatbot in diretta utilizzando lo streaming Gemini

Immagina una finestra di chat in cui i messaggi degli utenti vengono inviati all’API Gemini e le risposte appaiono token per token:

const readline = require('readline');
const axios = require('axios');

const rl = readline.createInterface({
 input: process.stdin,
 output: process.stdout
});

async function chat() {
 const API_KEY = 'YOUR_GEMINI_API_KEY';
 rl.question('Tu: ', async (prompt) => {
 console.log('Gemini:');
 const url = 'https://api.gemini.com/v1/completions';
 const data = {
 model: 'gemini-1',
 prompt,
 max_tokens: 200,
 stream: true
 };
 
 try {
 const response = await axios({
 method: 'post',
 url: url,
 data: data,
 headers: {
 'Authorization': `Bearer ${API_KEY}`,
 'Content-Type': 'application/json'
 },
 responseType: 'stream'
 });
 
 response.data.on('data', (chunk) => {
 const lines = chunk.toString().split('nn');
 for (const line of lines) {
 if (line.trim() === '') continue;
 if (line.includes('[DONE]')) {
 rl.close();
 return;
 }
 try {
 const parsed = JSON.parse(line);
 const content = parsed.choices[0].delta?.content;
 if (content) {
 process.stdout.write(content);
 }
 } catch (e) {
 // ignora i pezzi di JSON malformati
 }
 }
 });
 
 response.data.on('end', () => {
 console.log('n[Fine della risposta]');
 rl.close();
 });

 response.data.on('error', (err) => {
 console.error('Errore di flusso:', err.message);
 rl.close();
 });
 
 } catch (err) {
 console.error('La richiesta è fallita:', err.message);
 rl.close();
 }
 });
}

chat();

Questo script consente agli utenti di digitare messaggi e vedere le risposte in streaming di Gemini in diretta nel terminale.

Riepilogo

Integrare le risposte in streaming dell’API gemini può migliorare notevolmente l’interattività e la reattività delle tue applicazioni alimentate dall’IA. Attivando lo streaming, gestendo i dati incrementali e affrontando casi estremi come errori e terminazione del flusso, puoi creare interfacce che sembrano più fluide e dinamiche.

Non dimenticare i passaggi chiave:

Definisci il parametro stream: true nella tua payload di richiesta
Fai una richiesta che supporti lo streaming (trattare la risposta come un flusso)
Analizza i pezzi di dati incrementali, estraendo token dai caricamenti JSON
Aggiorna progressivamente l’interfaccia utente della tua applicazione o il consumatore backend
Gestisci il completamento del flusso e gli errori con eleganza

Con il codice di esempio e le migliori pratiche condivise in questo articolo, sei ben attrezzato per iniziare ad aggiungere funzionalità di streaming ai tuoi progetti dell’API Gemini. Buon coding!

Comment aggiungere risposte in streaming con l’API Gemini (Passo dopo passo)

Come aggiungere risposte in streaming con l’API Gemini passo dopo passo

Comprendere le risposte in streaming nell’API Gemini

Passo 1: Configurare il tuo ambiente API Gemini

Requisiti

Passo 2: Effettuare una richiesta di completamento standard (non-streaming)

Passo 3: Attivare le risposte in streaming con l’API Gemini

Esempio: Streaming con Axios e Node.js

Passo 4: Analizzare il formato dei dati in streaming

Passo 5: Gestire la fine del flusso e gli errori

Tabella comparativa: Risposte in streaming vs non-streaming nell’API Gemini

Consigli pratici per implementare le risposte in streaming dell’API Gemini

1. Bufferizzare i token in modo appropriato

2. Implementare la gestione della retroazione

3. Utilizzare segnali di abbandono o token di annullamento

4. Registrazione e monitoraggio dettagliati

5. Considerazioni sulla sicurezza

Esempio del mondo reale: Creazione di un’interfaccia di chatbot in diretta utilizzando lo streaming Gemini

Riepilogo

Articoli Correlati

Related Articles

Come aggiungere risposte in streaming con l’API Gemini passo dopo passo

Comprendere le risposte in streaming nell’API Gemini

Passo 1: Configurare il tuo ambiente API Gemini

Requisiti

Passo 2: Effettuare una richiesta di completamento standard (non-streaming)

Passo 3: Attivare le risposte in streaming con l’API Gemini

Esempio: Streaming con Axios e Node.js

Passo 4: Analizzare il formato dei dati in streaming

Passo 5: Gestire la fine del flusso e gli errori

Tabella comparativa: Risposte in streaming vs non-streaming nell’API Gemini

Consigli pratici per implementare le risposte in streaming dell’API Gemini

1. Bufferizzare i token in modo appropriato

2. Implementare la gestione della retroazione

3. Utilizzare segnali di abbandono o token di annullamento

4. Registrazione e monitoraggio dettagliati

5. Considerazioni sulla sicurezza

Esempio del mondo reale: Creazione di un’interfaccia di chatbot in diretta utilizzando lo streaming Gemini

Riepilogo

Articoli Correlati

You May Also Like

📚 You Might Also Like

Related Articles