Comment adicionar respostas em streaming com a API Gemini (Passo a passo)

🌐🇧🇷 Português 🇮🇹 Italiano 🇩🇪 Deutsch 🇫🇷 Français

📖 10 min read•1,847 words•Updated Apr 5, 2026

“`html

Como adicionar respostas em streaming com a API Gemini passo a passo

A API Gemini rapidamente atraiu a atenção dos desenvolvedores por suas capacidades sólidas de modelo linguístico e opções de integração flexíveis. Uma das funcionalidades mais interessantes que a API Gemini oferece são as respostas em streaming. Em vez de esperar pelo recebimento de toda a resposta, o streaming permite que você receba tokens ou conteúdo parcial de forma incremental, melhorando significativamente a experiência do usuário, especialmente em aplicações interativas como chatbots ou assistentes em tempo real.

Neste guia detalhado, vamos explicar como implementar as respostas em streaming da API Gemini passo a passo, com exemplos de código práticos, uma tabela comparativa destacando o streaming em relação à não-difusão, e dicas para otimizar sua implementação.

Compreendendo as respostas em streaming na API Gemini

As chamadas de API tradicionais para modelos linguísticos seguem um padrão de solicitação-resposta: você envia um prompt e aguarda a resposta completa antes de poder exibi-la ou processá-la. O streaming muda isso ao dividir a resposta em partes menores entregues sequencialmente. Isso é comparável à forma como o streaming de vídeo entrega partes de um vídeo à medida que você assiste, em vez de baixar o vídeo inteiro previamente.

As vantagens das respostas em streaming incluem:

Latência reduzida: Comece a processar ou exibir tokens instantaneamente.
Experiência do usuário melhorada: Os usuários veem a saída sendo gerada em tempo real.
Melhor gerenciamento de recursos: Sua aplicação pode reagir dinamicamente, potencialmente cancelando rapidamente e gerenciando os tokens à medida que chegam.

Etapa 1: Configurando seu ambiente API Gemini

Antes de explorar o streaming, certifique-se de ter acesso à API Gemini com as credenciais apropriadas e que seu ambiente de desenvolvimento esteja configurado com as bibliotecas necessárias para fazer requisições HTTPS e gerenciar streams.

Para a demonstração, vamos usar Node.js com o cliente HTTP popular axios (com suporte a streaming) e os módulos nativos http/https. No entanto, os conceitos se aplicam de maneira semelhante em Python, Go ou outras linguagens.

Pré-requisitos

Node.js instalado (v14+ recomendado)
Uma chave API para a API Gemini
Instalar axios com npm install axios

Etapa 2: Fazer uma solicitação de conclusão padrão (não streaming)

Vamos começar com um exemplo simples onde você envia um prompt e aguarda a resposta completa:

“““html

const axios = require('axios');

async function getCompletion() {
 const API_KEY = 'YOUR_GEMINI_API_KEY';
 const url = 'https://api.gemini.com/v1/completions';

 const data = {
 model: 'gemini-1',
 prompt: 'Escreva um poema sobre o oceano',
 max_tokens: 100
 };

 const response = await axios.post(url, data, {
 headers: {
 'Authorization': `Bearer ${API_KEY}`,
 'Content-Type': 'application/json'
 }
 });

 console.log('Conclusão:', response.data.choices[0].text);
}

getCompletion();

Isso retornará a conclusão somente após o modelo ter terminado de gerá-la. Embora simples, isso pode resultar em um atraso perceptível em aplicativos que exigem uma resposta em tempo real.

Etapa 3: Ativar respostas em streaming com a API Gemini

A API Gemini suporta um modo de streaming através do seu endpoint de conclusões. Para ativar o streaming, você deve definir um parâmetro de consulta específico e gerenciar a resposta HTTP como um fluxo, em vez de esperar pelo corpo inteiro.

Pontos-chave para ativar o streaming:

Defina stream: true na sua carga útil de consulta.
Use um método de solicitação HTTP que suporte o gerenciamento de pedaços transmitidos.
Escute os eventos de dados no fluxo de resposta.

Exemplo: Streaming com Axios e Node.js

const axios = require('axios');

async function streamCompletion() {
 const API_KEY = 'YOUR_GEMINI_API_KEY';
 const url = 'https://api.gemini.com/v1/completions';

 const data = {
 model: 'gemini-1',
 prompt: 'Escreva uma história sobre um cavaleiro corajoso',
 max_tokens: 150,
 stream: true // Ativar respostas em streaming
 };

 const response = await axios({
 method: 'post',
 url: url,
 data: data,
 headers: {
 'Authorization': `Bearer ${API_KEY}`,
 'Content-Type': 'application/json'
 },
 responseType: 'stream'
 });

 response.data.on('data', (chunk) => {
 // Cada pedaço é um objeto Buffer
 const payloads = chunk.toString().split('nn');
 for (const payload of payloads) {
 if (payload.includes('[DONE]')) return; // Fim do fluxo
 if (payload.trim() === '') continue;
 try {
 const data = JSON.parse(payload);
 const token = data.choices[0].delta?.content;
 if (token) {
 process.stdout.write(token);
 }
 } catch (err) {
 // Tratar erros de parsing, se necessário
 console.error('Erro ao analisar o pedaço:', err);
 }
 }
 });

 response.data.on('end', () => {
 console.log('nn[Fluxo terminado]');
 });
}

streamCompletion();

No exemplo, os tokens chegam como pedaços codificados em JSON, e seu código os analisa e exibe imediatamente.

Etapa 4: Analisar o formato dos dados em streaming

O formato de resposta em streaming da API Gemini geralmente segue um estilo Server-Sent Events (SSE) ou cargas úteis JSON em pedaços, onde cada pedaço contém atualizações sobre os novos tokens gerados.

Um pedaço típico se parece com:

{
 "id": "completion-123",
 "object": "text_completion",
 "created": 1688749214,
 "model": "gemini-1",
 "choices": [
 {
 "delta": {
 "content": "Olá"
 },
 "index": 0,
 "finish_reason": null
 }
 ]
}

O campo delta.content contém o novo pedaço de texto para esse pedaço. Seu código deve acumular ou transmitir esse conteúdo para a interface da sua aplicação.

Etapa 5: Gerenciar o fim do fluxo e os erros

Quando o fluxo termina, o servidor envia um token ou uma mensagem especial como [DONE], indicando que nenhum conteúdo adicional será enviado. Seu manipulador de fluxo deve escutar esse token e fechar a conexão de maneira elegante.

Além disso, esteja preparado para gerenciar erros de rede intermitentes ou exceções de parsing. Implemente uma lógica de repetição ou exibições de erros amigáveis se os dados em streaming forem interrompidos.

Tabela comparativa: Respostas em streaming vs Respostas não streaming na API Gemini

“““html

Característica	Resposta não streaming	Resposta em streaming
Entrega de resposta	Entrega em lote após a geração completa	Entrega incremental de tokens/partes à medida que são gerados
Latência	Latência mais alta, aguardando a resposta inteira	Latência mais baixa, saída parcial disponível rapidamente
Experiência do usuário	Exibição estática retardada	Saída dinâmica em tempo real
Complexidade de implementação	Fácil de implementar	Complexidade moderada devido à gestão do streaming
Gerenciamento de erros	Mais fácil, resposta única	Mais aprofundado, gerenciar interrupções de fluxo
Casos de uso	Processamento em lote, tarefas não em tempo real	Chatbots, assistentes interativos, geração de dados ao vivo

Dicas práticas para implementar as respostas em streaming da API Gemini

1. Bufferizar os tokens de maneira apropriada

Dependendo das suas necessidades de interface do usuário ou de backend, você pode querer coletar os tokens e exibi-los em lotes (por exemplo, por palavra ou por frase) em vez de um por um para evitar atualizações tremidas ou esmagadoras.

2. Implementar o gerenciamento da pressão de fluxo

Se seu front-end ou outros sistemas não conseguem lidar com rajadas rápidas de tokens, implemente mecanismos de pressão de fluxo ou limitação para regular o fluxo e evitar sobrecarregar os usuários ou os recursos do sistema.

3. Usar sinais de abandono ou tokens de cancelamento

O streaming permite uma terminação precoce se um usuário cancelar uma operação. Integre sinais de abandono nas suas requisições HTTP para parar o streaming e liberar os recursos imediatamente.

4. Registro e monitoramento detalhados

O streaming é stateful e mais complexo, então adicione registros detalhados para monitorar o fluxo de dados, erros e completions de fluxo, ajudando assim na depuração e em insights operacionais.

5. Considerações de segurança

Certifique-se sempre de proteger sua chave API e não a exponha publicamente. Para cenários de streaming frontal, faça proxy do streaming através do backend para evitar a exposição de chaves.

Exemplo do mundo real: Criar uma interface de chatbot ao vivo usando o streaming do Gemini

Imagine uma janela de chat onde as mensagens dos usuários são enviadas para a API Gemini e as respostas aparecem token por token:

const readline = require('readline');
const axios = require('axios');

const rl = readline.createInterface({
 input: process.stdin,
 output: process.stdout
});

async function chat() {
 const API_KEY = 'YOUR_GEMINI_API_KEY';
 rl.question('Você: ', async (prompt) => {
 console.log('Gemini:');
 const url = 'https://api.gemini.com/v1/completions';
 const data = {
 model: 'gemini-1',
 prompt,
 max_tokens: 200,
 stream: true
 };
 
 try {
 const response = await axios({
 method: 'post',
 url: url,
 data: data,
 headers: {
 'Authorization': `Bearer ${API_KEY}`,
 'Content-Type': 'application/json'
 },
 responseType: 'stream'
 });
 
 response.data.on('data', (chunk) => {
 const lines = chunk.toString().split('nn');
 for (const line of lines) {
 if (line.trim() === '') continue;
 if (line.includes('[DONE]')) {
 rl.close();
 return;
 }
 try {
 const parsed = JSON.parse(line);
 const content = parsed.choices[0].delta?.content;
 if (content) {
 process.stdout.write(content);
 }
 } catch (e) {
 // ignorar pedaços JSON mal formados
 }
 }
 });
 
 response.data.on('end', () => {
 console.log('n[Fim da resposta]');
 rl.close();
 });

 response.data.on('error', (err) => {
 console.error('Erro de fluxo:', err.message);
 rl.close();
 });
 
 } catch (err) {
 console.error('Falha na requisição:', err.message);
 rl.close();
 }
 });
}

chat();

Este script permite que os usuários digitem mensagens e vejam as respostas em streaming do Gemini ao vivo no terminal.

Resumo

A integração das respostas em streaming da API Gemini pode melhorar consideravelmente a interatividade e a responsividade de suas aplicações alimentadas por IA. Ao ativar o streaming, gerenciar dados incrementais e lidar com casos especiais como erros e término do fluxo, você pode criar interfaces que parecem mais fluidas e dinâmicas.

Não esqueça as etapas-chave :

“`

Defina o parâmetro stream: true na carga útil da sua requisição
Faça uma requisição que suporte streaming (gerencie a resposta como um fluxo)
Analise os pedaços de dados incrementais, extraindo tokens das cargas úteis JSON
Atualize a interface do usuário da sua aplicação ou o consumidor de backend progressivamente
Gerencie o fim do fluxo e os erros com elegância

Com o código de exemplo e as melhores práticas compartilhadas neste artigo, você está bem preparado para começar a adicionar funcionalidades de streaming aos seus projetos de API Gemini. Boa codificação!

Comment adicionar respostas em streaming com a API Gemini (Passo a passo)

Como adicionar respostas em streaming com a API Gemini passo a passo

Compreendendo as respostas em streaming na API Gemini

Etapa 1: Configurando seu ambiente API Gemini

Pré-requisitos

Etapa 2: Fazer uma solicitação de conclusão padrão (não streaming)

Etapa 3: Ativar respostas em streaming com a API Gemini

Exemplo: Streaming com Axios e Node.js

Etapa 4: Analisar o formato dos dados em streaming

Etapa 5: Gerenciar o fim do fluxo e os erros

Tabela comparativa: Respostas em streaming vs Respostas não streaming na API Gemini

Dicas práticas para implementar as respostas em streaming da API Gemini

1. Bufferizar os tokens de maneira apropriada

2. Implementar o gerenciamento da pressão de fluxo

3. Usar sinais de abandono ou tokens de cancelamento

4. Registro e monitoramento detalhados

5. Considerações de segurança

Exemplo do mundo real: Criar uma interface de chatbot ao vivo usando o streaming do Gemini

Resumo

Artigos Relacionados

Related Articles

Como adicionar respostas em streaming com a API Gemini passo a passo

Compreendendo as respostas em streaming na API Gemini

Etapa 1: Configurando seu ambiente API Gemini

Pré-requisitos

Etapa 2: Fazer uma solicitação de conclusão padrão (não streaming)

Etapa 3: Ativar respostas em streaming com a API Gemini

Exemplo: Streaming com Axios e Node.js

Etapa 4: Analisar o formato dos dados em streaming

Etapa 5: Gerenciar o fim do fluxo e os erros

Tabela comparativa: Respostas em streaming vs Respostas não streaming na API Gemini

Dicas práticas para implementar as respostas em streaming da API Gemini

1. Bufferizar os tokens de maneira apropriada

2. Implementar o gerenciamento da pressão de fluxo

3. Usar sinais de abandono ou tokens de cancelamento

4. Registro e monitoramento detalhados

5. Considerações de segurança

Exemplo do mundo real: Criar uma interface de chatbot ao vivo usando o streaming do Gemini

Resumo

Artigos Relacionados

You May Also Like

📚 You Might Also Like

Related Articles