OpenAI lança modelos de áudio para tarefas de voz em tempo real

A OpenAI apresentou, nesta quinta-feira (7), três modelos de áudio para sua plataforma de desenvolvedores, com o objetivo de tornar agentes de software baseados em voz mais conversacionais e capazes de completar tarefas em tempo real.
O lançamento da interface de programação de aplicações (API, na sigla em inglês) leva a criadora do ChatGPT além da transcrição e chat, direcionando para agentes que podem ouvir, traduzir e agir durante conversas ao vivo.
– Os novos modelos são GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper, disponíveis para teste no playground de desenvolvedores da OpenAI;
– O GPT-Realtime-2 foi projetado para gerenciar solicitações mais complexas, chamar ferramentas, lidar com interrupções e manter contexto em sessões de voz mais longas;
– O segundo modelo su
Fontes
- —
Este artigo foi redigido com apoio de ferramentas de IA e revisado por nossa equipe. Citamos as fontes originais e seguimos as políticas do Google Notícias.
