A OpenAI, dona do ChatGPT, começou a liberar de forma restrita uma nova plataforma de criação de conteúdo. A novidade é o Voice Engine, um serviço capaz de gerar vozes sintéticas baseada em áudios de uma pessoa.
De acordo com a OpenAI, o recurso já funciona com base em um áudio de 15 segundos de quem terá a voz copiada. Isso já é o suficiente para imitar o tom de voz e até a cadência de alguém, embora exemplos mais longos resultem em conteúdos ainda mais completos e precisos.
Essa plataforma está em desenvolvimento desde 2022 e foi adotada parcialmente nas APIs da companhia que convertem texto em áudio, mas só agora a OpenAI compartilhou resultados práticos com o público. Os áudios podem ser ouvidos na postagem feita no blog da companhia.
Até agora, o Voice Engine foi treinado principalmente para ler textos escritos do zero em um mesmo idioma. Porém, ela também pode ser usada para traduzir frases para outras línguas, mantendo até o sotaque original.
IA que copia voz tem benefícios e riscos
A ideia é que o Voice Engine seja usado principalmente por empresas de informação ou educação, para levar conteúdos para mais pessoas. Nos testes já realizados com desenvolvedoras parceiras, a OpenAI conseguiu desenvolver um assistente de leitura para ajudar crianças em fase de aprendizado, inclusive gerando respostas em tempo real sobre as mais variadas matérias.
Função de simular vozes pode ou não ser acoplada ao ChatGPT no futuro.Fonte: GettyImages
Até mesmo quem tem alguma condição que prejudica ou impede a fala pode usar a plataforma para se comunicar melhor a partir da voz sintética.
Apesar da empolgação, a empresa reconhece que a liberação deve ser gradual para entender “como a sociedade pode se adaptar a essas novas capacidades“, já que há “o potencial uso indevido de vozes sintéticas” em vários casos.
A OpenAI vai se juntar a uma série de organizações dos Estados Unidos e internacionais para debater o uso responsável dessa IA. Uma das regras será a proibição de copiar a voz de outra pessoa sem a devida autorização, além de sempre avisar o ouvinte quando a fala foi gerada artificialmente.