A OpenAI está sendo processada por supostamente usar milhões de transcrições de vídeos do YouTube para treinar seus modelos de inteligência artificial generativa sem autorização dos proprietários dos conteúdos. A ação coletiva foi aberta pelo youtuber David Millette no Tribunal Distrital dos Estados Unidos, na sexta-feira (2).
Conforme o usuário do YouTube, a dona do ChatGPT transcreveu os conteúdos postados em seu canal e aproveitou o material no treinamento do chatbot sem qualquer consentimento dado por ele. O mesmo teria acontecido com diversos outros criadores.
Os materiais de canais do YouTube teriam sido coletados sem nenhuma solicitação aos proprietários, segundo a ação.Fonte: Getty Images/Reprodução
Millette alega, ainda, que a startup “lucrou significativamente” com os conteúdos dos criadores que, por sua vez, não receberam nada em troca. O processo também cita a violação à lei de direitos autorais e a política do YouTube, que proíbe esse tipo de prática quando não há autorização do proprietário.
“Muito do material nos conjuntos de dados de treinamento da OpenAI, no entanto, vem de trabalhos que foram copiados pela OpenAI sem consentimento, sem crédito e sem compensação”, disse o youtuber. Ele pede uma indenização de US$ 5 milhões para todos os usuários cujos conteúdos podem ter sido coletados pela empresa.
Desenvolvedoras podem ficar sem dados para treinamentos
O uso não autorizado de conteúdos de terceiros para o treinamento de IAs generativas tem preocupado os proprietários dos materiais. Para se proteger da prática, muitos sites estão começando a bloquear o rastreador web da OpenAI, dificultando a coleta das informações para alimentar a tecnologia.
Uma pesquisa divulgada recentemente pela Originality AI aponta que 35% dos 1 mil principais sites do mundo já bloquearam a desenvolvedora e outras empresas do segmento. Com isso, elas podem ficar sem uma boa parcela das fontes de alta qualidade usadas no processo em breve.
Caso a tendência atual de bloqueio de acesso de rastreadores continue é possível que as empresas de IA fiquem sem dados para alimentar seus bots inteligentes entre 2026 e 2032, como prevê um estudo feito pela Data Provenance Initiative do Instituto de Tecnologia de Massachusetts (MIT).