Mariana Vick
Laboratório para processadores de inteligência artificial da Amazon, nos EUA
Treinamento de tecnologias com dados sintéticos pode levar modelos a ‘colapso’, segundo estudos. Aumento de conteúdos gerados por inteligência artificial e limitações no acesso a bases tradicionais favorecem cenário
A inteligência artificial ganha cada vez mais espaço. Modelos de processamento de linguagem natural, como o ChatGPT, são capazes de gerar e processar enormes quantidades de dados. Há uma situação, no entanto, que pode comprometer o trabalho realizado por essas ferramentas: quando elas são treinadas com dados também gerados por IA.
A IA generativa, como é chamada a tecnologia capaz de gerar textos, é tradicionalmente alimentada com dados reais (gerados por humanos). O aumento dos conteúdos produzidos por IA na internet e as limitações crescentes no acesso a bases de dados, no entanto, têm levado desenvolvedores a cogitar o uso de dados gerados por IA para treinar seus modelos. Estudos recentes mostram que a prática, se for disseminada, pode levar ao colapso das ferramentas.
Neste texto, o Nexo explica o que dizem estudos sobre a alimentação de inteligência artificial com dados também gerados por IA, por que esse cenário é cada vez mais provável e o que pode ser feito para evitar o colapso dos modelos. Mostra também, a partir da avaliação de um pesquisador, se o quadro indica que a tecnologia pode estar atingindo certos limites.
O que os estudos dizem
Dois estudos publicados em julho na revista Nature analisaram os impactos da alimentação de ferramentas de IA com dados gerados por inteligência artificial. O primeiro, feito por pesquisadores de instituições dos EUA, Reino Unido e Canadá, mostra que, depois de alguns ciclos de treinamento com esse tipo de dado, os modelos passam a cometer erros significativos. Depois, produzem informações sem sentido algum.
Um exemplo desse tipo de situação aparece no segundo estudo, publicado por uma pesquisadora da Universidade Duke, nos EUA. A pesquisa baseou-se num experimento que alimentou um modelo de IA com imagens de cachorros de diferentes raças, mas principalmente goldens retrievers. A ferramenta, inicialmente, gerou mais imagens de golden retrievers; depois, passou a excluir outras raças, até que passou a produzir fotos sem sentido.
A primeira pesquisa classificou o fenômeno como um “colapso” do modelo de inteligência artificial. Esse processo se dá em diferentes estágios, segundo Ilia Shumailov, pesquisador da Universidade de Oxford, no Reino Unido, e um dos coautores do estudo, em entrevista à emissora francesa EuroNews. Inicialmente, os dados não compreendidos pela IA original são subrepresentados na IA que usa suas informações, até que os erros aumentam e se reproduzem, inutilizando os modelos.
Outros problemas relacionados a essa prática são os vieses e a ausência de diversidade nos dados gerados por IA. “Uma informação sintética [produzida pela tecnologia] não tem a riqueza de um dado real”, disse ao Nexo Leonardo Tomazeli Duarte, professor da Unicamp (Universidade Estadual de Campinas) e coordenador científico do BI0S (Brazilian Institute of Data Science).
“É como se eu estivesse ensinando uma pessoa a pintar um quadro, mas só com elementos de quadros que já existem. Não vai haver aquela revolução ao pintar um quadro. Com dados sintéticos, há perda da diversidade, do realismo, da complexidade encontrada na natureza”
Leonardo Tomazeli Duarte
professor da Unicamp e coordenador científico do BI0S, vinculado à universidade, em entrevista ao Nexo
“Com o tempo, esperamos que fique mais difícil treinar os modelos”, disse Shumailov à Euronews. A principal preocupação dele e de outros cientistas é que essa prática, se ocorrer, pode levar à queda do trabalho realizado pelos modelos de IA. Essas ferramentas, segundo o pesquisador, dependem da qualidade dos dados que as alimentam.
O que causa o problema
A probabilidade de modelos de IA serem treinados com dados gerados por inteligência artificial tem aumentado à medida que crescem as restrições para o acesso a informações produzidas por humanos. Vários dos sites usados para treinar essas ferramentas restringiram o uso de seus dados no último ano, segundo um estudo publicado em junho por um grupo de pesquisa liderado pelo MIT (Instituto de Tecnologia de Massachusetts). A pesquisa analisou 14 mil sites incluídos em três conjuntos de dados usados para treinamento de IA e descobriu o que chamou de uma “crise emergente de consentimento” das plataformas.
Entre os três conjuntos de dados — chamados C4, RefinedWeb e Dolma —, 5% de todas as informações e 25% das que vinham de fontes de maior qualidade haviam sido restritas para o treinamento de IA. Parte das plataformas criou paywalls ou mudou seus termos de serviço para que isso acontecesse. Outros bloquearam rastreadores automatizados da internet usados por empresas como a OpenAI, que criou o ChatGPT.
“Estamos vendo um rápido declínio no consentimento para usar dados na internet, que terá implicações não apenas para empresas de IA, mas para pesquisadores, acadêmicos e entidades não comerciais”, disse Shayne Longpre, autor principal do estudo, em entrevista ao jornal americano The New York Times. Sites como o Reddit e o StackOverflow (voltado para desenvolvedores) passaram a cobrar empresas de IA pelo acesso a seus dados nos últimos anos. O próprio The New York Times processou a OpenAI e a Microsoft por violação de direitos autorais em 2023.
Outro fator que contribui para o aumento da possibilidade de modelos de IA serem cada vez mais treinados com dados sintéticos é o aumento do uso de ferramentas como o ChatGPT. “Quanto mais as pessoas usam essas ferramentas, menos elas geram dados em outros locais. Isso alimenta e desestimula a geração de novos dados e cria um paradoxo”, disse Duarte ao Nexo.
O que pode ser feito para evitá-lo
Shumailov disse à Euronews que, com o uso de dados sintéticos para alimentar modelos de IA, é provável que desenvolvedores tenham que dedicar mais tempo para filtrar as informações que treinam as tecnologias. A prática pode servir tanto para evitar que os sistemas entrem em “colapso” quanto para prevenir possíveis vieses dos dados gerados por IA. A medida, por outro lado, pode atrasar outras melhorias nas ferramentas.
Duarte disse ao Nexo que, em vez de limitar o uso de dados gerados por IA, as empresas podem adotar princípios para contornar os problemas gerados por esse tipo de treinamento. “Algumas organizações mundiais já criaram boas práticas de geração de dados sintéticos. A questão não é evitar, mas ter cuidado para não haver dados sintéticos que possam causar problemas no treinamento do modelo.”
“Quando uma ferramenta gera rostos de pessoas sintéticos, por exemplo, ela pode criar um desbalanço — intencionalmente ou sem nenhuma intenção — se privilegiar a geração de um gênero, como o homem, em detrimento de mulheres. Isso pode criar vieses no treinamento e na aplicação do método de IA. Mas criar boas práticas [para evitar o problema] pode ser um caminho bom”, afirmou.
Quais são os limites da IA
Duarte disse que os efeitos desse tipo de problema para o futuro da IA ainda são incertos. “É uma questão que vem sendo discutida — saber se estamos atingindo um limite de desempenho em termos de dados”, afirmou. “Tem muita evolução, mas podemos ter uma dificuldade muito grande de termos novos dados.”
“Os modelos de linguagem natural estão ‘raspando’ [coletando] muitos dados em quase todos os lugares possíveis. Isso pode gerar uma escassez, e podemos chegar ao esgotamento dos dados, que são finitos. Não sabemos se estamos perto de chegar desse limite, mas é um problema que se vislumbra”
Leonardo Tomazeli Duarte
professor da Unicamp e coordenador científico do BI0S
Essas discussões ocorrem num momento em que empresas de IA estão sob escrutínio por risco de verem uma bolha como a do começo da internet, na virada do século 21. O boom recente de negócios ligados à inteligência artificial tem suscitado recordes nas bolsas de valores nos EUA. A Nvidia, fabricante de chips voltados para a IA, chegou a valer US$ 3,3 trilhões em julho, tornando-se por dois dias a empresa mais valiosa do mundo.
“Antigamente, na computação, nos preocupávamos muito com a escassez de processamento, com a capacidade computacional de processar dados. Hoje há duas preocupações: o quanto conseguimos processar e o quanto conseguimos ter de dados disponíveis a serem processados”, disse Duarte.
Fonte:
Nenhum comentário:
Postar um comentário