Olavo Amaralé*
23 de janeiro de 2024Para a inteligência artificial, o que é fácil é difícil, o que é difícil é fácil, e deveríamos estar nos preocupando mais com isso
Foi apenas recentemente, lendo ficção científica, que ouvi falar no paradoxo de Moravec. Elaborado na década de 1980 pelo cientista computacional austríaco Hans Moravec (também autor deste texto alucinante sobre as implicações metafísicas da inteligência artificial), o paradoxo se refere ao fato de que tarefas de raciocínio que julgamos difíceis costumam ser fáceis de ensinar a um computador, enquanto tarefas sensório-motoras que fazemos sem pensar são notavelmente difíceis para as máquinas. Como resumiria Steven Pinker na década seguinte, “a principal lição de 35anos de pesquisa em inteligência artificial é que os problemas difíceis são fáceis e os fáceis são difíceis”.
É inegável que o meio de campo embolou com a chegada do ChatGPT e outros modelos proficientes em uma habilidade bastante natural para os humanos (a linguagem). Mas de forma geral, o paradoxo de Moravec segue valendo: computadores tem desempenho claramente sobre-humano em xadrez, go ou previsão de estrutura de proteínas; ainda assim, os robôs mais impressionantes em termos de habilidade motora atualmente não sobreviveriam a uma partida de futebol com meu filho de 4 anos.
Quando se para pra pensar, isso não tem nada de tão paradoxal. É esperado que seja mais difícil para computadores alcançarem o nível humano nas tarefas em que somos realmente bons. Estas, afinal, são habilidades para as quais fomos moldados por milhões de anos de evolução para fazer sem pensar. Filtrar um fluxo contínuo de imagens, sons e outras sensações, convertê-lo em um modelo de mundo que faça sentido e ser capaz de se deslocar nele sem cair no chão pode parecer fácil, mas envolve um trabalho gigantesco de processamento de informação feito de forma automática por nosso cérebro.
Foi por conta dessas habilidades, que impulsionaram o desenvolvimento do sistema nervoso desde seu surgimento nos invertebrados, que nossos ancestrais sobreviveram por milênios na savana e fizeram nossa espécie chegar até aqui. Jogar xadrez ou fazer contas complicadas, por outro lado, só se tornaram úteis há poucos séculos – e, sem ter tido tempo para causar qualquer impacto evolutivo em nossa configuração cerebral, acabaram aprendidas de improviso em um hardware planejado para outras coisas.
Me parece que temos passado ao largo da pergunta mais importante: o que ainda vale a pena ensinar a um jovem em 2024?
É apenas natural, assim, que superemos as máquinas naquilo que fomos selecionados para fazer bem, como correr, pular ou falar. Da mesma forma que é normal que apanhemos dos computadores nas tarefas para as quais eles foram originalmente planejados, como multiplicar números de três dígitos. Cabe notar que essas tarefas não têm nem de perto a mesma complexidade computacional: fazer um computador diferenciar um gato de um cachorro envolve uma quantidade gigantesca de multiplicações de matrizes, mas é algo que nosso cérebro faz ao seu modo em milissegundos. E é apenas o fato de estarmos acostumados demais aos nossos talentos que nos faz achar que preencher um Captcha é mais fácil do que dividir a conta do boteco de cabeça.
Lembrei do paradoxo de Moravec esses dias ao ler um artigo no JAMA Psychiatry, em que pesquisadores na Alemanha treinaram modelos de aprendizado de máquina para diferenciar pacientes com depressão de controles saudáveis a partir de imagens do cérebro. A ideia de que em breve teremos marcadores biológicos para as doenças psiquiátricas é repetida como um mantra na literatura científica e na mídia leiga desde a virada biológica da psiquiatria americana nos anos 80 – e há décadas ouvimos a história de que, depois de décadas de estagnação, a psiquiatria vai alcançar o nível de objetividade do resto da medicina. E o fracasso repetido em alcançar esta meta através de exames individuais tem sido respondido com o uso de volumes cada vez maiores de dados – vindos de testes genéticos, exames de imagem, relatos verbais ou pegadas digitais – e modelos de inteligência artificial para tentar chegar a um diagnóstico confiável.
Os resultados? Bem, depois de 1.800 pacientes, dezenas de medidas tiradas de múltiplas modalidades de ressonância magnética, quatro milhões de modelos de aprendizado de máquina e alguns milhões de euros, o estudo acima consegue chegar a uma acurácia de 62% para diferenciar deprimidos de controles. Dado que alguém que chutasse às cegas acertaria 50%, o número não parece muito melhor do que o que você conseguiria olhando para a cara de uma pessoa na parada do ônibus. E ele certamente é pior do que você conseguiria falando com ela – simplesmente fazer perguntas sobre maus tratos na infância ou suporte social nos mesmos pacientes, aliás, levou a uma acurácia de 70% – bem melhor do que a combinação de todos os exames feitos, a uma fração ínfima do custo.
O fracasso pode parecer retumbante, mas ele não é nem de longe uma novidade. Em 2019, um estudo sobre genética da depressão com mais de 800 mil indivíduos conseguiu explicar apenas 3% da variação entre deprimidos e controles com base nos milhões de polimorfismos genéticos analisados. Mais do que isso, nenhum dos 18 genes mais estudados como preditores de depressão nos 25 anos anteriores apresentou uma associação estatisticamente significativa com a condição no estudo – ao contrário de coisas facilmente perguntáveis, como eventos traumáticos na infância e na vida adulta, que tiveram uma correlação expressiva com o diagnóstico.
E se você ouviu alguma história mais promissora sobre genes específicos causando depressão ao longo das décadas anteriores – o que é bem possível, dada a propaganda ensurdecedora da revolução biológica na psiquiatria – ela era provavelmente apenas mais um caso de ciência pouco confiável como tantos outros. Amostras pequenas, vieses de análise, seleção de dados e análises estatísticas frouxas podem facilmente inflar efeitos minúsculos ou inexistentes, e transformar em promessa algo que simplesmente não é verdade.
Não vou dizer aqui que tudo são limões: a herdabilidade da maior parte dos transtornos psiquiátricos é alta, e em algumas áreas testes genéticos possuem um valor preditivo maior: na esquizofrenia, perfis baseados em múltiplos genes podem indicar um risco da doença até cinco a seis vezes maior do que o da população em geral. Mas mesmo isso ainda significa uma chance pequena de desenvolvê-la, o que faz com que os testes não adicionem muita informação a uma entrevista psiquiátrica tradicional. É claro que a área segue evoluindo, e que é possível que algum dia esse tipo de medida venha a ser útil. Mas até agora pelo menos, parece claro que a ideia de que biomarcadores logo substituiriam o método “primitivo” de perguntar aos pacientes como eles se sentem simplesmente flopou.
E parando para pensar, me ocorre que isso é apenas mais uma instância do paradoxo de Moravec acertando suas previsões. Fazer inúmeras ressonâncias do cérebro, processar os dados para extrair as dimensões mais úteis neles e usar isso para alimentar quatro milhões de modelos computacionais, afinal, pode parecer algo muito além do que um ser humano conseguiria fazer. Mas isso simplesmente não é verdade.
Em primeiro lugar, temos um acesso extremamente privilegiado à atividade do nosso sistema nervoso através de nossa consciência – que é capaz de ler muito mais informações sobre a atividade dos nossos neurônios do que a resolução tosca de um punhado de ímãs gigantes consegue fazer. Afora isso, temos um sistema incrivelmente eficiente para sumarizar essa atividade, que estamos refinando há centenas de milhares de anos: as palavras que usamos para descrever o que estamos sentindo. Do outro lado, quem nos ouve teve seu próprio cérebro treinado desde criança para, a partir dessas e outras informações, prever como outras pessoas estão se sentindo. E pelo menos por ora (ainda que isso possa vir a mudar), esse cérebro ainda tem uma capacidade de processamento maior do que os computadores usados nos melhores estudos científicos.
Somando tudo isso, parece óbvio que olhar imagens do cérebro ao invés de falar com pacientes para saber como eles se sentem era uma furada nos anos 1980, ainda o é em 2024, e provavelmente seguirá sendo por algum tempo. Não há nada de ludita ou organocêntrico nessa posição: é só uma questão de quem tem os dados melhores e a melhor capacidade de processá-los. A ideia de que uma conversa é mais rudimentar que uma ressonância magnética deriva do mesmo engano de achar que caminhar sem tropeçar é trivial: uma impressão que só existe porque estamos tão acostumados com o que fazemos ao natural que deixamos de nos dar conta do quão complexo isso é. Em minha defesa, eu já achava que essa história de biomarcadores parecia superfaturada há uns bons 20 anos. Mas hoje, com o benefício de ter lido alguma ficção científica pelo caminho, isso me parece uma inevitabilidade matemática.
Minha intenção ao apontar isso não é glorificar o ser humano ou mostrar como somos melhores do que as máquinas (algo que virou moda desde que o ChatGPT apareceu, geralmente com resultados constrangedores). Pelo contrário, é provável que nossa supremacia seja desafiada em breve mesmo nos campos que hoje dominamos. Uma pesquisa recente com quase três mil pesquisadores em inteligência artificial estima que computadores vão nos derrotar em Angry Birds até 2025, em pôquer em 2026 e serão capazes de escrever best-sellers do New York Times em 2030. Mais do que isso, a maior parte dessas previsões encurtou assustadoramente entre 2022 e 2023.
Meu ponto aqui é apenas que ter parado para pensar nos campos em que computadores e grandes volumes de dados provavelmente nos superariam – e aqueles em que isso não era tão simples – teria direcionado melhor alguns esforços e recursos de pesquisa. Para prever o risco de um infarto – uma situação em que nossa capacidade de sentir dados relevantes como pressão arterial ou níveis de colesterol é péssima –, calculadoras munidas de meia dúzia de dados superam relatos de pacientes há décadas. Mas achar que isso aconteceria da mesma forma para depressão é ignorar o abismo gigantesco entre nossas percepções de sentimentos e de pressão arterial. Retrospectivamente, antever que não seria tão fácil era apenas uma questão de refletir sobre o que sabemos fazer melhor enquanto seres humanos.
E no fundo minha razão para escrever isso tudo é que esses pensamentos têm vindo à minha cabeça toda vez que entro em sala de aula ao longo do último ano. De 2022 pra cá, modelos de linguagem com o ChatGPT, mesmo com suas limitações, já são muito melhores do que um aluno de graduação médio em responder as perguntas sobre bioquímica baseadas em casos clínicos que eu costumava usar como tarefas em aula. Eles não só escrevem melhor do que qualquer um na turma, mas também parecem ter um domínio melhor de conceitos básicos de termodinâmica, metabolismo e outras coisas não necessariamente intuitivas para a maioria das pessoas.
E a cada semestre que começa, eu não consigo deixar de me perguntar o que estou fazendo ali. Qual a lógica de ensinar conceitos abstratos e contraintuitivos para indivíduos que claramente não foram selecionados pela evolução para compreendê-los, quando temos máquinas que fazem isso melhor, em escala e de graça? E por que fazer pouco caso das inúmeras coisas que essas mesmas pessoas fazem muito melhor do que qualquer máquina, como fazer piadas no fundo da sala e divertir os colegas, como se isso não fosse muito menos trivial do que responder as perguntas no papel?
A razão histórica para isso é óbvia: enquanto
nossos competidores diretos foram outros humanos, igualmente bons naquilo que
fazemos intuitivamente, o que nos diferenciou sempre foi fazer o que era
difícil para a espécie – o que explica que seja para aprender essas coisas que
as pessoas venham procurar um diploma na universidade.
Mas traga a mesma lógica para um mundo – cuja fronteira estamos recém começando
a cruzar – em que o fácil será difícil e o difícil será fácil, e estamos com as
prioridades totalmente invertidas. E ainda que o ChatGPT tenha feito educadores
se preocuparem com os aspectos óbvios do futuro da educação – como a obliteração da autoria e a obsolescência do dever de casa –, me parece que
temos passado ao largo da pergunta mais importante: o que ainda vale a pena
ensinar a um jovem em 2024?
E se evitamos a pergunta, é em parte porque ela requer que façamos previsões sobre o futuro – algo que somos notoriamente ruins em fazer. Mas é quase certo que mudanças gigantescas nos alcançarão nas próximas décadas – e se pensar no futuro parece difícil, não pensar nele parece absurdo. Nessas horas, cabe lembrar dos psiquiatras que dão de cabeça na parede há décadas ao tentar ensinar máquinas a fazer o que pessoas fazem bem. E se esforçar, ao ensinar pessoas, para não cometer o mesmo erro com o sinal trocado.
· *Olavo Amaralé médico, escritor e professor da UFRJ. Foi neurocientista por duas décadas e hoje se dedica à promoção de uma ciência mais aberta e reprodutível. Coordena a Iniciativa Brasileira de Reprodutibilidade, uma replicação multicêntrica de experimentos da ciência biomédica brasileira, e o No-Budget Science, um coletivo para catalisar projetos dedicados a construir uma ciência melhor. Como escritor, é autor de Dicionário de Línguas Imaginárias e Correnteza e Escombros
Imagem : blogdaboitempo.com.br/2023/05/12/
Nenhum comentário:
Postar um comentário