Cientistas publicam mais de 10 milhões de estudos e outras publicações por ano. Algumas dessas descobertas vão se somar ao acervo de conhecimento da humanidade. Mas algumas estarão erradas.
Para avaliar um estudo, cientistas podem replicá-lo para ver se obtêm o mesmo resultado. Mas há sete anos, uma equipe de centenas de cientistas se propôs a encontrar uma maneira mais rápida de avaliar a nova literatura científica. Eles construíram sistemas de inteligência artificial para prever se os estudos resistiriam ao escrutínio.
O projeto, financiado pela Agência de Projetos de Pesquisa Avançada de Defesa (Darpa, na sigla em inglês) foi chamado de Confiança Sistematizada em Pesquisa Aberta e Evidência (Score, na sigla em inglês). A ideia veio de Adam Russell, então gerente de programa da agência. Ele imaginou gerar uma espécie de pontuação de crédito para a ciência.
“As pessoas podem dizer: ‘Ei, isso provavelmente é robusto, podemos basear uma política nisso'”, disse Russell, que agora está na Universidade do Sul da Califórnia. “‘Mas isso? Não, isso pode render um livro de aeroporto.'”
A equipe do Score inspecionou centenas de estudos, replicando muitos deles, para entender melhor o que faz uma pesquisa se sustentar. Agora está publicando uma série de artigos sobre esses esforços.
Por enquanto, uma pontuação de crédito científica continua sendo um sonho, dizem os pesquisadores. A inteligência artificial não consegue fazer previsões confiáveis.
“Ainda não chegamos lá”, disse Brian Nosek, diretor executivo do Centro para Ciência Aberta e um dos líderes do projeto. “Está captando algum tipo de sinal, mas precisaria ser muito mais preciso para ser usado sozinho.”
Mas ao longo do caminho, especialistas externos disseram que a equipe do SCORE fez um mergulho notavelmente profundo no processo científico, descobrindo pistas que podem ajudar a melhorá-lo.
“Acho que nunca houve nada nessa escala antes”, disse Dorothy Bishop, psicóloga da Universidade de Oxford que não fez parte do esforço.
Veja você mesmo
Replicar pesquisas tem sido um pilar da ciência por gerações. Em 1953, cientistas ficaram surpresos quando Clair Patterson, um geoquímico do Caltech, usou uma nova técnica para determinar que a Terra tem 4,5 bilhões de anos —1,2 bilhão de anos a mais do que estimativas anteriores.
“Eu tinha alguns dos melhores e mais capazes críticos do mundo tentando destruir meu número”, Patterson recordou mais tarde. “Eles se esforçaram ao máximo para provar que eu estava errado.” Por mais que tentassem, no entanto, seu número se manteve.
Mas às vezes as replicações não concordam. Em 1976, arqueólogos descobriram um antigo acampamento de caça em Monte Verde, no Chile, e determinaram que tinha cerca de 14.500 anos, muito mais antigo do que evidências anteriormente descobertas de pessoas nas Américas.
Quase 50 anos se passaram antes que uma equipe independente de cientistas replicasse o estudo. No mês passado, eles chegaram a uma conclusão muito diferente: pessoas viveram em Monte Verde em algum momento entre 4.200 e 8.200 anos atrás.
Os autores do estudo original contestam a nova descoberta; mais pesquisas provavelmente serão necessárias para resolver o conflito. É assim que a ciência se corrige.
Pelo menos, é assim que deveria funcionar. Mas replicar pesquisas anteriores leva tempo e dinheiro que os pesquisadores podem preferir gastar em seus próprios estudos. E editores de periódicos frequentemente bocejam diante de replicações.
Melanie Mitchell, pesquisadora de inteligência artificial no Instituto Santa Fe, no Novo México (EUA), recentemente replicou um artigo de IA e não conseguiu reproduzir os resultados originais. Um periódico rejeitou seu artigo alegando falta de novidade.
“Eu realmente odeio esse tipo de cultura”, disse Mitchell a uma plateia em uma palestra na Universidade Yale no mês passado.
Resolvendo um “problema perverso”
Por mais de 15 anos, alguns cientistas têm tentado mudar a cultura. Eles começaram documentando a extensão do problema. No início dos anos 2010, Nosek e colegas replicaram 100 artigos de psicologia —e reproduziram os resultados originais apenas 39% das vezes.
Em outro projeto, Nosek se uniu a biólogos do câncer para replicar 50 experimentos em animais e células humanas. Menos da metade dos resultados resistiu ao escrutínio.
Russell, na Darpa, se perguntou se cientistas poderiam usar inteligência artificial para prever a confiabilidade de um estudo. Mas primeiro os cientistas teriam que reunir muito mais dados sobre replicação. “Eu sabia que era um problema perverso”, disse ele.
O projeto Score começou em 2019 e cresceu para incluir 865 pesquisadores. Eles analisaram 3.900 artigos publicados de 2009 a 2018 de campos das ciências sociais, como criminologia, economia, psicologia e sociologia.
Em uma linha de pesquisa, a equipe do Score replicou 164 dos estudos. Membros da equipe refizeram alguns experimentos, recrutando voluntários para fazer os testes originais novamente. Para estudos baseados em estatísticas governamentais, membros da equipe do Score obtiveram seus próprios dados e os analisaram.
Apenas cerca de metade dos estudos replicados produziu os mesmos resultados dos originais.
Tim Parker, biólogo do Whitman College que não participou da pesquisa, disse que a baixa taxa estava em linha com estudos anteriores menores.
“Acho que são resultados muito convincentes”, disse ele. “E eu esperaria que pessoas que não foram persuadidas por evidências empíricas anteriores fossem mais persuadidas por isso.”
A equipe do Score também considerou como dados problemáticos, assim como problemas nos programas de computador usados para análise, podem levar a falhas de replicação.
Os pesquisadores analisaram os dados em 143 artigos utilizando o mesmo código usado pelos autores originais. Cerca de 9% dos resultados do Score foram completamente diferentes dos originais; outros 14% foram apenas aproximadamente iguais.
Abel Brodeur, economista da Universidade de Ottawa (Canadá), disse que encontrou problemas semelhantes em seu próprio projeto de teste científico, o Instituto para Replicação. Essas falhas podem surgir quando cientistas cometem erros ao formatar seus dados ou escrever seus programas. “Às vezes os erros de código são absurdos”, disse ele.
O problema pode na verdade ser pior do que o estudo Score sugere, porque cientistas frequentemente não compartilham seus dados e código. Quando a equipe do Score teve que escrever seu próprio código para analisar dados, reproduziu exatamente os mesmos resultados menos da metade das vezes.
Russell esperava que sistemas de inteligência artificial pudessem treinar com as descobertas do Score para aprender os sinais reveladores de um artigo que vai ou não replicar com sucesso. Mas o mistério da replicação ainda parece profundo demais; as previsões da IA não são totalmente aleatórias, mas estão longe de ser perfeitas, descobriu a equipe do Score.
“Ainda não é tão impressionante”, disse Andrew Tyner, cientista de pesquisa principal do Centro para Ciência Aberta e autor dos novos estudos. “Mas pode haver algo ali.”
Isso não significa que especialistas podem confiar em seus próprios instintos, no entanto. O projeto Score recrutou centenas de especialistas para prever se artigos seriam replicados com sucesso. Revisando 132 replicações, a equipe do Score descobriu que os especialistas acertaram cerca de três quartos das vezes.
Nosek alertou que não importa quanto cuidado os pesquisadores coloquem em seu trabalho, às vezes ainda estarão errados.
“É difícil na fronteira do conhecimento, e não importa em quais questões você está trabalhando”, disse Nosek. “Há muitos começos falsos e muitas coisas que não fazem sentido.”
Fonte: Link da fonte








