Uma revisão publicada em janeiro de 2025 analisa como grandes modelos de linguagem podem ser incorporados à revisão por pares em periódicos médicos, com aplicações em triagem inicial, escolha de avaliadores, apoio a pareceres e revisão linguística. A conclusão é cautelosa: a IA generativa pode aliviar gargalos da comunicação científica e melhorar processos formativos na educação superior em saúde, mas deve atuar como ferramenta complementar, sob diretrizes explícitas de privacidade, transparência e responsabilidade humana.
O QUE HÁ DE NOVO: O trabalho sistematiza evidências recentes sobre o uso de modelos de linguagem na revisão científica em um momento de forte pressão sobre editores e pareceristas: a produção acadêmica em medicina cresceu 47% entre 2016 e 2022, enquanto a disponibilidade de revisores não acompanhou o mesmo ritmo. Uma pesquisa de 2024 citada na análise indica que 70% dos pesquisadores levam ao menos quatro dias para concluir um parecer, e 62% apontam a falta de tempo como o principal obstáculo. O texto propõe quatro pontos de integração da IA no fluxo editorial: triagem de manuscritos, identificação de revisores, apoio à elaboração de feedback estruturado e checagem de gramática e formatação.
COMO FUNCIONA: A IA discutida na revisão é formada por grandes modelos de linguagem, capazes de processar textos acadêmicos, resumir argumentos, sugerir críticas, identificar problemas de clareza e comparar manuscritos com critérios editoriais. No fluxo proposto, editores poderiam usar esses sistemas para verificar aderência ao escopo de um periódico e requisitos técnicos; em seguida, modelos poderiam apoiar a busca de pareceristas com base em temas, publicações e histórico de revisão. Para revisores, a aplicação mais concreta seria transformar observações dispersas em comentários mais organizados, menos agressivos e mais úteis ao autor, além de corrigir problemas linguísticos antes da avaliação substantiva.
PRINCIPAIS RESULTADOS: As evidências reunidas são mistas. Em estudos com manuscritos médicos, modelos como GPT-3.5 e GPT-4 mostraram baixa correspondência com pareceres humanos e pouca relação com decisões finais de aceitação, sugerindo limitações para julgar qualidade científica em medicina. Em outros contextos, os resultados foram mais positivos: em uma pesquisa com 308 pesquisadores, 57,4% consideraram útil o feedback gerado pelo GPT-4, e 82,4% avaliaram seu desempenho como superior ao de ao menos alguns revisores humanos. Sistemas multiagentes produziram comentários mais específicos do que abordagens com um único agente, mas entre 38% e 48% dos comentários gerados foram classificados como altamente imprecisos, um alerta importante contra a automação plena.
O PULO DO GATO: A contribuição mais relevante da análise é deslocar a pergunta de “a IA pode revisar artigos?” para “em quais partes da revisão científica a IA agrega valor sem tomar decisões acadêmicas por especialistas?”. A resposta favorece usos de baixo risco e alto volume, como padronizar critérios, melhorar a linguagem e reduzir tarefas operacionais, preservando para humanos a avaliação de originalidade, desenho metodológico, estatística, implicações clínicas e relevância para a área. Essa distinção é especialmente importante na educação em saúde, onde a revisão por pares também funciona como prática formativa para docentes, residentes, pós-graduandos e novos pesquisadores.
LIMITAÇÕES E RISCOS: A revisão destaca três grupos de problemas. O primeiro é técnico: modelos de linguagem tendem a se sair melhor em tarefas linguísticas do que na interpretação de dados, causalidade, estatística e significado clínico; em medicina, uma escrita cautelosa pode ser confundida pela IA com baixa confiança nos achados. O segundo é ético: manuscritos não publicados podem conter dados sensíveis, informações de pacientes, resultados de ensaios clínicos e propriedade intelectual, o que torna arriscado inseri-los em serviços comerciais sem garantias de confidencialidade. O terceiro é sistêmico: modelos treinados predominantemente em textos em inglês e de instituições de maior prestígio podem reforçar vieses contra pesquisadores de regiões, idiomas ou tradições acadêmicas menos representadas.
POR QUE ISSO IMPORTA PARA A EDUCAÇÃO: Para universidades, programas de pós-graduação e escolas médicas, a revisão por pares não é apenas um mecanismo editorial; é parte da formação de pesquisadores e docentes capazes de argumentar, avaliar evidências e oferecer feedback qualificado. Se bem usada, a IA pode acelerar etapas administrativas, apoiar revisores iniciantes, reduzir barreiras linguísticas para autores não nativos em inglês e ajudar professores a ensinar critérios de avaliação científica de modo mais explícito. Ao mesmo tempo, o uso acrítico pode empobrecer a aprendizagem, levando estudantes e pesquisadores a terceirizar justamente as habilidades que a formação acadêmica busca desenvolver: julgamento, ceticismo metodológico e responsabilidade ética.
O QUE VEM A SEGUIR: A recomendação central é que editores, revisores e instituições criem diretrizes claras para o uso de IA na revisão científica, incluindo quando a ferramenta pode ser usada, como declarar seu uso, que tipos de dados não devem ser compartilhados e quem responde por erros. A revisão também aponta a necessidade de formação continuada para a comunidade acadêmica, já que a evolução rápida dos modelos torna insuficientes políticas genéricas ou estáticas. Para a educação em saúde, o desafio será transformar a IA em apoio à qualidade e à inclusão na comunicação científica, sem reduzir a revisão por pares a um procedimento automatizado nem enfraquecer a autoridade do julgamento especializado.
Fonte: Journal of Educational Evaluation for Health Professions