Um estudo com universitários na Alemanha analisou, em condições reais de avaliação digital, como o uso de chatbots de IA baseados em grandes modelos de linguagem se relaciona com o desempenho em tarefas de raciocínio crítico on-line e com resultados acadêmicos no primeiro ano. A evidência aponta para um ganho consistente de velocidade entre usuários de IA, sem melhoria estatisticamente significativa na qualidade das respostas nem nas notas, levantando implicações diretas para desenho de avaliações e para políticas de letramento em IA no ensino superior.

O QUE HÁ DE NOVO: A pesquisa examinou um “quase experimento natural” em cinco universidades alemãs, a partir de uma avaliação digital de Critical Online Reasoning (COR) em economia aplicada no inverno de 2023/24 (t0) e acompanhada por um segundo ponto de coleta no inverno de 2024/25 (t1). No t0, parte dos estudantes usou chatbots de IA livremente durante as tarefas, o que permitiu comparar usuários e não usuários com base em logs de navegação e escrita; no t1, o acesso a chatbots foi proibido para equalizar condições. O estudo trabalhou com 270 calouros inicialmente; após limpeza de dados e pareamento para reduzir viés de auto-seleção, analisou 245 observações, com 38 usuários identificados por evidências nos registros (cerca de dois terços usando ChatGPT, além de ferramentas como Gemini e Bing), e também acompanhou 171 estudantes um ano depois para relacionar hábitos de uso e resultados acadêmicos.

COMO FUNCIONA: Os estudantes resolveram quatro tarefas de COR “em espaço aberto de informação”, combinando busca na web, avaliação de fontes e síntese argumentativa em respostas escritas curtas, dentro de um ambiente remoto em máquina virtual com registro detalhado de URLs visitadas, tempo, ações e texto. A qualidade foi medida por escores fatoriais derivados de rubricas aplicadas por ao menos três avaliadores por resposta, com concordância considerada alta para uso em análises de grupo, enquanto a eficiência foi medida pelo tempo total para concluir cada tarefa. Para comparar usuários e não usuários de chatbots no t0, os autores aplicaram pareamento quase experimental orientado por variáveis inspiradas no Technology Acceptance Model (como proxies de facilidade e utilidade percebidas), além de controles acadêmicos e sociodemográficos; depois, testaram diferenças por modelos de regressão, incluindo efeitos mistos para tempos, e modelagem adicional para relacionar uso habitual de IA (para estudo e cotidiano) a indicadores de aprendizagem no t1, como exames realizados/aprovados, créditos e notas.

PRINCIPAIS RESULTADOS: No desempenho qualitativo das respostas (qualidade de raciocínio e síntese baseada em evidências), não houve diferenças estatisticamente significativas entre quem usou chatbots e quem não usou durante a avaliação, apesar de uma pequena vantagem média para usuários. Já no tempo de conclusão, a diferença apareceu de forma consistente: usuários terminaram as tarefas significativamente mais rápido em todas as atividades analisadas. No acompanhamento de resultados acadêmicos, o padrão “velocidade sem qualidade” reapareceu: estudantes que relataram uso frequente de chatbots no cotidiano tenderam a fazer e aprovar mais exames no primeiro ano, mas isso não se traduziu em melhores notas agregadas; quando esse uso cotidiano era controlado, variáveis de uso especificamente voltado aos estudos deixaram de mostrar associação significativa com os desfechos.

POR QUE ISSO IMPORTA PARA A EDUCAÇÃO: Para a sala de aula e para a aprendizagem, a distinção empírica entre eficiência e profundidade ajuda a calibrar expectativas: chatbots podem reduzir tempo de rascunho, busca inicial e organização do texto, mas isso não garante melhora no raciocínio, na checagem de evidências ou na qualidade da argumentação, justamente as competências que a COR busca medir em cenários realistas de informação abundante. Para professores e para desenho de avaliação, os achados reforçam o risco de confundir produtividade com aprendizagem: em tarefas abertas, o “ganho de throughput” pode aumentar a quantidade de entregas ou de exames realizados sem elevar o domínio conceitual, o que exige repensar critérios, formatos e suportes (por exemplo, exigir rastreabilidade de fontes, justificativas de avaliação e etapas de verificação).

SIM, MAS…: Os autores destacam limitações importantes para interpretação e adoção: o grupo de usuários identificados foi relativamente pequeno, o que pode reduzir poder estatístico para detectar diferenças de qualidade; além disso, “usar chatbot” não é um comportamento único, variando de consultas pontuais a dependência extensa, o que aumenta a heterogeneidade dentro do grupo e pode mascarar efeitos. O estudo também está “datado” do ponto de vista tecnológico, em grande parte associado às capacidades do ChatGPT 3.5 no período, antes de recursos mais disseminados de busca integrada e ferramentas com maior rastreabilidade; por fim, tanto a comparação quase experimental quanto as associações com resultados acadêmicos não equivalem a um ensaio randomizado, de modo que as conclusões devem ser lidas como relações observadas em contexto autêntico, e não como prova definitiva de causalidade.

O QUE VEM DEPOIS: As próximas etapas apontadas passam por explorar mais profundamente os mecanismos, e não só os produtos finais: o estudo sugere que análises de processo com logs (estratégias de prompt, verificação de fontes, revisões, alternância entre web e chatbot) podem explicar por que a velocidade aumenta sem elevar qualidade. Também ganha relevância testar efeitos por proficiência de uso, por disciplina e por tipos de tarefa, além de replicar com modelos mais recentes e com políticas institucionais explícitas de uso em avaliações. Na prática, a implicação imediata para universidades é investir em letramento de IA e em “vigilância epistêmica”, ensinar estudantes a checar, justificar e sintetizar criticamente a partir de saídas de IA, ao mesmo tempo em que se redesenham avaliações para medir competências que permaneçam demonstráveis mesmo em ambientes com assistência de chatbots.

Fonte: The relationship between AI-chatbots use, student assessment performance and learning outcomes in higher education