Estudo testa explicações em linguagem natural para IA apoiar correção docente

Um estudo com 60 educadores avaliou se explicações em linguagem natural geradas por IA generativa podem apoiar correção e devolutivas em respostas abertas, sem transferir a decisão final para a máquina. Os resultados sugerem ganho consistente na qualidade do feedback quando a IA explica seu raciocínio em texto, enquanto pistas mais “técnicas”, como destaque de palavras relevantes, tiveram pouco efeito, e a precisão de nota pouco mudou.

O QUE HÁ DE NOVO: Pesquisadores publicaram uma investigação experimental sobre como diferentes “insights” de corretores automáticos influenciam práticas de avaliação de educadores ao corrigir respostas curtas de estudantes do ensino médio. O trabalho comparou três condições: sem apoio de IA; apoio por destaque de palavras importantes (extraídas de um modelo BERT); e apoio por explicações em linguagem natural produzidas por um modelo generativo (GPT‑4). No total, 60 participantes com experiência docente foram recrutados em sete regiões e realizaram múltiplas rodadas de correção e produção de feedback.

COMO FUNCIONA: A pesquisa usou itens do conjunto ASAP‑SAS, com questões de língua inglesa (organização de um texto) e de raciocínio científico (interpretação de um experimento), ambas com escala de 0 a 2 pontos. Na condição com IA generativa, o GPT‑4 fornecia justificativas em passos (explicações do porquê da avaliação) e um score sugerido; na condição “tradicional”, um sistema BERT marcava palavras com maior influência na decisão, identificadas por uma técnica de explicabilidade (integrated gradients). Os educadores corrigiram em fases: uma etapa inicial sem IA para estabelecer linha de base, uma etapa experimental com os diferentes tipos de apoio e uma etapa posterior, sem IA, para observar possíveis efeitos de aprendizagem após exposição às pistas automatizadas.

PRINCIPAIS RESULTADOS: O principal achado quantitativo foi na qualidade do feedback: as explicações em linguagem natural associaram-se a melhora significativa frente ao grupo sem IA (β=0,190; p=0,010), enquanto o destaque de palavras mostrou efeito desprezível. Já na precisão da nota, não houve melhora estatisticamente robusta, embora a condição com explicações tenha indicado maior potencial de ganho (β=0,556; p=0,093) do que a condição de palavras importantes (β=-0,060; p=0,848). Em percepção, educadores relataram maior satisfação e maior disposição de adotar as explicações em linguagem natural do que o destaque de palavras (p<0,05; r entre 0,352 e 0,490).

POR QUE ISSO IMPORTA PARA A EDUCAÇÃO: Para redes e escolas que avaliam respostas abertas, o estudo reforça uma hipótese prática: IA não precisa “dar a nota” para agregar valor, pode apoiar o julgamento profissional ao tornar seu raciocínio compreensível, o que parece se traduzir em feedback mais acionável. Isso é relevante em contextos de alta carga de correção, onde a pressão por rapidez costuma degradar a qualidade das devolutivas, com efeitos diretos sobre aprendizagem e engajamento dos estudantes.

Do ponto de vista do trabalho docente, a comparação com o destaque de palavras sugere que explicabilidade “difícil de ler” pode elevar a carga cognitiva e não virar melhoria concreta na escrita do feedback. Em contraste, a explicação em linguagem natural parece reduzir a fricção de uso e aumentar a aceitação, um fator crítico para adoção real, especialmente quando a ferramenta entra na rotina de correções e revisões pedagógicas.

SIM, MAS…: Há limitações importantes para interpretar o alcance dos resultados. Uma delas é que a etapa experimental foi conduzida com respostas que os dois tipos de corretores automáticos avaliavam corretamente, o que reduz a exposição dos educadores a casos de erro, exatamente onde o risco de “confiar demais” pode ser mais danoso. Além disso, os efeitos em precisão de nota foram modestos e, em parte, não significativos; os próprios autores observam que as tarefas podem ter sido relativamente fáceis para os participantes, reduzindo a margem para a IA melhorar acurácia.

O QUE VEM DEPOIS: O estudo aponta indícios de que a exposição prévia a explicações automatizadas pode influenciar práticas posteriores mesmo sem IA, mas reconhece a necessidade de evidência longitudinal para confirmar se há aprendizagem sustentada (ou, no extremo oposto, dependência). Para tomadores de decisão, o próximo passo natural é testar esse tipo de apoio em contextos autênticos (turmas reais, diferentes disciplinas, rubricas locais), incluindo cenários com erros do modelo, protocolos de auditoria e formação docente para calibrar confiança, checar justificativas e preservar autonomia profissional.

Fonte: When AI explains in natural language: Unveiling the impact of generative AI explanations on educators’ grading and feedback practices

Fonte: https://link.springer.com/article/10.1007/s10639-025-13741-z

Posts Relacionados

Autoeficácia em IA influencia como universitários usam feedback de GenAI com grafo

Plataforma usa IA generativa para personalizar treinos do teste teórico de direção

Modelo híbrido usa visão computacional para detectar engajamento em aulas de japonês