Um estudo com 60 educadores avaliou se explicações em linguagem natural geradas por IA generativa podem apoiar correção e devolutivas em respostas abertas, sem transferir a decisão final para a máquina. Os resultados sugerem ganho consistente na qualidade do feedback quando a IA explica seu raciocínio em texto, enquanto pistas mais “técnicas”, como destaque de palavras relevantes, tiveram pouco efeito, e a precisão de nota pouco mudou.
O QUE HÁ DE NOVO: Pesquisadores publicaram uma investigação experimental sobre como diferentes “insights” de corretores automáticos influenciam práticas de avaliação de educadores ao corrigir respostas curtas de estudantes do ensino médio. O trabalho comparou três condições: sem apoio de IA; apoio por destaque de palavras importantes (extraídas de um modelo BERT); e apoio por explicações em linguagem natural produzidas por um modelo generativo (GPT‑4). No total, 60 participantes com experiência docente foram recrutados em sete regiões e realizaram múltiplas rodadas de correção e produção de feedback.
COMO FUNCIONA: A pesquisa usou itens do conjunto ASAP‑SAS, com questões de língua inglesa (organização de um texto) e de raciocínio científico (interpretação de um experimento), ambas com escala de 0 a 2 pontos. Na condição com IA generativa, o GPT‑4 fornecia justificativas em passos (explicações do porquê da avaliação) e um score sugerido; na condição “tradicional”, um sistema BERT marcava palavras com maior influência na decisão, identificadas por uma técnica de explicabilidade (integrated gradients). Os educadores corrigiram em fases: uma etapa inicial sem IA para estabelecer linha de base, uma etapa experimental com os diferentes tipos de apoio e uma etapa posterior, sem IA, para observar possíveis efeitos de aprendizagem após exposição às pistas automatizadas.
PRINCIPAIS RESULTADOS: O principal achado quantitativo foi na qualidade do feedback: as explicações em linguagem natural associaram-se a melhora significativa frente ao grupo sem IA (β=0,190; p=0,010), enquanto o destaque de palavras mostrou efeito desprezível. Já na precisão da nota, não houve melhora estatisticamente robusta, embora a condição com explicações tenha indicado maior potencial de ganho (β=0,556; p=0,093) do que a condição de palavras importantes (β=-0,060; p=0,848). Em percepção, educadores relataram maior satisfação e maior disposição de adotar as explicações em linguagem natural do que o destaque de palavras (p<0,05; r entre 0,352 e 0,490).
POR QUE ISSO IMPORTA PARA A EDUCAÇÃO: Para redes e escolas que avaliam respostas abertas, o estudo reforça uma hipótese prática: IA não precisa “dar a nota” para agregar valor, pode apoiar o julgamento profissional ao tornar seu raciocínio compreensível, o que parece se traduzir em feedback mais acionável. Isso é relevante em contextos de alta carga de correção, onde a pressão por rapidez costuma degradar a qualidade das devolutivas, com efeitos diretos sobre aprendizagem e engajamento dos estudantes.
Do ponto de vista do trabalho docente, a comparação com o destaque de palavras sugere que explicabilidade “difícil de ler” pode elevar a carga cognitiva e não virar melhoria concreta na escrita do feedback. Em contraste, a explicação em linguagem natural parece reduzir a fricção de uso e aumentar a aceitação, um fator crítico para adoção real, especialmente quando a ferramenta entra na rotina de correções e revisões pedagógicas.
SIM, MAS…: Há limitações importantes para interpretar o alcance dos resultados. Uma delas é que a etapa experimental foi conduzida com respostas que os dois tipos de corretores automáticos avaliavam corretamente, o que reduz a exposição dos educadores a casos de erro, exatamente onde o risco de “confiar demais” pode ser mais danoso. Além disso, os efeitos em precisão de nota foram modestos e, em parte, não significativos; os próprios autores observam que as tarefas podem ter sido relativamente fáceis para os participantes, reduzindo a margem para a IA melhorar acurácia.
O QUE VEM DEPOIS: O estudo aponta indícios de que a exposição prévia a explicações automatizadas pode influenciar práticas posteriores mesmo sem IA, mas reconhece a necessidade de evidência longitudinal para confirmar se há aprendizagem sustentada (ou, no extremo oposto, dependência). Para tomadores de decisão, o próximo passo natural é testar esse tipo de apoio em contextos autênticos (turmas reais, diferentes disciplinas, rubricas locais), incluindo cenários com erros do modelo, protocolos de auditoria e formação docente para calibrar confiança, checar justificativas e preservar autonomia profissional.
Fonte: https://link.springer.com/article/10.1007/s10639-025-13741-z