Revisão mapeia como tornar avaliações com IA mais justas e explicáveis

Uma revisão sistemática publicada na revista Sustainability reúne evidências de 47 estudos (2019–2025) sobre avaliação acadêmica apoiada por IA e conclui que ganhos de eficiência e consistência só se sustentam quando instituições tratam, de forma integrada, quatro frentes: justiça, transparência, desenho pedagógico e governança.

O QUE HÁ DE NOVO: O artigo “Sustainable AI-Driven Assessment in Higher Education” sintetiza pesquisas recentes sobre o uso de IA, incluindo IA generativa e grandes modelos de linguagem, em processos de avaliação e feedback no ensino superior. A revisão segue o protocolo PRISMA 2020, parte de 145 registros após deduplicação e chega a 47 trabalhos considerados de alta qualidade, cobrindo contextos diversos (Ocidente, Golfo, Sul e Leste Asiático, além de estudos multi-institucionais) e áreas como escrita e línguas, engenharia/tecnologia e ciências da saúde.

COMO FUNCIONA: Para compor o panorama, os autores buscaram estudos em Web of Science, Scopus e Google Scholar, complementados por consultas a editoras acadêmicas, com recorte de janeiro de 2019 a junho de 2025. A seleção exigiu conexão explícita com pelo menos um dos eixos do trabalho (justiça, transparência, impacto pedagógico ou governança) e um nível mínimo de clareza metodológica; 31 artigos em texto completo foram descartados por baixa transparência, contexto de avaliação pouco definido ou fraca aderência aos construtos analisados. A síntese foi temática (indutiva e dedutiva) e incluiu contagens de frequência para indicar tendências, além de uma estrutura analítica que articula justiça, transparência e pedagogia sob o guarda-chuva da governança.

PRINCIPAIS RESULTADOS: A revisão aponta que 32 estudos abordaram diretamente justiça/equidade; 29 discutiram transparência/explicabilidade; 34 relataram efeitos pedagógicos; e 22 trataram de governança institucional. Em termos de desempenho, cerca de dois terços dos estudos reportaram maior consistência do julgamento baseado em rubricas quando sistemas de IA apoiaram a correção, especialmente em tarefas intensivas de escrita. No campo pedagógico, aproximadamente 70% dos trabalhos que analisaram resultados de aprendizagem registraram melhorias em frequência de feedback, oportunidades de revisão ou engajamento quando a IA foi usada em contextos formativos, mas esses ganhos apareceram condicionados a mediação docente, alinhamento com rubricas e “andaimes” reflexivos.

INSIGHT CENTRAL: O ponto distintivo do estudo é tratar a avaliação com IA como um ecossistema sociotécnico: não basta perguntar se o algoritmo “acerta”, mas se o arranjo institucional torna o processo compreensível, contestável e educacionalmente válido. A proposta dos autores é um modelo integrativo, Governance-Integrated Fairness–Transparency–Pedagogy (GFTP), em que a governança funciona como base operacional (políticas, auditorias, documentação e capacitação), justiça e transparência atuam como pilares éticos, e a pedagogia é o espaço em que a tecnologia efetivamente vira aprendizagem, e não apenas automação.

POR QUE ISSO IMPORTA PARA A EDUCAÇÃO: Para a sala de aula universitária, a síntese reforça que IA pode acelerar ciclos de feedback e ampliar oportunidades de reescrita, o que se alinha a abordagens de avaliação formativa e a práticas de outcome-based education. Para docentes, o potencial de reduzir correções repetitivas existe, mas vem acompanhado de novas tarefas: interpretar saídas do sistema, calibrar rubricas, orientar estudantes sobre como usar feedback e monitorar dependência excessiva. No nível institucional, o trabalho sugere que equidade não se resume a “neutralidade algorítmica”: variáveis como letramento digital, acesso a recursos e clareza das regras de uso podem ampliar desigualdades quando a IA vira um diferencial de performance para quem tem mais familiaridade tecnológica.

SIM, MAS…: O artigo também chama atenção para riscos específicos da IA generativa em avaliação: alucinações, erros factuais, raciocínio numérico incorreto e vulnerabilidades a manipulação por dados de baixa qualidade ou ataques adversariais. Na prática, isso pode levar a explicações convincentes, porém erradas, e a feedback que desvia a aprendizagem, uma combinação particularmente sensível quando o estudante interpreta a saída como “autoridade” avaliativa. A revisão recomenda salvaguardas como verificação humana (human-in-the-loop), protocolos de validação institucional e auditorias regulares.

CONTEXTO E BASTIDORES: Ao dialogar com referências como UNESCO (2021) e OECD (2019), a revisão retrata um campo em expansão após a popularização de ferramentas associadas a LLMs, muitas vezes rotuladas como “ChatGPT” nos estudos, e destaca um problema de cobertura: modelos regionais (como os de ecossistemas chineses) aparecem menos, refletindo o próprio viés do cenário editorial global. O levantamento também reforça que parte importante da literatura ainda está concentrada em escrita/EFL, deixando lacunas em STEM, áreas criativas e análises de longo prazo.

O QUE VEM DEPOIS: Como agenda prática e de pesquisa, os autores defendem que instituições avancem de estudos de percepção para avaliações mais robustas e longitudinais sobre aprendizagem, além de testes em disciplinas sub-representadas e em diferentes contextos culturais. Do ponto de vista de gestão, a mensagem é que a “prontidão” para avaliação com IA depende de investimento em capacitação, revisão curricular e governança de dados, incluindo mecanismos formais de auditoria e comitês de supervisão, para que eficiência (há estudos citando reduções de 30% a 60% no tempo de correção em turmas grandes) não venha à custa de transparência, justiça e confiança no processo avaliativo.

Fonte: Sustainable AI-Driven Assessment in Higher Education: A Systematic Review of Fairness, Transparency, Pedagogical Innovation, and Governance (MDPI Sustainability)

Posts Relacionados

Estudo testa ChatGPT para criar quizzes sobre TED Talks no ensino superior

Plataforma usa IA generativa para personalizar treinos do teste teórico de direção

Estudo avalia como GenAI muda a qualidade do feedback entre pares na pós