Uma revisão sistemática publicada na revista Sustainability reúne evidências de 47 estudos (2019–2025) sobre avaliação acadêmica apoiada por IA e conclui que ganhos de eficiência e consistência só se sustentam quando instituições tratam, de forma integrada, quatro frentes: justiça, transparência, desenho pedagógico e governança.
O QUE HÁ DE NOVO: O artigo “Sustainable AI-Driven Assessment in Higher Education” sintetiza pesquisas recentes sobre o uso de IA, incluindo IA generativa e grandes modelos de linguagem, em processos de avaliação e feedback no ensino superior. A revisão segue o protocolo PRISMA 2020, parte de 145 registros após deduplicação e chega a 47 trabalhos considerados de alta qualidade, cobrindo contextos diversos (Ocidente, Golfo, Sul e Leste Asiático, além de estudos multi-institucionais) e áreas como escrita e línguas, engenharia/tecnologia e ciências da saúde.
COMO FUNCIONA: Para compor o panorama, os autores buscaram estudos em Web of Science, Scopus e Google Scholar, complementados por consultas a editoras acadêmicas, com recorte de janeiro de 2019 a junho de 2025. A seleção exigiu conexão explícita com pelo menos um dos eixos do trabalho (justiça, transparência, impacto pedagógico ou governança) e um nível mínimo de clareza metodológica; 31 artigos em texto completo foram descartados por baixa transparência, contexto de avaliação pouco definido ou fraca aderência aos construtos analisados. A síntese foi temática (indutiva e dedutiva) e incluiu contagens de frequência para indicar tendências, além de uma estrutura analítica que articula justiça, transparência e pedagogia sob o guarda-chuva da governança.
PRINCIPAIS RESULTADOS: A revisão aponta que 32 estudos abordaram diretamente justiça/equidade; 29 discutiram transparência/explicabilidade; 34 relataram efeitos pedagógicos; e 22 trataram de governança institucional. Em termos de desempenho, cerca de dois terços dos estudos reportaram maior consistência do julgamento baseado em rubricas quando sistemas de IA apoiaram a correção, especialmente em tarefas intensivas de escrita. No campo pedagógico, aproximadamente 70% dos trabalhos que analisaram resultados de aprendizagem registraram melhorias em frequência de feedback, oportunidades de revisão ou engajamento quando a IA foi usada em contextos formativos, mas esses ganhos apareceram condicionados a mediação docente, alinhamento com rubricas e “andaimes” reflexivos.
INSIGHT CENTRAL: O ponto distintivo do estudo é tratar a avaliação com IA como um ecossistema sociotécnico: não basta perguntar se o algoritmo “acerta”, mas se o arranjo institucional torna o processo compreensível, contestável e educacionalmente válido. A proposta dos autores é um modelo integrativo, Governance-Integrated Fairness–Transparency–Pedagogy (GFTP), em que a governança funciona como base operacional (políticas, auditorias, documentação e capacitação), justiça e transparência atuam como pilares éticos, e a pedagogia é o espaço em que a tecnologia efetivamente vira aprendizagem, e não apenas automação.
POR QUE ISSO IMPORTA PARA A EDUCAÇÃO: Para a sala de aula universitária, a síntese reforça que IA pode acelerar ciclos de feedback e ampliar oportunidades de reescrita, o que se alinha a abordagens de avaliação formativa e a práticas de outcome-based education. Para docentes, o potencial de reduzir correções repetitivas existe, mas vem acompanhado de novas tarefas: interpretar saídas do sistema, calibrar rubricas, orientar estudantes sobre como usar feedback e monitorar dependência excessiva. No nível institucional, o trabalho sugere que equidade não se resume a “neutralidade algorítmica”: variáveis como letramento digital, acesso a recursos e clareza das regras de uso podem ampliar desigualdades quando a IA vira um diferencial de performance para quem tem mais familiaridade tecnológica.
SIM, MAS…: O artigo também chama atenção para riscos específicos da IA generativa em avaliação: alucinações, erros factuais, raciocínio numérico incorreto e vulnerabilidades a manipulação por dados de baixa qualidade ou ataques adversariais. Na prática, isso pode levar a explicações convincentes, porém erradas, e a feedback que desvia a aprendizagem, uma combinação particularmente sensível quando o estudante interpreta a saída como “autoridade” avaliativa. A revisão recomenda salvaguardas como verificação humana (human-in-the-loop), protocolos de validação institucional e auditorias regulares.
CONTEXTO E BASTIDORES: Ao dialogar com referências como UNESCO (2021) e OECD (2019), a revisão retrata um campo em expansão após a popularização de ferramentas associadas a LLMs, muitas vezes rotuladas como “ChatGPT” nos estudos, e destaca um problema de cobertura: modelos regionais (como os de ecossistemas chineses) aparecem menos, refletindo o próprio viés do cenário editorial global. O levantamento também reforça que parte importante da literatura ainda está concentrada em escrita/EFL, deixando lacunas em STEM, áreas criativas e análises de longo prazo.
O QUE VEM DEPOIS: Como agenda prática e de pesquisa, os autores defendem que instituições avancem de estudos de percepção para avaliações mais robustas e longitudinais sobre aprendizagem, além de testes em disciplinas sub-representadas e em diferentes contextos culturais. Do ponto de vista de gestão, a mensagem é que a “prontidão” para avaliação com IA depende de investimento em capacitação, revisão curricular e governança de dados, incluindo mecanismos formais de auditoria e comitês de supervisão, para que eficiência (há estudos citando reduções de 30% a 60% no tempo de correção em turmas grandes) não venha à custa de transparência, justiça e confiança no processo avaliativo.