Revisão aponta dilemas éticos da IA generativa na avaliação universitária

Uma revisão integrativa publicada na OWL Journal analisa como ferramentas de IA generativa, como o ChatGPT, estão pressionando os modelos tradicionais de avaliação no ensino superior, ao mesmo tempo em que abrem oportunidades para práticas mais formativas. A síntese identifica dilemas pedagógicos, desafios de integridade acadêmica e riscos de ampliar desigualdades entre estudantes, indicando a necessidade de políticas institucionais e formação docente para manter rigor e justiça.

O QUE HÁ DE NOVO: O artigo sistematiza a produção científica recente sobre o uso de IA generativa na avaliação da aprendizagem no ensino superior e organiza o debate em três frentes: mudanças nas tarefas avaliativas, tensões éticas ligadas à autoria e à autenticidade, e implicações para equidade. A revisão examinou 978 registros em bases como Scopus, Web of Science, PubMed, SciELO e LILACS (2018–2025) e chegou a um corpus final de 14 estudos, publicados sobretudo entre 2023 e 2025, com predominância de pesquisas de Europa, América do Norte, Oceania e Ásia e participação ainda limitada da América Latina.

COMO FUNCIONA: Em vez de testar uma ferramenta específica em sala de aula, os autores adotaram o método de revisão integrativa (Whittemore e Knafl), que permite reunir estudos empíricos e teóricos para construir uma síntese crítica de um campo emergente. A busca foi feita entre dezembro de 2025 e janeiro de 2026, com critérios de inclusão que contemplaram artigos em português, inglês e espanhol sobre IA generativa aplicada diretamente à avaliação universitária (presencial, híbrida ou EAD); a seleção passou por triagem de títulos e resumos, leitura integral e resolução de divergências por consenso entre revisores, com avaliação de qualidade metodológica usando instrumentos como CASP e MMAT.

PRINCIPAIS RESULTADOS: A revisão conclui que a IA generativa fragiliza avaliações centradas no “produto final”, especialmente trabalhos escritos feitos fora de ambientes supervisionados, ao tornar mais difícil distinguir o que é autoria do estudante e o que foi gerado por sistemas. Como resposta, a literatura analisada converge para a recomendação de redesenho das avaliações em direção a evidências de processo: justificativas do raciocínio, interação síncrona, etapas documentadas de produção e tarefas que revelem tomada de decisão, e não apenas qualidade textual.

POR QUE ISSO IMPORTA PARA A EDUCAÇÃO: Para a aprendizagem, a discussão desloca o foco do “texto bem escrito” para a demonstração de compreensão, argumentação e metacognição, o que pode favorecer avaliações mais formativas, desde que o uso de IA seja explicitado e orientado. Para o trabalho docente, o achado sugere que o desafio não se resolve com proibição ou com ferramentas de detecção: será preciso redesenhar tarefas, critérios e rubricas, explicitar o que conta como uso aceitável e construir rotinas de feedback que considerem o novo ecossistema de produção acadêmica. No plano institucional, a revisão aponta que a falta de diretrizes consistentes tende a gerar incerteza normativa e a corroer a confiança no processo avaliativo.

SIM, MAS…: O estudo chama atenção para riscos de implementação que vão além da “cola”: há sinais de dependência cognitiva e de empobrecimento do processo de aprendizagem quando a avaliação permanece baseada em entregas textuais fáceis de terceirizar para modelos de linguagem. Outro ponto sensível é a equidade: diferenças de letramento digital, proficiência linguística e acesso a versões pagas de ferramentas podem produzir vantagens assimétricas, criando um problema de justiça avaliativa que políticas genéricas muitas vezes não enxergam.

CONTEXTO E BASTIDORES: Ao mapear a literatura, a revisão reforça que a avaliação é o epicentro das tensões trazidas pela IA generativa no ensino superior porque concentra exigências de rigor, autenticidade e comparabilidade. Também evidencia um descompasso: enquanto o debate avança rapidamente em países do Norte global, ainda há poucos estudos latino-americanos, o que pode limitar a adequação de recomendações quando aplicadas a realidades com restrições de infraestrutura, diferentes culturas de avaliação e desigualdades digitais mais pronunciadas.

O QUE VEM DEPOIS: A síntese sugere que a agenda de pesquisa e gestão deve avançar para evidências empíricas mais robustas e contextualizadas: estudos longitudinais sobre efeitos em autonomia e aprendizagem, investigações sobre modelos de avaliação formativa mediados por IA e análises mais finas de equidade, inclusive com recortes interseccionais. Para universidades e redes, o recado é que a resposta mais promissora combina política clara, desenvolvimento profissional docente e desenho avaliativo que torne o processo de aprender visível, reduzindo tanto a tentação de atalhos quanto a dependência de estratégias de vigilância.

Fonte: INTELIGÊNCIA ARTIFICIAL GENERATIVA NA AVALIAÇÃO DA APRENDIZAGEM NO ENSINO SUPERIOR: DILEMAS ÉTICOS, PEDAGÓGICOS E DE EQUIDADE

Posts Relacionados

Estudo propõe modelo para entender governança algorítmica na educação brasileira

Hermenêutica digital e ética da IA: o alerta que vem da organização do conhecimento

Estudo mapeia como universitários avaliam ética do uso do ChatGPT