Estudo testa Gemini 2.5 para pré-corrigir códigos e vê IA mais rígida que docentes

Um estudo publicado na revista Information (MDPI) testou um fluxo de correção preliminar de tarefas de programação em C++ com um modelo de linguagem (Gemini 2.5) integrado a scripts em Python e a dados do Moodle/Verificator. Os resultados sugerem ganho expressivo de velocidade e padronização, mas também indicam que a IA tende a atribuir notas mais baixas do que professores e requer moderação humana para evitar injustiças e erros.

O QUE HÁ DE NOVO: Pesquisadores apresentaram um protótipo de avaliação semiautomatizada para exercícios de programação no ensino superior, usando o Gemini 2.5 via Google AI Studio para “pré-corrigir” submissões reais de uma disciplina de Programação 2. O experimento reavaliou trabalhos já corrigidos por docentes, comparando notas e divergências em três exercícios ao longo do semestre (início, meio e fim), com turmas organizadas em dois conjuntos por exercício e cerca de 20 submissões por conjunto, totalizando dezenas de códigos analisados a partir de exportações do Moodle e metadados do software Verificator.

COMO FUNCIONA: O fluxo combina um ambiente de programação (Python) com a API do Gemini e uma estrutura de dados padronizada produzida pelo Verificator, ferramenta usada na disciplina para individualizar tarefas, registrar metadados (autor e horário), restringir práticas como copiar/colar e registrar percentuais de testes executados. A IA recebe, em uma entrada estruturada, a descrição do exercício, a rubrica de pontuação (tarefas divididas em quatro subtarefas, até quatro pontos) e os arquivos C++ dos estudantes; então gera um relatório com comentários por subtarefa, pontuação antes de penalidades e cálculo de descontos vinculados à cobertura de testes (com perda de pontos quando intervalos exigidos não foram testados), seguindo um template com marcadores para manter formato e escala consistentes.

POR QUE ISSO IMPORTA PARA A EDUCAÇÃO: Em cursos de programação, a correção manual consome tempo e é um gargalo para feedback rápido; o estudo estima que uma submissão pode demandar 5 a 10 minutos de um professor, enquanto o sistema automatizado produz relatórios “em segundos”, aumentando a capacidade de processamento e abrindo espaço para que docentes foquem em orientação qualitativa e atendimento individual. Ao mesmo tempo, ao aplicar uma rubrica uniforme, a IA pode reduzir variações entre avaliadores em turmas grandes, um ponto relevante para coordenações e gestores preocupados com consistência,, mas a rigidez observada também pode afetar a validade pedagógica da avaliação, sobretudo quando soluções parciais ou “não convencionais” são corretas, porém não se encaixam bem nas expectativas do modelo.

PRINCIPAIS RESULTADOS: Ao comparar as notas da IA com as atribuídas por instrutores, o estudo encontrou correlação moderada a alta entre avaliações (r ≈ 0,55 a 0,73, dependendo do exercício), mas com um padrão recorrente: o modelo tendeu a “subavaliar” as submissões em relação aos docentes. No exercício do meio do semestre, a diferença média foi mais acentuada (média do professor 1,83 versus média da IA 0,33), enquanto no início (2,83 vs. 2,23) e no fim (2,92 vs. 1,71) a discrepância permaneceu, porém menor; um gráfico de dispersão descrito pelos autores mostra concentração de pontos abaixo da linha de concordância perfeita, sinalizando essa severidade sistemática.

SIM, MAS…: Os autores enfatizam que se trata de uma exploração de viabilidade, não de um “corretor automático” pronto para uso em decisões de alto impacto. Entre as limitações, destacam-se o uso de um único modelo e uma rubrica fixa, ausência de calibração/normalização para ajustar a escala de notas e dependência de métricas que não capturam plenamente concordância individual (correlação não mede o tamanho e a direção dos erros por aluno). Embora o trabalho relate que não foram observadas alucinações relevantes no cenário controlado, reconhece que LLMs podem produzir feedback confiante, porém incorreto, e recomenda mecanismos formais de validação e sinalização de anomalias antes de devolver comentários aos estudantes.

CONTEXTO E BASTIDORES: A proposta se insere em uma tendência mais ampla de uso de IA na avaliação educacional, impulsionada pela popularização de LLMs acessíveis tanto por interfaces web (como ChatGPT e Claude) quanto por APIs, que permitem automação em lote, padronização de saídas (por exemplo, em JSON) e integração com sistemas como planilhas, bancos de dados e ambientes virtuais de aprendizagem. No próprio estudo, ferramentas generalistas são citadas como apoio a rotinas docentes (refino de enunciados, análise de desempenho, detecção de anomalias), mas a avaliação via API aparece como caminho para tornar o processo reprodutível e escalável, com controle maior sobre o formato de entrada e de saída.

O QUE VEM DEPOIS: Como próximos passos, o artigo sugere expandir testes para tarefas mais abertas e contextos mais complexos (incluindo variações de linguagem e de formato), além de criar mecanismos de explicabilidade, como justificativas mais transparentes, indicadores de confiança e resumos visuais, para apoiar a revisão docente e aumentar a confiança dos estudantes. Também propõe investigar como alunos percebem a correção assistida por IA e se medidas de transparência alteram aceitação e senso de justiça, bem como combinar sinais de autoavaliação e avaliação por pares com a saída do modelo para formar uma visão mais “holística” do desempenho.

NOSSA LEITURA: O trabalho reforça um ponto crucial para gestores acadêmicos: a promessa de eficiência da IA na correção é realista quando o contexto é bem estruturado (rubrica clara, dados padronizados, trilhas de teste e logs), mas o risco de penalizar soluções criativas ou incomuns também é concreto, e pode afetar tanto a equidade quanto a aprendizagem. Em vez de buscar substituição do professor, a evidência aqui favorece modelos híbridos, com moderação sistemática e auditorias periódicas (amostragens, reexecução de prompts e checagens de consistência), especialmente quando notas influenciam progressão, bolsas ou reprovação.

fonte: AI-Powered Learning: Revolutionizing Education and Automated Code Evaluation

Fonte: AI-Powered Learning: Revolutionizing Education and Automated Code Evaluation

Posts Relacionados

Estudo testa explicações em linguagem natural para IA apoiar correção docente

Estudo avalia como GenAI muda a qualidade do feedback entre pares na pós

Modelo híbrido usa visão computacional para detectar engajamento em aulas de japonês