Uma revisão sistemática analisou 64 estudos empíricos recentes sobre IA generativa no ensino superior em computação e encontrou um cenário de efeitos majoritariamente positivos, mas instáveis: ganhos de desempenho aparecem com mais consistência quando a personalização é estruturada e ancorada em materiais do curso, enquanto alucinações e uso sem mediação elevam carga cognitiva, alimentam confiança indevida e podem reduzir autonomia na resolução de problemas.

O QUE HÁ DE NOVO: O estudo reúne evidências publicadas entre 2023 e 2025 para entender, de forma integrada, como ferramentas como ChatGPT, GitHub Copilot, Gemini, Claude e sistemas customizados afetam desempenho acadêmico, alucinações e habilidades de resolução de problemas na educação em ciência da computação. A revisão seguiu protocolos PRISMA e Kitchenham, pesquisou Scopus, Web of Science, IEEE Xplore e ACM Digital Library, e partiu de 303 registros; após triagens, snowballing e busca manual, reteu 64 trabalhos empíricos para avaliação de qualidade. A amostra é dominada por publicações de conferências (77%) e por participantes de graduação (59 estudos), refletindo a velocidade com que o tema vem sendo testado em cursos introdutórios e disciplinas de programação.

COMO FUNCIONA: Em vez de tratar “personalização”, “alucinação” e “resolução de problemas” como tópicos separados, a revisão propõe que esses elementos interagem por meio da regulação metacognitiva do estudante, processos como monitoramento do próprio entendimento, calibração de confiança, detecção de erros e escolha de estratégias ao usar saídas do modelo. Para organizar as evidências, os autores classificam abordagens de personalização em duas grandes famílias: as orientadas pelo usuário (quando o aluno conduz a interação, por exemplo via engenharia de prompts) e as orientadas pelo sistema (quando a plataforma adapta dificuldade, feedback e ritmo com base em dados de desempenho). Também aparecem mecanismos de “ancoragem” do conteúdo, como geração aumentada por recuperação (RAG), para reduzir respostas fora de contexto e dar mais coerência ao feedback em tarefas de programação e avaliação.

PRINCIPAIS RESULTADOS: Entre os 35 estudos que reportaram métricas explícitas de desempenho acadêmico, 54,3% relataram efeitos positivos (19 estudos), 34,3% resultados mistos (12), e apenas 5,7% efeitos negativos (2) ou neutros (2). O padrão mais consistente foi que personalização adaptativa (orientada pelo sistema) tende a produzir ganhos mais estáveis, especialmente quando entrega feedback específico para o erro do aluno e regula a dificuldade, enquanto a personalização conduzida pelo estudante apresenta maior variabilidade, dependente da qualidade dos prompts, do nível de experiência e do enquadramento pedagógico. A revisão também destaca, em diferentes trabalhos, um trade-off recorrente: em cenários de forte apoio automatizado, habilidades como pensamento computacional podem melhorar, mas a capacidade de resolver problemas de forma independente pode cair quando há excesso de dependência do assistente.

POR QUE ISSO IMPORTA PARA A EDUCAÇÃO: Para a sala de aula, os achados sugerem que a IA generativa funciona melhor como “parceira cognitiva” quando o desenho instrucional força o aluno a explicar escolhas, depurar erros e validar resultados, em vez de apenas aceitar soluções prontas, especialmente em programação, onde respostas convincentes e erradas podem cristalizar concepções equivocadas. Para o trabalho docente, a revisão reforça que ganhos de eficiência (como geração de itens de avaliação e feedback mais rápido) não eliminam a necessidade de mediação: professores tendem a ser decisivos na definição de limites, no incentivo à verificação e na criação de atividades que preservem o “esforço produtivo” do estudante. No plano de equidade, a promessa de adaptar linguagem e exemplos para diferentes contextos culturais aparece como oportunidade, mas a revisão alerta que vieses e alucinações, inclusive com termos locais inventados, exigem práticas de checagem e um olhar de inclusão desde o design, para evitar que a personalização amplifique desigualdades entre quem tem mais repertório para avaliar a IA e quem tem menos.

SIM, MAS…: A própria composição da evidência impõe cautela na tomada de decisão: a literatura é recente e concentrada em graduação, com predominância de métodos mistos e experimentos, e muitos estudos ainda dependem de contextos específicos, ferramentas diferentes e formas variadas de mensurar aprendizagem. Além disso, a revisão enfatiza que não busca estabelecer causalidade direta entre uso de GenAI e resultados, e sim mapear padrões de associação e condições de implementação. Na prática, isso significa que ganhos relatados em um curso ou plataforma podem não se transferir automaticamente para outros ambientes, sobretudo quando há diferenças de infraestrutura, letramento digital, política de integridade acadêmica e cultura de avaliação.

O QUE VEM DEPOIS: Ao consolidar o campo, a revisão aponta uma agenda de pesquisa e desenvolvimento mais “pedagógica” do que apenas tecnológica: comparar efeitos de longo prazo na autonomia e no pensamento crítico, testar intervenções que reduzam viés de automação e calibragem de confiança, e validar estratégias de mitigação de alucinações (como RAG e abordagens com humano no circuito) em tarefas autênticas de programação e depuração. Para instituições, o recado é que a adoção tende a ser mais segura e efetiva quando combina governança de uso, desenho de atividades que premiem explicação e verificação, e ferramentas que tornem o apoio da IA transparente e auditável, principalmente em disciplinas em que um erro plausível pode ensinar o conceito errado.

Fonte: A systematic review of the impact of GenAI on learning performance, AI hallucinations, and problem-solving in computer science education