Uma revisão sistemática de 63 estudos (2014–2024) analisou como ferramentas de aprendizagem baseadas em IA vêm sendo desenhadas e avaliadas no ensino superior e o que se sabe, até aqui, sobre seus efeitos em resultados cognitivos, habilidades e dimensões afetivas. O balanço sugere ganhos mais consistentes em aquisição de conhecimento e em motivação/engajamento, mas evidências bem menos estáveis quando o objetivo é desenvolver processos cognitivos mais complexos e competências práticas, reforçando a necessidade de critérios de design, transparência e avaliações de longo prazo.
O QUE HÁ DE NOVO: O estudo sintetiza a literatura empírica sobre ferramentas de IA usadas como principal recurso instrucional na universidade, reunindo 63 artigos revisados por pares publicados entre janeiro de 2014 e abril de 2024, selecionados a partir de uma busca inicial de 8.294 registros em dez bases e triagem com alta concordância entre avaliadores (κ=0,81). A revisão identifica como essas ferramentas são construídas e apresentadas (incluindo algoritmos, dados de treinamento e formatos multimodais) e organiza seus impactos em três dimensões de aprendizagem, cognitiva, de habilidades e afetiva, para orientar decisões de adoção e pesquisa em instituições de ensino superior.
COMO FUNCIONA: Os autores aplicaram o protocolo PRISMA para localizar e selecionar estudos que (1) implementaram uma ferramenta de aprendizagem baseada em IA, (2) mediram empiricamente impacto em resultados de aprendizagem, (3) envolveram estudantes de graduação ou pós-graduação e (4) foram publicados em periódicos entre 2014 e 2024. A análise descreve três camadas do “desenho” das ferramentas: a tecnológica (por exemplo, uso de NLP, redes neurais ou plataformas low-code/no-code para chatbots), a forma de apresentação do conteúdo (majoritariamente textual, mas com um bloco relevante de experiências multimodais) e o papel pedagógico desempenhado (avaliação/monitoramento, feedback e recomendações, e tutoria inteligente), observando que muitas soluções acumulam mais de uma função.
PRINCIPAIS RESULTADOS: A revisão mostra uma divisão quase equilibrada entre estudos que usaram sistemas de IA já disponíveis no mercado para fins instrucionais (32) e aqueles que desenvolveram ferramentas próprias (31), com presença crescente de soluções de propósito geral como chatbots de linguagem e, ao mesmo tempo, sistemas especializados (por exemplo, em treinamento médico e aprendizagem de línguas). Em termos de formatos, 37 estudos entregaram materiais em uma única modalidade (quase sempre verbal/textual), enquanto 26 usaram abordagens multimodais. No nível pedagógico, os papéis mais frequentes foram feedback e recomendações personalizadas (46 estudos) e avaliação/monitoramento (45), seguidos de tutoria inteligente (26).
Quanto aos efeitos educacionais, os resultados são mais consistentes para aquisição de conhecimento disciplinar e desfechos afetivos (como satisfação, engajamento e autoeficácia), enquanto o impacto sobre processos cognitivos de ordem superior (como pensamento crítico, criatividade e raciocínio) e sobre habilidades aplicadas varia bastante entre contextos e desenhos de intervenção. A revisão também destaca um padrão recorrente: benefícios podem depender do perfil do estudante (por exemplo, níveis de motivação), e intervenções com efeitos positivos de curto prazo nem sempre se sustentam quando o uso se prolonga.
POR QUE ISSO IMPORTA PARA A EDUCAÇÃO: Para universidades e gestores acadêmicos, a síntese ajuda a separar onde a IA já entrega valor com evidência mais robusta, como automação/apoio à avaliação, feedback rápido e recomendações, de áreas em que a promessa é maior do que a comprovação, especialmente quando o objetivo é formar competências complexas e transferíveis para a prática profissional. Isso tem implicações diretas para desenho curricular, políticas de uso em disciplinas, investimento em infraestrutura e definição de métricas: adotar IA apenas como “resposta instantânea” pode ampliar a sensação de eficiência, mas não necessariamente fortalecer autonomia intelectual, pensamento profundo e domínio de habilidades.
Para o trabalho docente, a revisão reforça que ferramentas de IA tendem a ser mais úteis quando operam como apoio, oferecendo pistas, visualizações de progresso e feedback direcionado, e quando incorporam intencionalidade pedagógica. Ao mesmo tempo, ela aponta riscos educacionais concretos associados ao uso pouco mediado: opacidade (“caixa-preta”), produção de conteúdo plausível porém incorreto, e incentivos à dependência que podem reduzir a disposição para reflexão independente. Em termos sistêmicos, o estudo também coloca a equidade no centro: há baixa cobertura de contextos de países com menor desenvolvimento e quase ausência de evidências sobre estudantes com deficiência, o que sugere que a expansão de IA pode aprofundar desigualdades se acessibilidade e contexto não forem requisitos de projeto.
SIM, MAS…: O próprio corpo de evidências mapeado tem limitações relevantes para decisões de política institucional. Mais da metade dos estudos analisados usou desenhos quase-experimentais sem randomização, e parte ocorreu em ambientes presenciais com risco de “contaminação” (interações entre participantes fora do controle do estudo), o que reduz a força causal das conclusões. Além disso, a avaliação ainda se concentra em resultados imediatos: poucos trabalhos mediram retenção e transferência de aprendizagem com testes atrasados, apesar de esse ser um ponto crítico para o ensino superior, onde se espera aplicação do conhecimento em situações novas.
O QUE VEM DEPOIS: Como caminho prático, a revisão propõe um ciclo iterativo de “design-to-evaluation”, em que decisões de projeto e evidências de impacto se retroalimentam. Entre as direções destacadas estão: designs mais centrados no estudante (indo além de desempenho e incluindo características do aprendiz), uso de multimodalidade de forma alinhada a objetivos, transparência para reduzir desinformação e estimular pensamento crítico, inclusão com foco em acessibilidade e contextos subatendidos, e ética com auditoria de vieses e proteção de dados. Para pesquisa e governança, a agenda inclui ampliar testes em diferentes áreas além de linguagem, medir mais habilidades complexas, aumentar estudos randomizados quando viável e incorporar avaliações de longo prazo, além de fortalecer a literacia em IA de estudantes e docentes para que a tecnologia seja usada com criticidade e mantenha a agência pedagógica no centro.
Fonte: Design and assessment of AI-based learning tools in higher education: a systematic review