Um experimento em um programa preparatório de uma universidade australiana testou se o ChatGPT consegue criar avaliações formativas, corrigidas automaticamente no LMS, para estimular que estudantes realmente consumam TED Talks usados como leituras do curso. O trabalho conclui que a IA pode gerar rascunhos aproveitáveis, mas a utilidade depende fortemente de prompts detalhados e de revisão humana intensa, o que limita o ganho de tempo prometido.

O QUE HÁ DE NOVO: A pesquisa avaliou, em um curso de “research design” de um programa de nivelamento para ingresso no ensino superior, a viabilidade de usar o ChatGPT-3.5 para elaborar perguntas de quizzes formativos ligados a duas TEDx Talks escolhidas por sua relação com os conteúdos do semestre. O objetivo era recuperar o engajamento com leituras e materiais, após uma reformulação de avaliações em 2023 que retirou tarefas formativas diretamente vinculadas aos textos, e ao mesmo tempo manter a correção automática no Canvas para não elevar a carga de trabalho docente.

COMO FUNCIONA: O pesquisador enviou ao ChatGPT transcrições de duas palestras (uma de 6 min e 17 s, com 1.084 palavras, e outra de 13 min e 51 s, com 1.864 palavras), previamente editadas para remover timestamps e adicionar pontuação, e pediu a geração de três formatos exigidos pela política de correção automática do LMS: múltipla escolha, verdadeiro/falso e lacunas. Para cada formato, foram comparados três níveis de prompt, do mínimo ao altamente contextualizado (incluindo o papel de “designer curricular”, o tipo de curso e o cuidado para evitar respostas por “word search”), reiniciando conversas a cada solicitação para reduzir contaminação por histórico; no total, foram 18 pedidos e 90 questões geradas.

PRINCIPAIS RESULTADOS: Dos 90 itens produzidos, 42 foram considerados imediatamente inutilizáveis, principalmente por ambiguidade nas respostas corretas, múltiplas alternativas corretas em questões de múltipla escolha e inadequação de formato (no primeiro pedido de lacunas, o modelo devolveu perguntas dissertativas). Ao final, apenas cinco questões foram selecionadas para compor um quiz, também por repetição entre conjuntos de prompts “escaffoldados”. Na comparação entre formatos, o ChatGPT se saiu melhor em verdadeiro/falso e pior em múltipla escolha; ainda assim, nenhum verdadeiro/falso entrou no quiz final por ser percebido como simples demais e por vir majoritariamente com afirmações “verdadeiras”, o que poderia permitir aprovação por chute mesmo com nota de corte elevada.

INSIGHT CENTRAL: O estudo reforça que, para avaliação formativa com correção automática, “pedir perguntas” não basta: o desenho do prompt precisa incluir regras de qualidade típicas do trabalho avaliativo humano, plausibilidade de distratores, alinhamento com objetivos de aprendizagem e exigência de compreensão implícita, e, mesmo assim, o modelo tende a falhar em pontos críticos (como garantir unicidade da resposta correta). Na prática, o ChatGPT aparece menos como autor de itens prontos e mais como gerador de variações iniciais que exigem curadoria pedagógica.

POR QUE ISSO IMPORTA PARA A EDUCAÇÃO: Para cursos com grande demanda de acompanhamento e estudantes em transição para o ensino superior, quizzes curtos e frequentes podem funcionar como “trilhos” de estudo, aumentando a probabilidade de preparação antes de aulas e tutorias e oferecendo feedback rápido, um ponto central em abordagens de avaliação para aprendizagem. O experimento sugere que a IA pode ampliar o repertório de perguntas e reduzir carga cognitiva de quem planeja, mas não substitui o papel do docente na garantia de validade (o que está sendo medido), de alinhamento com resultados esperados e de adequação ao nível da turma.

SIM, MAS…: Os limites encontrados também apontam riscos operacionais e pedagógicos. A necessidade de editar transcrições (pontuação e limpeza) pode consumir tempo relevante, corroendo a promessa de eficiência; e, sem revisão, itens ambíguos ou com múltiplas respostas corretas podem comprometer a integridade do quiz e a confiança do estudante no feedback. Além disso, formatos automaticamente corrigidos impõem restrições: lacunas penalizam variações legítimas de resposta, e verdadeiro/falso pode virar um exercício de reconhecimento superficial, mais próximo de conformidade do que de compreensão.

CONTEXTO E BASTIDORES: O trabalho se insere em uma tendência mais ampla de explorar GenAI para criação de itens avaliativos, área em que estudos recentes têm relatado ganhos de velocidade, mas com a ressalva recorrente de que revisão humana é indispensável. Também toca em um debate antigo na educação superior sobre o lugar de questões objetivas, criticadas por superficialidade, mas defendidas quando conectadas a objetivos claros, e sobre o uso de materiais “autênticos” e populares, como TED Talks, que podem engajar, porém exigem seleção cuidadosa para evitar substituição acrítica de leituras acadêmicas.

O QUE VEM DEPOIS: Entre os próximos passos sugeridos pelo próprio estudo estão investigações sobre efeitos de longo prazo: se quizzes gerados com apoio de IA de fato elevam engajamento e desempenho, e como isso varia por perfil de estudante e por tipo de mídia. Outra agenda prática é criar critérios e frameworks para avaliar a “qualidade” de itens gerados por IA (por exemplo, clareza, nível cognitivo, unicidade da resposta correta e alinhamento com objetivos), além de testar a abordagem em outras disciplinas e contextos institucionais antes de tratá-la como solução escalável.

Fonte: Can ChatGPT design formative assessments to encourage preparatory students to engage with TED Talks as course readings? A prompt engineering experiment