Um estudo com 35 professores e 35 alunos do International Baccalaureate testou o AIvaluate, um agente conversacional apoiado por LLM e indicadores emocionais, para conduzir avaliações orais do tipo performance-based assessment (PBA). Os resultados sugerem pequena elevação nas notas atribuídas no formato virtual e boa aceitação de usabilidade, ao mesmo tempo em que levantam questões sobre vieses, privacidade e o que, de fato, significa “reduzir carga docente” em contextos avaliativos de alta exigência.
O QUE HÁ DE NOVO: Pesquisadores avaliaram o AIvaluate, um chatbot pedagógico “emocionalmente inteligente” desenhado para apoiar professores em PBAs orais (como a viva voce do Extended Essay do IBDP) em uma escola internacional britânica. No experimento, 35 docentes conduziram duas sessões de 10 a 15 minutos com os mesmos estudantes, uma presencial e outra mediada pelo sistema, permitindo comparar notas atribuídas e a percepção de usabilidade; no formato virtual, os alunos acreditavam estar interagindo com o agente, embora o professor estivesse por trás da conversa (técnica “Wizard of Oz”).
COMO FUNCIONA: O AIvaluate opera em navegador com duas “visões” separadas: uma para o estudante e outra para o professor. Ambos podem digitar ou falar (com conversão de fala para texto) e recebem respostas em texto e áudio (texto para fala). No lado do professor, o sistema exibe sugestões automáticas de resposta geradas por um LLM (descrito no estudo como GPT-4), levando em conta a última mensagem do aluno, o histórico da conversa e o nível de ansiedade auto-relatado pelo estudante em tempo real (escala de 1 a 10). Em paralelo, há um painel de “estado emocional” com dois sinais: auto-relato de ansiedade e análise facial de emoções (sete categorias baseadas em Ekman), transmitida ao professor durante a sessão.
PRINCIPAIS RESULTADOS: Nas notas atribuídas pelos professores, o formato com AIvaluate apresentou média de 75,57 (DP=14,42) contra 70,57 (DP=14,74) no presencial, diferença média de 5 pontos, com significância estatística em teste unilateral e tamanho de efeito pequeno (d=0,343), além de intervalo de confiança que tangencia zero, sinal de que o ganho pode ser modesto e sensível ao contexto. Em usabilidade, o AIvaluate obteve SUS médio de 74,79, ligeiramente acima do presencial (71,64), ambos classificados como “good/acceptable”; em itens específicos, docentes perceberam o formato virtual como menos “inconsistente” (S6) e com menor necessidade de “aprender antes de usar” (S10). Em um item adicional sobre carga de trabalho percebida (A4), o AIvaluate foi avaliado como menos impactante para o workload do professor, embora os próprios autores ressaltem que se trata de percepção subjetiva e não de uma métrica objetiva de tempo, estresse ou esforço.
POR QUE ISSO IMPORTA PARA A EDUCAÇÃO: A pesquisa toca em um ponto central do pós-IA generativa: se trabalhos escritos ficaram mais difíceis de autenticar, PBAs orais e “em tempo real” ganham tração como alternativa, mas aumentam a demanda por planejamento, observação e feedback, ampliando a sobrecarga docente. Um agente que sugere perguntas e respostas pode ajudar a sustentar o rigor do diálogo avaliativo e reduzir improviso, especialmente quando o avaliador não domina profundamente o tema do estudante, além de potencialmente padronizar a condução com apoio de rubricas. Ao mesmo tempo, alterações (mesmo pequenas) nas notas em um novo formato acendem alerta para redes e instituições: a tecnologia pode estar mudando não apenas a logística, mas o próprio comportamento avaliativo, com implicações para comparabilidade, justiça e credibilidade da avaliação.
SIM, MAS…: O estudo combina duas frentes sensíveis: (1) sugestões geradas por LLM, que podem induzir perguntas, ritmo e tom do avaliador; e (2) sinais emocionais (auto-relato e reconhecimento facial), que podem influenciar a condução do encontro, com riscos de tratamento diferenciado. Embora os autores descrevam salvaguardas (anonimização, criptografia, possibilidade de opt-out, dados faciais não armazenados e não usados para adaptação automática do sistema), a presença de biometria em avaliação de alto impacto tende a exigir governança ainda mais rígida, transparência institucional e auditorias. Além disso, como o experimento usou Wizard of Oz (professor como interlocutor “oculto”), parte das conclusões sobre autonomia do agente e escalabilidade dependem de validações futuras com automação real e métricas objetivas de carga de trabalho.
CONTEXTO E BASTIDORES: O trabalho se apoia em debates atuais sobre avaliação autêntica em tempos de IA generativa e aproxima a discussão de “afetividade” (affective computing) e inteligência emocional, argumentando que PBAs frequentemente elevam ansiedade e exigem sensibilidade do avaliador. Na prática, o AIvaluate materializa essa agenda ao transformar o auto-relato de ansiedade em um parâmetro para ajustar o “tom” das sugestões ao professor (por exemplo, mais “gentil e de apoio” quando ansiedade > 5), enquanto a análise facial é apresentada como apoio adicional de percepção, o que recoloca a velha questão de HCI na educação: melhorar a experiência sem deslocar a responsabilidade pedagógica e ética para a máquina.
O QUE VEM DEPOIS: Para que soluções desse tipo saiam do piloto e virem política institucional, a lacuna principal é evidência operacional: tempo real economizado, qualidade do feedback, consistência entre avaliadores, impacto em diferentes perfis de estudantes (incluindo neurodiversidade e contextos culturais) e efeitos de longo prazo na aprendizagem. Também será decisivo definir limites de uso (por exemplo, quando a leitura emocional é apropriada; como registrar decisões; como evitar que o “tom sugerido” vire padrão único) e padrões mínimos de proteção de dados, especialmente quando há biometria. Replicações em outras escolas, disciplinas e modalidades, sem Wizard of Oz, tendem a ser o próximo passo para medir o quanto a IA realmente reduz a carga docente sem distorcer a avaliação.
Fonte: Towards reducing teacher burden in Performance-Based assessments using aivaluate