Um estudo em quatro etapas analisou como universitários chineses, de diferentes áreas e regiões, usam ferramentas de IA generativa em atividades acadêmicas, como avaliam sua utilidade e quais limites aparecem quando essas tecnologias são aplicadas a tarefas disciplinares e níveis de exigência distintos. Com dados de survey, avaliação de respostas do GPT-4-Turbo, logs de uso e um experimento controlado, os autores apontam forte adoção, desigualdades regionais e uma queda de desempenho da IA em tarefas avançadas e abertas, o que reforça a necessidade de mediação docente, critérios de qualidade e políticas de integridade acadêmica.

O QUE HÁ DE NOVO: A pesquisa propõe uma leitura “multidimensional” da IA na graduação e na pós-graduação na China, combinando quatro frentes empíricas: (1) um levantamento com 1.472 estudantes de 39 universidades em quatro macrorregiões; (2) um teste de acurácia com 1.200 questões reais de cursos, respondidas por ChatGPT (GPT-4-Turbo) e avaliadas por métricas automáticas e por 47 professores; (3) a segmentação de perfis de engajamento com base em clustering e um mês de registros de uso; e (4) um estudo de dois meses com 400 participantes para observar efeitos em desempenho acadêmico e projetar trajetórias de aprendizagem. O desenho chama atenção por cruzar disciplina (cinco grandes áreas), nível (graduação e pós) e território (leste, centro, oeste e nordeste), em um sistema marcado por grandes diferenças de infraestrutura e inovação pedagógica.

COMO FUNCIONA: Na primeira etapa, os pesquisadores aplicaram um questionário enxuto (11 itens, com perguntas fechadas e abertas) para mapear frequência de uso (de “nunca” a “diário”) e finalidades em 24 cenários, como sumarização, escrita, resolução de problemas, programação e preparação para provas. As respostas abertas passaram por um pipeline de análise de sentimento em nível de “cláusulas”, com segmentação de trechos e classificação apoiada por modelo híbrido (BERT + BiLSTM com atenção), treinado com 30% dos dados anotados manualmente (concordância alta entre anotadores), seguido de análise temática.

Na segunda etapa, 240 estudantes reuniram e refinaram questões de materiais autênticos (livros, tarefas e provas), gerando um banco de 1.200 itens distribuídos por tipo (múltipla escolha, verdadeiro/falso, resposta curta e problemas aplicados) e por dificuldade. O GPT-4-Turbo respondeu via API; a comparação incluiu similaridade textual (TF‑IDF + cosseno) contra gabaritos e uma avaliação humana em escala Likert por especialistas. A terceira etapa identificou perfis de uso com DBSCAN e acompanhou por um mês logs coletados por plugin no navegador (tempo de sessão, finalidade, ferramenta, contexto), além de reflexões semanais. Na quarta, 400 estudantes participaram de um estudo de dois meses com duas provas (uma mais factual e outra com tarefas abertas/aplicadas), com comparação com dados históricos pré-adoção ampla de IA e modelagem preditiva com LSTM para estimar persistência, retenção e resolução de problemas.

PRINCIPAIS RESULTADOS: O levantamento indica que a IA já faz parte da rotina acadêmica, mas de forma desigual: 7,6% dos respondentes disseram nunca usar IA para aprender, e quase metade desse grupo estava no oeste do país, um sinal coerente com disparidades regionais de infraestrutura e concentração de universidades de elite. Também aparecem diferenças fortes por área: estudantes de engenharia concentraram mais uso diário, enquanto ciências naturais tiveram menor proporção de uso diário, hipótese associada, no texto, ao peso de atividades empíricas e laboratoriais menos “automatizáveis” por modelos generativos.

Na dimensão afetiva, a classificação de 11.375 cláusulas apontou predominância de avaliações positivas (53,7%), seguidas de neutras (26,9%) e negativas (19,4%), com padrões distintos por nível. Graduandos tendem a valorizar eficiência e conveniência (por exemplo, apoio ao estudo e assistência linguística), enquanto pós-graduandos se mostram mais críticos em temas como alucinação/inconsistência, plágio e limites epistêmicos do raciocínio do modelo. Em satisfação por tarefas, artes se destacaram com maior proporção de comentários positivos, especialmente em fluxos criativos, ao passo que humanas apresentaram os menores índices, com críticas a nuances retóricas e contextualização.

PRINCIPAIS RESULTADOS: No teste de acurácia com o GPT-4-Turbo, o desempenho foi muito alto em verdadeiro/falso (acima de 97,5% em todas as áreas e níveis), mas mais variável em múltipla escolha. Em questões abertas, a distância para respostas de referência ficou evidente: nenhuma área ultrapassou 0,8 de similaridade, e os piores resultados apareceram em humanas e ciências naturais, sobretudo na pós-graduação (por exemplo, similaridade em humanas na pós de 0,55; em ciências naturais na pós de 0,61). As médias normalizadas de avaliação subjetiva também caíram em itens avançados, com exemplos como ciências naturais (67,5% na graduação e 61,7% na pós) e engenharia (76,3% na graduação e 70,8% na pós), sugerindo que o modelo lida melhor com conhecimento mais “fundacional” do que com explicações metodológicas e raciocínio multi-etapas.

POR QUE ISSO IMPORTA PARA A EDUCAÇÃO: Para universidades, os dados reforçam que “adoção” não é um indicador suficiente: estudantes usam IA para finalidades muito diferentes por área (código e depuração em engenharia; tradução e redação em humanas; ideação em artes; modelagem e mineração de literatura em ciências naturais), o que exige orientações específicas por disciplina e por tipo de tarefa. A queda de qualidade em questões abertas e avançadas sugere risco de reforçar respostas genéricas e pouco situadas justamente onde se espera pensamento crítico, argumentação e domínio conceitual, um alerta para desenho de avaliações, rubricas e atividades que valorizem processo (evidências, justificativas, versões) e não apenas produto final.

SIM, MAS…: O próprio desenho do estudo aponta limitações e desafios de implementação que são relevantes para decisões institucionais. Parte do uso é auto-relatado e pode conter vieses, ainda que haja tentativas de verificação em etapas posteriores; além disso, a avaliação por similaridade textual (TF‑IDF) tende a capturar alinhamento lexical, mas não necessariamente a qualidade conceitual de uma resposta. No campo de integridade acadêmica, a pesquisa mostra que preocupações com plágio, alucinação e dependência aparecem com força, especialmente na pós, o que indica que políticas genéricas podem falhar: é provável que cada área precise definir o que é uso aceitável (por exemplo, revisão linguística, exploração de hipóteses, geração de rascunhos) e como documentar a interação com IA.

O QUE VEM DEPOIS: O estudo sugere uma agenda prática de curto prazo: criar instrumentos de acompanhamento que vão além da “intenção de uso”, combinando logs, tarefas autênticas e avaliações com critérios claros; testar intervenções de letramento em IA focadas em checagem, citação e validação por fontes; e replicar a análise em outros contextos nacionais para separar o que é efeito de disciplina e nível do que é efeito de infraestrutura, políticas locais e cultura institucional. Para gestores e coordenadores de curso, a principal implicação é tratar a IA como componente curricular e de avaliação, com mediação docente, e não apenas como ferramenta opcional de produtividade.

Fonte: Exploring AI-driven learning assistance in Chinese higher education: A multidisciplinary and regional analysis of professional coursework