Uma revisão sistemática analisou 125 estudos empíricos publicados entre 2013 e outubro de 2023 sobre inteligência artificial na educação de línguas, identificando quais tecnologias têm sido mais usadas, em que habilidades (especialmente escrita e fala) e com quais desenhos de pesquisa. O trabalho também destaca desequilíbrios importantes, como a concentração em ensino superior e em inglês, além de pouca atenção a equidade, ética e pesquisas de longo prazo, que devem orientar decisões de pesquisa, adoção e políticas educacionais nos próximos anos.
O QUE HÁ DE NOVO: O estudo reúne e sintetiza evidências recentes sobre IA no ensino e aprendizagem de línguas a partir de uma amostra de 125 artigos empíricos revisados por pares, extraídos de três grandes bases (Web of Science, ERIC ProQuest e Scopus), complementados por “snowballing” e busca manual em cinco periódicos centrais da área (como Computer Assisted Language Learning, System, ReCALL e Language Learning & Technology). O levantamento mostra uma aceleração clara da produção: 2022 concentrou 43 estudos elegíveis e 2023 somou 28 até outubro, enquanto de 2013 a 2018 houve menos de cinco por ano, sinalizando uma virada de escala coincidente com a popularização de ferramentas generativas e conversacionais.
COMO FUNCIONA: A revisão seguiu o protocolo PRISMA para busca, triagem e seleção, partindo de 1.447 registros, removendo duplicatas e aplicando critérios de inclusão (foco em IA aplicada à educação de línguas, desenho empírico, publicação em periódico revisado por pares, janela temporal e idioma). Após triagem por título/resumo e leitura integral, chegaram aos 125 artigos. Para analisar o conjunto, os autores combinaram bibliometria, análise de conteúdo e modelagem de tópicos (Structural Topic Model) baseada nos resumos, triangulando os achados com codificação manual das tecnologias e temas; a consistência entre codificadores foi reportada como alta (kappa de 0,91 e confiabilidade final de 94%).
INSIGHT CENTRAL: O “mapa” que emerge não é apenas de ferramentas, mas de prioridades de pesquisa: a literatura tende a investigar IA onde ela gera produtos observáveis e mensuráveis (como textos e falas) e onde a automatização promete reduzir trabalho docente (correção/feedback), o que ajuda a explicar a centralidade de avaliação automatizada de escrita e de agentes conversacionais. Ao mesmo tempo, o próprio desenho de evidência predominante, mais quantitativo, mais curto, mais centrado no aluno e em contextos controláveis, pode estar limitando a compreensão de impactos sociais, culturais, institucionais e de equidade que importam para decisões de adoção em redes e sistemas.
PRINCIPAIS RESULTADOS: Entre as tecnologias, a avaliação automatizada de escrita (AWE) foi a mais frequente (42 estudos), seguida por “bots” (25), tradução automática (19), reconhecimento automático de fala (10) e sistemas inteligentes (10). A análise por tópicos e por palavras-chave converge para usos recorrentes de IA em feedback/avaliação de escrita, prática de linguagem via chatbots, tradução e escrita com ferramentas como ChatGPT, e treino de pronúncia e fala com robôs e recursos de ASR. Em termos de foco pedagógico, a escrita lidera (52 estudos) e a fala vem em seguida (30), com menos atenção a leitura (10), tradução (10) e, sobretudo, a escuta, gramática e vocabulário, que aparecem de forma bem mais rara.
POR QUE ISSO IMPORTA PARA A EDUCAÇÃO: Para escolas, universidades e redes, o panorama sugere que as aplicações com maior tração acadêmica estão ligadas a feedback rápido e prática deliberada, duas promessas centrais para melhorar aprendizagem e ampliar oportunidades de treino, especialmente em escrita e oralidade. Para o trabalho docente, o destaque de AWE e agentes conversacionais indica uma busca por automação de tarefas estruturadas (como correção e devolutivas), abrindo espaço para que professores concentrem tempo em mediação, planejamento e acompanhamento mais fino; porém, a revisão reforça que confiabilidade, vieses e adequação ao objetivo pedagógico devem ser critérios tão importantes quanto eficiência. Em termos de equidade, o estudo aponta a necessidade de trazer diversidade, equidade e inclusão para o centro das agendas: com forte concentração geográfica e linguística, há risco de que ferramentas e evidências sejam calibradas para poucos contextos e, depois, generalizadas de forma inadequada.
SIM, MAS…: A própria base de evidências tem limites que importam para tomadores de decisão. A revisão inclui apenas artigos em inglês e apenas periódicos revisados por pares, o que pode subrepresentar achados relevantes de outras regiões e formatos (como conferências e relatórios) e reforçar vieses de publicação, já que resultados positivos tendem a aparecer mais. Também há indícios de baixa maturidade longitudinal: intervenções variam de 10 minutos a dois anos, mas poucos estudos se estendem por 1–2 anos, dificultando concluir sobre efeitos sustentados, mudanças de prática docente e impactos institucionais. Além disso, a literatura se concentra em estudantes (118 estudos) e dedica pouca atenção a professores (13), gestores, famílias e políticas, justamente atores que determinam escala, governança e uso responsável.
O QUE VEM DEPOIS: O estudo aponta como prioridades: ampliar pesquisas qualitativas (por exemplo, análises de interação e abordagens etnográficas) para capturar processos e dimensões socioculturais; investir em estudos de longo prazo e em desenho educacional iterativo para avaliar adoção real e efeitos cumulativos; e diversificar contextos (mais K-12, mais online e híbrido, mais regiões sub-representadas e Global Sul). Do ponto de vista pedagógico e de currículo, a agenda emergente inclui investigar habilidades integradas e letramentos multimodais, além de avançar em temas menos cobertos, leitura, escuta, vocabulário e gramática, e em questões de ética, vieses, políticas e inclusão que devem acompanhar a expansão de ferramentas generativas e multimodais no ensino de línguas.
Fonte: A systematic review of research on AI in language education: Current status and future implications