Estudo mostra que agentes de IA ainda não conseguem substituir freelancers remotos
Com as empresas procurando cortar custos e automatizar tarefas, a tentação de substituir freelancers remotos por agentes de inteligência artificial cresce. No entanto, um novo estudo conduzido pelo Center for AI Safety (CAIS) em parceria com a empresa de anotação de dados Scale AI revela que esses agentes ainda estão longe de reproduzir o trabalho humano com qualidade e produtividade aceitáveis. A pesquisa testou modelos destinados a automatizar tarefas e, apesar do hype em torno das capacidades de IA, os resultados foram alarmantes para quem pensa em demitir humanos em favor de bots.
Os pesquisadores criaram um benchmark chamado Remote Labor Index (RLI), que reúne uma variedade de projetos remotos reais — de desenvolvimento de jogos a análise de dados — para avaliar a capacidade econômica dos agentes de IA. Seis agentes líderes do mercado foram submetidos a esses testes. No total, as IAs completaram apenas 3% do trabalho atribuído: faturaram apenas US$ 1.810 de um possível US$ 143.991, segundo o estudo. Dan Hendrycks, diretor da CAIS, disse que os números oferecem uma imagem mais realista das capacidades atuais da IA.
Entre os testados, a startup chinesa Manus foi a melhor colocada, com taxa de automação de 2,5%. Em seguida, empatados com 2,1%, estavam o Grok 4 (de Elon Musk) e o Claude Sonnet 4.5, da Anthropic. O GPT‑5, divulgado pela OpenAI como um passo significativo rumo à chamada AGI, alcançou só 1,7%, e o próprio ChatGPT Agent da OpenAI teve desempenho ainda pior, com 1,3%. O pior resultado veio do Gemini 2.5 Pro, do Google, com apenas 0,8% de automação aceitável para trabalho freelance real. Esses números contrastam com as promessas comerciais de muitas empresas, que tentam vender agentes de IA como substitutos diretos de mão de obra humana.
Além dos baixos índices de conclusão, os testes e estudos correlatos apontam problemas recorrentes: agentes sem memória de longo prazo, incapazes de aprender continuamente com a experiência e de adquirir habilidades “no trabalho” como fazem os humanos. Há relatos de empregadores que recontrataram funcionários após substituí‑los por ferramentas de IA que entregavam trabalhos de baixa qualidade — o chamado “workslop” — que demandavam revisão extensa e geravam atritos entre equipes. Pesquisas anteriores, como um estudo do MIT, também indicaram que 95% das empresas que pilotaram iniciativas de IA não viram crescimento de receita significativo.
Diante disso, fica claro que a promessa de automação total ainda não se concretizou na prática para tarefas remotas variadas e economicamente relevantes. Gestores e equipes ganham ao testar cuidadosamente soluções de IA em contextos reais, mensurar qualidade e custos de retrabalho, e planejar modelos híbridos que combinem automação com supervisão humana. A pergunta que fica é: em que áreas a IA pode realmente agregar hoje, e onde investir em treinamento humano será mais eficaz para reduzir custos e melhorar resultados?
Este artigo é uma adaptação livre baseada em conteúdo publicado originalmente na(o) Futurism. Para ler o original (em inglês), acesse: https://futurism.com/artificial-intelligence/paper-tested-ai-online-freelance-work.




Deixe uma resposta
Want to join the discussion?Feel free to contribute!