TechCrunch→ original

AI-лаборатории платят XDOF за сбор обучающих данных для роботов — это грязная рутинная работа

Чтобы роботы научились двигаться и работать с объектами, нужны миллионы часов реальных демонстраций — так же, как LLM учились на интернете. Собирать эти…

Processado por IA de TechCrunch; editado por Hamidun News
AI-лаборатории платят XDOF за сбор обучающих данных для роботов — это грязная рутинная работа
Fonte: TechCrunch. Colagem: Hamidun News.
◐ Ouvir artigo

A IA física enfrenta o mesmo problema que teria parado os modelos de linguagem sem a internet acumulada pela humanidade: falta de dados de treinamento. Por enquanto, os laboratórios estão resolvendo manualmente — e pagando dinheiro real a empresas como XDOF por isso.

Por que não há dados suficientes

Os grandes modelos de linguagem aprenderam a pensar em trilhões de palavras que a humanidade acumulou online. Robôs físicos não têm esse recurso: movimentos, preensão, equilíbrio, manuseio de objetos frágeis — tudo isso precisa ser demonstrado ao vivo, repetidamente, em dezenas de cenários diferentes. Uma hora de demonstrações de qualidade requer esforço considerável: um operador coloca um exoesqueleto ou controla um robô via joystick, realizando o mesmo movimento centenas de vezes com iluminação diferente, com objetos diferentes, em poses diferentes.

Os dados se tornam caros, lentos e rigidamente vinculados ao espaço físico. A internet não ajudará aqui. É por isso que equipes líderes em IA física — de Physical Intelligence aos laboratórios dentro do Google DeepMind e desenvolvedores de robôs humanoides — enfrentaram uma barreira: modelos podem ser melhorados infinitamente, mas sem volume suficiente de demonstrações de qualidade, não aprenderão.

O que XDOF faz

XDOF é uma das empresas que os laboratórios de IA recorrem para terceirizar esse trabalho. Eles organizam todo o processo: contratam operadores, configuram equipamentos, monitoram a qualidade das anotações e dimensionam a produção de acordo com as necessidades de clientes específicos. O modelo lembra os primeiros dias da Scale AI, que contratou um exército de anotadores para marcar texto e imagens. Só que agora é sobre trabalho físico em espaço real.

Uma sessão típica de coleta de dados é assim:

  • Um operador controla o robô manualmente — o sistema captura trajetórias de movimento e dados de força
  • Várias câmeras capturam simultaneamente a cena de diferentes ângulos
  • Cada tentativa é marcada: sucesso, falha, caso limítrofe
  • O cenário é repetido com iluminação diferente, com objetos diferentes e em poses diferentes
  • Verificação final filtra as demonstrações defeituosas

Este trabalho não requer formação em engenharia, mas requer atenção, paciência e resistência física — este é exatamente o "trabalho sujo e desagradável" do qual a indústria avisa.

Quem paga e por que isso importa

Dimensionar a coleta de dados esbarra na física: você não pode baixar milhões de movimentos robóticos da rede, não pode substituí-los por dados sintéticos sem arriscar a degradação do modelo. A terceirização permite que os laboratórios se concentrem em arquitetura e treinamento enquanto especialistas lidam com a rotina. Junto com isso, um novo tipo de "trabalho oculto" emerge na indústria de IA — invisível ao público em geral, mas criticamente importante. Por analogia com moderação de conteúdo para LLMs, o mercado de coleta de demonstrações robóticas crescerá rapidamente — e rapidamente se tornará o centro de discussões sobre condições de trabalho e padrões de qualidade.

O que isso significa

A era da IA física exigirá a mesma infraestrutura de coleta de dados que a internet criou para modelos de linguagem. Empresas que primeiro construir pipelines eficientes para coleta e marcação de demonstrações físicas ganharão vantagem estrutural — independentemente de quem desenvolve os próprios modelos.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?

Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).

O que você acha?
Carregando comentários…