AI-лаборатории платят XDOF за сбор обучающих данных для роботов — это грязная рутинная работа
Чтобы роботы научились двигаться и работать с объектами, нужны миллионы часов реальных демонстраций — так же, как LLM учились на интернете. Собирать эти…
Processado por IA de TechCrunch; editado por Hamidun News
A IA física enfrenta o mesmo problema que teria parado os modelos de linguagem sem a internet acumulada pela humanidade: falta de dados de treinamento. Por enquanto, os laboratórios estão resolvendo manualmente — e pagando dinheiro real a empresas como XDOF por isso.
Por que não há dados suficientes
Os grandes modelos de linguagem aprenderam a pensar em trilhões de palavras que a humanidade acumulou online. Robôs físicos não têm esse recurso: movimentos, preensão, equilíbrio, manuseio de objetos frágeis — tudo isso precisa ser demonstrado ao vivo, repetidamente, em dezenas de cenários diferentes. Uma hora de demonstrações de qualidade requer esforço considerável: um operador coloca um exoesqueleto ou controla um robô via joystick, realizando o mesmo movimento centenas de vezes com iluminação diferente, com objetos diferentes, em poses diferentes.
Os dados se tornam caros, lentos e rigidamente vinculados ao espaço físico. A internet não ajudará aqui. É por isso que equipes líderes em IA física — de Physical Intelligence aos laboratórios dentro do Google DeepMind e desenvolvedores de robôs humanoides — enfrentaram uma barreira: modelos podem ser melhorados infinitamente, mas sem volume suficiente de demonstrações de qualidade, não aprenderão.
O que XDOF faz
XDOF é uma das empresas que os laboratórios de IA recorrem para terceirizar esse trabalho. Eles organizam todo o processo: contratam operadores, configuram equipamentos, monitoram a qualidade das anotações e dimensionam a produção de acordo com as necessidades de clientes específicos. O modelo lembra os primeiros dias da Scale AI, que contratou um exército de anotadores para marcar texto e imagens. Só que agora é sobre trabalho físico em espaço real.
Uma sessão típica de coleta de dados é assim:
- Um operador controla o robô manualmente — o sistema captura trajetórias de movimento e dados de força
- Várias câmeras capturam simultaneamente a cena de diferentes ângulos
- Cada tentativa é marcada: sucesso, falha, caso limítrofe
- O cenário é repetido com iluminação diferente, com objetos diferentes e em poses diferentes
- Verificação final filtra as demonstrações defeituosas
Este trabalho não requer formação em engenharia, mas requer atenção, paciência e resistência física — este é exatamente o "trabalho sujo e desagradável" do qual a indústria avisa.
Quem paga e por que isso importa
Dimensionar a coleta de dados esbarra na física: você não pode baixar milhões de movimentos robóticos da rede, não pode substituí-los por dados sintéticos sem arriscar a degradação do modelo. A terceirização permite que os laboratórios se concentrem em arquitetura e treinamento enquanto especialistas lidam com a rotina. Junto com isso, um novo tipo de "trabalho oculto" emerge na indústria de IA — invisível ao público em geral, mas criticamente importante. Por analogia com moderação de conteúdo para LLMs, o mercado de coleta de demonstrações robóticas crescerá rapidamente — e rapidamente se tornará o centro de discussões sobre condições de trabalho e padrões de qualidade.
O que isso significa
A era da IA física exigirá a mesma infraestrutura de coleta de dados que a internet criou para modelos de linguagem. Empresas que primeiro construir pipelines eficientes para coleta e marcação de demonstrações físicas ganharão vantagem estrutural — independentemente de quem desenvolve os próprios modelos.
Precisa de IA funcionando dentro da sua empresa — não só no feed de notícias?
Eu construo IA em produção para empresas — CRM sob medida, ferramentas internas, agentes autônomos, automação de processos. Pertence a você, moldada ao seu processo, sem taxa por usuário. Feito por Zhemal Khamidun, CPO da AlpinaGPT (plataforma de IA, 6.000+ usuários).
O essencial da IA — uma vez por semana
Sete histórias que realmente importaram, escolhidas a dedo. Sem ruído nem releases.
Pronto! Verifique seu e-mail para a confirmação.