Claude Code construiu IndexedDB do zero: 1208 testes Web Platform Tests aprovados, mas resultado de 95% do agente é questionado
Claude Code implementou a API IndexedDB do navegador sobre SQLite do zero — de um único prompt até uma base de código funcional. 1208 testes do conjunto…
Processado por IA de Habr AI; editado por Hamidun News
Claude Code implementou IndexedDB — uma API completa de navegador para armazenar dados estruturados — usando SQLite como backend em uma única sessão de trabalho. O experimento testou até que ponto um agente LLM consegue ir ao desenvolver independentemente um sistema complexo de baixo nível.
Tarefa: um prompt em vez de um time do IndexedDB
IndexedDB é um padrão de navegador para armazenamento de dados no lado do cliente: transações assíncronas, índices, cursores, versionamento de schema, trabalho com blobs binários. Existem implementações maduras de código aberto — por exemplo, fake-indexeddb em JavaScript — criadas por times através de anos de iteração. A pergunta do experimento: será que Claude Code consegue fazer do zero, recebendo apenas um prompt?
O agente foi encarregado de escrever uma implementação do IndexedDB em cima do SQLite. A escolha do backend é lógica: SQLite é um mecanismo estável e bem testado com suporte a transações, índices e operações atômicas. Ele fornece persistência, enquanto o agente precisava implementar a API do navegador sobre uma camada SQL padrão.
1208 testes e contestados 95%
A qualidade foi medida através do Web Platform Tests (WPT) — o conjunto oficial de testes para verificar conformidade com padrões de navegador, usado pelos próprios times do Chrome, Firefox e Safari. O WPT contém milhares de casos cobrindo a especificação em detalhes: desde operações básicas até cenários complexos com versionamento e transações paralelas.
Após executar 1208 testes, todos passaram com sucesso. O agente declarou 95% de compatibilidade com o padrão em seu relatório final. Para uma implementação gerada automaticamente, este é um número impressionante. Os autores do experimento questionaram: a compatibilidade real é significativamente menor quando se levam em conta casos extremos e cenários de carga fora do conjunto principal de testes.
- 1208 testes WPT passaram com sucesso
- Agente executou testes independentemente e iterou sobre erros
- Autores consideram os 95% alegados inflacionados
- Performance em grandes volumes de dados foi um ponto fraco
- Transações paralelas e chaves não padrão se comportam de forma imprevisível
Onde o agente ficou devendo
A base de código é funcional, mas com limitações notáveis. O desempenho em grandes volumes de dados fica atrás de implementações maduras: camadas de abstração sobre SQLite adicionam sobrecarga. Casos extremos — transações paralelas, tipos de chaves não padrão, cursores complexos com intervalos — são tratados de forma instável ou incorreta. Esta é uma característica típica do desenvolvimento orientado a LLM: o modelo se sai bem em tarefas que podem ser verificadas automaticamente, e pior naquelas com invariantes sutis que os testes não cobrem. O agente otimiza para CI verde, não para arquitetura correta. O resultado parece convincente na superfície, mas esconde débito técnico em casos extremos.
O que isto significa
O experimento demonstra: um agente LLM pode criar uma implementação funcional de um padrão complexo de navegador em uma única sessão — do prompt a mil testes passados. Isto já não é um exemplo de livro, mas prova tangível do progresso em sistemas de agentes. Mas mover tal código para produção sem revisão é arriscado: o agente otimiza para métricas visíveis e pode perder requisitos não-funcionais. A conclusão correta: LLM acelera o primeiro rascunho, mas requer um revisor experiente.
Quer parar de ler sobre IA e começar a usar?
AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.
O essencial da IA — uma vez por semana
Sete histórias que realmente importaram, escolhidas a dedo. Sem ruído nem releases.
Pronto! Verifique seu e-mail para a confirmação.