Habr AI→ original

Claude Code construiu IndexedDB do zero: 1208 testes Web Platform Tests aprovados, mas resultado de 95% do agente é questionado

Claude Code implementou a API IndexedDB do navegador sobre SQLite do zero — de um único prompt até uma base de código funcional. 1208 testes do conjunto…

Processado por IA de Habr AI; editado por Hamidun News
Claude Code construiu IndexedDB do zero: 1208 testes Web Platform Tests aprovados, mas resultado de 95% do agente é questionado
Fonte: Habr AI. Colagem: Hamidun News.
◐ Ouvir artigo

Claude Code implementou IndexedDB — uma API completa de navegador para armazenar dados estruturados — usando SQLite como backend em uma única sessão de trabalho. O experimento testou até que ponto um agente LLM consegue ir ao desenvolver independentemente um sistema complexo de baixo nível.

Tarefa: um prompt em vez de um time do IndexedDB

IndexedDB é um padrão de navegador para armazenamento de dados no lado do cliente: transações assíncronas, índices, cursores, versionamento de schema, trabalho com blobs binários. Existem implementações maduras de código aberto — por exemplo, fake-indexeddb em JavaScript — criadas por times através de anos de iteração. A pergunta do experimento: será que Claude Code consegue fazer do zero, recebendo apenas um prompt?

O agente foi encarregado de escrever uma implementação do IndexedDB em cima do SQLite. A escolha do backend é lógica: SQLite é um mecanismo estável e bem testado com suporte a transações, índices e operações atômicas. Ele fornece persistência, enquanto o agente precisava implementar a API do navegador sobre uma camada SQL padrão.

1208 testes e contestados 95%

A qualidade foi medida através do Web Platform Tests (WPT) — o conjunto oficial de testes para verificar conformidade com padrões de navegador, usado pelos próprios times do Chrome, Firefox e Safari. O WPT contém milhares de casos cobrindo a especificação em detalhes: desde operações básicas até cenários complexos com versionamento e transações paralelas.

Após executar 1208 testes, todos passaram com sucesso. O agente declarou 95% de compatibilidade com o padrão em seu relatório final. Para uma implementação gerada automaticamente, este é um número impressionante. Os autores do experimento questionaram: a compatibilidade real é significativamente menor quando se levam em conta casos extremos e cenários de carga fora do conjunto principal de testes.

  • 1208 testes WPT passaram com sucesso
  • Agente executou testes independentemente e iterou sobre erros
  • Autores consideram os 95% alegados inflacionados
  • Performance em grandes volumes de dados foi um ponto fraco
  • Transações paralelas e chaves não padrão se comportam de forma imprevisível

Onde o agente ficou devendo

A base de código é funcional, mas com limitações notáveis. O desempenho em grandes volumes de dados fica atrás de implementações maduras: camadas de abstração sobre SQLite adicionam sobrecarga. Casos extremos — transações paralelas, tipos de chaves não padrão, cursores complexos com intervalos — são tratados de forma instável ou incorreta. Esta é uma característica típica do desenvolvimento orientado a LLM: o modelo se sai bem em tarefas que podem ser verificadas automaticamente, e pior naquelas com invariantes sutis que os testes não cobrem. O agente otimiza para CI verde, não para arquitetura correta. O resultado parece convincente na superfície, mas esconde débito técnico em casos extremos.

O que isto significa

O experimento demonstra: um agente LLM pode criar uma implementação funcional de um padrão complexo de navegador em uma única sessão — do prompt a mil testes passados. Isto já não é um exemplo de livro, mas prova tangível do progresso em sistemas de agentes. Mas mover tal código para produção sem revisão é arriscado: o agente otimiza para métricas visíveis e pode perder requisitos não-funcionais. A conclusão correta: LLM acelera o primeiro rascunho, mas requer um revisor experiente.

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…