KDnuggets→ original

Engenharia de features em esteroides: sete bibliotecas Python que você está ignorando à toa

Data Science é 80% limpeza de dados e 20% reclamações sobre quanto tempo a limpeza de dados leva. Todos nós estamos acostumados com o stack padrão, onde…

Processado por IA de KDnuggets; editado por Hamidun News
Engenharia de features em esteroides: sete bibliotecas Python que você está ignorando à toa
Fonte: KDnuggets. Colagem: Hamidun News.
◐ Ouvir artigo

Data Science é 80% limpeza de dados e 20% reclamações sobre quanto tempo a limpeza de dados leva. Todos nós estamos acostumados com o stack padrão, onde Pandas e Scikit-learn parecem eternos e indispensáveis. Mas vamos ser honestos: assim que seus dados param de caber na RAM do seu notebook, os bons e velhos métodos começam a transformar a vida em um pesadelo. Enquanto seus colegas torturam loops e tentam manualmente extrair pelo menos algumas features das séries temporais, a indústria silenciosamente lançou ferramentas que fazem esse trabalho para você. E fazem melhor.

O problema da engenharia de features moderna é que se tornou um gargalo. Aprendemos a treinar modelos rapidamente, mas a preparação de features ainda muitas vezes parece artesanato manual. Isso é estranho, considerando que se seu modelo vai prever o futuro ou simplesmente adivinhar depende inteiramente da qualidade das features. Os "eminências pardas" do ecossistema Python estão entrando em cena—bibliotecas que não brilham em todo segundo tutorial, mas resolvem problemas fundamentais de escalabilidade.

Tome o Featuretools, por exemplo. Esta biblioteca implementa o conceito de Deep Feature Synthesis. Ela compreende as relações entre tabelas em um banco de dados relacional e cria automaticamente features complexas que teriam levado semanas para um humano desenvolver. Em vez de escrever manualmente agregações, você simplesmente explica a estrutura dos dados para a biblioteca, e ela fornece centenas de features relevantes. Esta é uma transição da produção artesanal para uma linha de montagem industrial. E é exatamente o que você precisa ao passar de um protótipo para um produto real.

Para aqueles que trabalham com séries temporais, existe TSFRESH. Se você já tentou extrair manualmente features de sinais ou cotações financeiras, você sabe como é doloroso. TSFRESH calcula automaticamente centenas de features estatísticas, desde médias simples até coeficientes de Fourier complexos. Além disso, ela consegue avaliar a significância de cada feature, filtrando o lixo já na entrada. Isso economiza não apenas seu tempo, mas também recursos computacionais, que hoje custam uma fortuna.

E não podemos esquecer do Woodwork. Ele resolve o problema da tipagem semântica. No Python padrão, um tipo de dado é apenas um número ou uma string. Mas para um modelo, importa se esse número é um código postal, uma idade ou um identificador de categoria. Woodwork permite anexar rótulos "inteligentes" aos dados que outras bibliotecas podem ler automaticamente. Isso elimina uma camada inteira de erros estúpidos, como quando um modelo tenta calcular a média aritmética de um número de telefone.

Por que isso importa agora? Porque a era de "apenas jogue dados no XGBoost" acabou. Hoje, quem vence são aqueles que conseguem escalar seus pipelines rápida e baratamente. O uso de bibliotecas como Feature-engine ou BorutaPy permite padronizar o processo de seleção de features, tornando-o reproduzível. Isso é crítico para desenvolvimento em equipe, onde um engenheiro não deveria ter que adivinhar o que seu predecessor codificou três mil linhas de profundidade em um notebook Jupyter.

No final das contas, mudar para ferramentas automatizadas de engenharia de features é uma questão de sobrevivência diante do crescimento dos volumes de dados. Se você continua escrevendo funções customizadas para cada nova coluna, você está perdendo para quem usa frameworks prontos. A escalabilidade não começa com a compra de novos GPUs—começa com como você organiza a informação no nível mais básico.

Resumindo: engenharia de features manual está morrendo, e essa é uma boa notícia. Você conseguirá reconstruir seu fluxo de trabalho antes que seus dados se tornem incontroláveis?

ZK
Hamidun News
Notícias de AI sem ruído. Seleção editorial diária de mais de 400 fontes. Produto de Zhemal Khamidun, Head of AI na Alpina Digital.

Quer parar de ler sobre IA e começar a usar?

AI News é um feed curado de notícias de IA. A Hamidun Academy ensina você a usar IA no trabalho.

O que você acha?
Carregando comentários…