Pingouin: como construir um pipeline estatístico de EDA
Pingouin é uma biblioteca Python para análise estatística. Com ela, é possível construir um pipeline de EDA abrangente que verifica propriedades-chave dos dados

A maioria dos analistas e cientistas de dados começam a explorar dados com visualização: constroem gráficos, observam distribuições, calculam estatísticas básicas. É um bom começo, mas geralmente insuficiente. Pingouin é uma biblioteca Python que transforma a análise exploratória de dados (EDA) em um processo estatístico sistemático.
Por que a EDA Estatística é Crítica
A visualização responde às perguntas 'o que vemos?' e 'como se parece?'. Mas para um modelo confiável, você precisa de respostas mais sérias:
- As variáveis estão normalmente distribuídas?
- Existem correlações significativas entre as características?
- Quais variáveis fazem sentido selecionar para o modelo?
- Onde estão escondidos os valores discrepantes e anomalias?
- Quais pressupostos estatísticos são violados?
Sem essas respostas, seu modelo será frágil. No estágio de EDA, é mais fácil reconstruir recursos ou filtrar dados do que retreinar o modelo posteriormente.
O que Pingouin Pode Fazer
A biblioteca contém funções prontas para testes estatísticos básicos. Em vez de memorizar fórmulas ou escrever longos blocos de código pandas e scipy, você chama uma única função. Recursos principais:
- Testes de normalidade (Shapiro-Wilk, Kolmogorov-Smirnov, Anderson-Darling) — verificam se as distribuições são normais
- Análise de correlação — calculam coeficientes de Pearson, Spearman, Kendall com p-value
- Testes de homogeneidade de variância (Levene, Bartlett) — comparam a dispersão de valores em grupos
- Detecção de valores discrepantes — métodos IQR, Z-score, Mahalanobis
- ANOVA e testes post-hoc — análise de diferenças entre grupos
- Tamanho do efeito (Cohen's d, eta-squared) — significância prática dos resultados
Pipeline Típico de EDA com Pingouin
O pipeline consiste em etapas de verificação sequenciais:
Carregamento e limpeza básica. Leia os dados, remova duplicatas, processe valores ausentes de forma padrão.
Verificação de distribuições. Para cada variável numérica, chamou `pg.normality()`. Se p-value > 0.05, a variável é normal. Caso contrário — você precisa de uma transformação (log, sqrt ou Box-Cox).
Análise de correlação. Calculou a matriz de correlação com `pg.corr()`, identificou relacionamentos significativos (p < 0.05). Correlações altas (> 0.9) indicam multicolinearidade.
Detecção de valores discrepantes. Aplicou vários métodos (IQR, Z-score) e comparou resultados. Valores discrepantes podem ser removidos, selecionados separadamente ou processados com transformações.
Verificação dos pressupostos do modelo. Se você planeja regressão linear — verifique homocedasticidade (variância uniforme do erro), ausência de multicolinearidade, linearidade das relações.
Documentação. Registre quais variáveis violam pressupostos, quais você excluiu e por quê. Isso será útil ao interpretar resultados.
"Uma boa EDA é um diálogo com dados, não um monólogo de gráficos bonitos."
O que Significa
Ferramentas como Pingouin democratizam o acesso à análise estatística. Você não precisa mais memorizar nomes de testes ou procurar o certo na documentação scipy — existe uma solução pronta em apenas algumas linhas. É especialmente útil em estágios iniciais do projeto, quando você precisa entender rapidamente com quais dados está lidando e quais passos preparatórios serão necessários.
Хотите не читать про ИИ, а внедрить его?
«AI News» — это полезные новости из мира ИИ. Системно научиться работать с нейросетями и применять их в работе — в Hamidun Academy.