Bibliotecas essenciais e comandos para análise de dados, machine learning e visualização
📖 Definição
Python Data Science é o ecossistema de bibliotecas e ferramentas Python para análise de dados, visualização e machine learning. Combina poderosas bibliotecas como Pandas, NumPy, Matplotlib e Scikit-learn para transformar dados brutos em insights valiosos.
💪 Por que aprender?
• Manipulação eficiente de dados
• Visualizações interativas e informativas
• Algoritmos de machine learning
• Análise estatística avançada
• Processamento de séries temporais
🚀 O que você pode fazer?
• Análise exploratória de dados
• Modelagem preditiva
• Dashboards e relatórios
• Big Data e processamento distribuído
Pandas, NumPy, análise estatística
Matplotlib, Seaborn, gráficos interativos
Scikit-learn, modelos preditivos
Jupyter, experimentos, publicações
🟢 Pandas e DataFrames
Use quando: Análise exploratória de dados, manipulação básica
📋Importação e Leitura
import pandas as pd# Importar biblioteca Pandas
df = pd.read_csv('arquivo.csv')# Ler arquivo CSV para DataFrame
df = pd.read_excel('arquivo.xlsx')# Ler arquivo Excel
df = pd.read_json('arquivo.json')# Ler arquivo JSON
📋Visualização Básica
df.head()# Exibir primeiras 5 linhas
df.tail()# Exibir últimas 5 linhas
df.info()# Exibir informações resumidas
df.describe()# Estatísticas descritivas
df.shape# Ver dimensões (linhas, colunas)
📋Seleção de Dados
df['coluna']# Selecionar coluna específica
df[['col1', 'col2']]# Selecionar múltiplas colunas
df.iloc[0]# Selecionar por índice numérico
df.loc[0]# Selecionar por label
🟢 NumPy e Arrays
Use quando: Cálculos numéricos, operações matriciais
📋Criação de Arrays
import numpy as np# Importar biblioteca NumPy
arr = np.array([1, 2, 3, 4, 5])# Criar array NumPy
np.zeros((3, 4))# Criar array de zeros 3x4
np.ones((2, 3))# Criar array de uns 2x3
np.random.rand(3, 3)# Array aleatório 3x3
📋Arrays Sequenciais
np.arange(0, 10, 2)# Array com range [0, 2, 4, 6, 8]
np.linspace(0, 1, 5)# 5 valores entre 0 e 1
np.eye(3)# Matriz identidade 3x3
arr.shape# Ver dimensões do array
📋Operações Básicas
arr + 5# Adicionar escalar
arr * 2# Multiplicar por escalar
arr1 + arr2# Soma de arrays
np.sqrt(arr)# Raiz quadrada
🟢 Matplotlib e Visualização
Use quando: Visualização de dados, exploração visual
📋Importação e Configuração
import matplotlib.pyplot as plt# Importar biblioteca
plt.style.use('seaborn')# Definir estilo
plt.figure(figsize=(10, 6))# Definir tamanho da figura
📋Gráficos Básicos
plt.plot(x, y)# Gráfico de linhas
plt.scatter(x, y)# Gráfico de dispersão
plt.bar(categories, values)# Gráfico de barras
plt.hist(data, bins=10)# Histograma
📋Personalização
plt.xlabel('Eixo X')# Rótulo eixo X
plt.ylabel('Eixo Y')# Rótulo eixo Y
plt.title('Título')# Título do gráfico
plt.legend(['Série 1'])# Adicionar legenda
plt.show()# Exibir gráfico
🟡 Pandas Avançado
Use quando: Análise complexa, transformação de dados
📋Filtragem e Seleção
df.loc[condicao]# Filtrar linhas por condição
df[df['col'] > 10]# Filtrar por valor
df.query('col > 10')# Filtrar com query
df.isnull().sum()# Contar valores nulos
📋Agrupamento
df.groupby('coluna').mean()# Agrupar e calcular média
df.groupby('col').agg(['mean', 'sum', 'count'])# Múltiplas agregações
df.pivot_table(values='valor', index='linha', columns='coluna')# Tabela dinâmica
📋Junção e Combinação
df.merge(df2, on='chave')# Mesclar DataFrames
pd.concat([df1, df2])# Concatenar DataFrames
df.join(df2, on='chave')# Join por índice
🟡 Seaborn e Visualização Avançada
Use quando: Visualização estatística, análise exploratória avançada
📋Configuração e Estilo
import seaborn as sns# Importar biblioteca
sns.set_style('whitegrid')# Definir estilo
sns.set_palette('husl')# Definir paleta de cores
📋Gráficos Estatísticos
sns.scatterplot(data=df, x='col1', y='col2')# Dispersão com Seaborn
sns.boxplot(data=df, x='categoria', y='valor')# Boxplot
sns.violinplot(data=df, x='categoria', y='valor')# Gráfico de violino
sns.countplot(data=df, x='categoria')# Gráfico de contagem
📋Mapas e Matrizes
sns.heatmap(correlation_matrix)# Mapa de calor
sns.pairplot(df)# Gráfico de pares
sns.lmplot(data=df, x='x', y='y')# Regressão linear
🟡 Data Cleaning e Preprocessing
Use quando: Preparação de dados, limpeza de dataset
📋Tratamento de Nulos
df.isnull().sum()# Contar valores nulos
df.dropna()# Remover linhas com nulos
df.fillna(0)# Preencher nulos com zero
df.fillna(df.mean())# Preencher com média
📋Duplicados e Tipos
df.duplicated().sum()# Contar duplicados
df.drop_duplicates()# Remover duplicados
df['coluna'].astype('int')# Converter tipo
pd.get_dummies(df['col'])# One-hot encoding
📋Limpeza de Texto
df['col'].str.lower()# Converter para minúsculas
df['col'].str.strip()# Remover espaços
df['col'].str.replace('old', 'new')# Substituir texto
🔴 Scikit-learn e Machine Learning
Use quando: Machine learning, modelagem preditiva
📋Preparação de Dados
from sklearn.model_selection import train_test_split# Importar split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)# Dividir treino/teste
from sklearn.preprocessing import StandardScaler# Importar normalização
scaler = StandardScaler()# Criar scaler
X_scaled = scaler.fit_transform(X)# Normalizar dados
📋Modelos de Regressão
from sklearn.linear_model import LinearRegression# Importar regressão
model = LinearRegression()# Criar modelo
model.fit(X_train, y_train)# Treinar modelo
predictions = model.predict(X_test)# Fazer previsões
📋Modelos de Classificação
from sklearn.ensemble import RandomForestClassifier# Importar Random Forest
from sklearn.svm import SVC# Importar SVM
model.fit(X_train, y_train)# Treinar classificador
📋Métricas e Validação
from sklearn.metrics import accuracy_score, mean_squared_error# Importar métricas
accuracy = accuracy_score(y_test, predictions)# Calcular acurácia
mse = mean_squared_error(y_test, predictions)# Calcular MSE
from sklearn.model_selection import cross_val_score# Importar validação cruzada
🔴 Análise Estatística e Séries Temporais
Use quando: Análise estatística avançada, séries temporais
📋Estatística Descritiva
df['col'].mean()# Calcular média
df['col'].median()# Calcular mediana
df['col'].std()# Calcular desvio padrão
df['col'].skew()# Calcular assimetria
df['col'].kurt()# Calcular curtose
📋Correlação e Covariância
df.corr()# Matriz de correlação
df.cov()# Matriz de covariância
df.corr()['col'].sort_values(ascending=False)# Correlação com coluna
📋Séries Temporais
df['data'] = pd.to_datetime(df['data'])# Converter para datetime
df.set_index('data', inplace=True)# Definir como índice
df.resample('M').mean()# Resample mensal
df.rolling(window=7).mean()# Média móvel 7 dias
df.diff()# Diferenças consecutivas
df.pct_change()# Variação percentual
🤝 Contribuindo
Encontrou um erro? Quer melhorar um cheatsheet? Tem uma sugestão? Adoraríamos suas contribuições! Abra uma issue ou submeta um PR.
Gostou do projeto? Apoie o desenvolvimento com um café e ajude a manter tudo open source ☕