Cheatsheet

← Voltar para página principal
Python Data Science Cheatsheet

Bibliotecas essenciais e comandos para análise de dados, machine learning e visualização

📊 O que é Python Data Science?

📖 Definição

Python Data Science é o ecossistema de bibliotecas e ferramentas Python para análise de dados, visualização e machine learning. Combina poderosas bibliotecas como Pandas, NumPy, Matplotlib e Scikit-learn para transformar dados brutos em insights valiosos.

💪 Por que aprender?

• Manipulação eficiente de dados
• Visualizações interativas e informativas
• Algoritmos de machine learning
• Análise estatística avançada
• Processamento de séries temporais

🚀 O que você pode fazer?

• Análise exploratória de dados
• Modelagem preditiva
• Dashboards e relatórios
• Big Data e processamento distribuído

💡 Onde você vai usar:
📊 Análise de Dados
Pandas, NumPy, análise estatística
📈 Visualização
Matplotlib, Seaborn, gráficos interativos
🤖 Machine Learning
Scikit-learn, modelos preditivos
🔬 Research
Jupyter, experimentos, publicações
Filtro ativo:Todos
Total: 8 categoriasBásico: 3Intermediário: 3Avançado: 2

🟢 Pandas e DataFrames

Use quando: Análise exploratória de dados, manipulação básica

📋Importação e Leitura

Básico
import pandas as pd

# Importar biblioteca Pandas

Básico
df = pd.read_csv('arquivo.csv')

# Ler arquivo CSV para DataFrame

Básico
df = pd.read_excel('arquivo.xlsx')

# Ler arquivo Excel

Básico
df = pd.read_json('arquivo.json')

# Ler arquivo JSON

📋Visualização Básica

Básico
df.head()

# Exibir primeiras 5 linhas

Básico
df.tail()

# Exibir últimas 5 linhas

Básico
df.info()

# Exibir informações resumidas

Básico
df.describe()

# Estatísticas descritivas

Básico
df.shape

# Ver dimensões (linhas, colunas)

📋Seleção de Dados

Básico
df['coluna']

# Selecionar coluna específica

Básico
df[['col1', 'col2']]

# Selecionar múltiplas colunas

Básico
df.iloc[0]

# Selecionar por índice numérico

Básico
df.loc[0]

# Selecionar por label

🟢 NumPy e Arrays

Use quando: Cálculos numéricos, operações matriciais

📋Criação de Arrays

Básico
import numpy as np

# Importar biblioteca NumPy

Básico
arr = np.array([1, 2, 3, 4, 5])

# Criar array NumPy

Básico
np.zeros((3, 4))

# Criar array de zeros 3x4

Básico
np.ones((2, 3))

# Criar array de uns 2x3

Básico
np.random.rand(3, 3)

# Array aleatório 3x3

📋Arrays Sequenciais

Básico
np.arange(0, 10, 2)

# Array com range [0, 2, 4, 6, 8]

Básico
np.linspace(0, 1, 5)

# 5 valores entre 0 e 1

Básico
np.eye(3)

# Matriz identidade 3x3

Básico
arr.shape

# Ver dimensões do array

📋Operações Básicas

Básico
arr + 5

# Adicionar escalar

Básico
arr * 2

# Multiplicar por escalar

Básico
arr1 + arr2

# Soma de arrays

Básico
np.sqrt(arr)

# Raiz quadrada

🟢 Matplotlib e Visualização

Use quando: Visualização de dados, exploração visual

📋Importação e Configuração

Básico
import matplotlib.pyplot as plt

# Importar biblioteca

Básico
plt.style.use('seaborn')

# Definir estilo

Básico
plt.figure(figsize=(10, 6))

# Definir tamanho da figura

📋Gráficos Básicos

Básico
plt.plot(x, y)

# Gráfico de linhas

Básico
plt.scatter(x, y)

# Gráfico de dispersão

Básico
plt.bar(categories, values)

# Gráfico de barras

Básico
plt.hist(data, bins=10)

# Histograma

📋Personalização

Básico
plt.xlabel('Eixo X')

# Rótulo eixo X

Básico
plt.ylabel('Eixo Y')

# Rótulo eixo Y

Básico
plt.title('Título')

# Título do gráfico

Básico
plt.legend(['Série 1'])

# Adicionar legenda

Básico
plt.show()

# Exibir gráfico

🟡 Pandas Avançado

Use quando: Análise complexa, transformação de dados

📋Filtragem e Seleção

Intermediário
df.loc[condicao]

# Filtrar linhas por condição

Intermediário
df[df['col'] > 10]

# Filtrar por valor

Intermediário
df.query('col > 10')

# Filtrar com query

Intermediário
df.isnull().sum()

# Contar valores nulos

📋Agrupamento

Intermediário
df.groupby('coluna').mean()

# Agrupar e calcular média

Intermediário
df.groupby('col').agg(['mean', 'sum', 'count'])

# Múltiplas agregações

Intermediário
df.pivot_table(values='valor', index='linha', columns='coluna')

# Tabela dinâmica

📋Junção e Combinação

Intermediário
df.merge(df2, on='chave')

# Mesclar DataFrames

Intermediário
pd.concat([df1, df2])

# Concatenar DataFrames

Intermediário
df.join(df2, on='chave')

# Join por índice

🟡 Seaborn e Visualização Avançada

Use quando: Visualização estatística, análise exploratória avançada

📋Configuração e Estilo

Intermediário
import seaborn as sns

# Importar biblioteca

Intermediário
sns.set_style('whitegrid')

# Definir estilo

Intermediário
sns.set_palette('husl')

# Definir paleta de cores

📋Gráficos Estatísticos

Intermediário
sns.scatterplot(data=df, x='col1', y='col2')

# Dispersão com Seaborn

Intermediário
sns.boxplot(data=df, x='categoria', y='valor')

# Boxplot

Intermediário
sns.violinplot(data=df, x='categoria', y='valor')

# Gráfico de violino

Intermediário
sns.countplot(data=df, x='categoria')

# Gráfico de contagem

📋Mapas e Matrizes

Intermediário
sns.heatmap(correlation_matrix)

# Mapa de calor

Intermediário
sns.pairplot(df)

# Gráfico de pares

Intermediário
sns.lmplot(data=df, x='x', y='y')

# Regressão linear

🟡 Data Cleaning e Preprocessing

Use quando: Preparação de dados, limpeza de dataset

📋Tratamento de Nulos

Intermediário
df.isnull().sum()

# Contar valores nulos

Intermediário
df.dropna()

# Remover linhas com nulos

Intermediário
df.fillna(0)

# Preencher nulos com zero

Intermediário
df.fillna(df.mean())

# Preencher com média

📋Duplicados e Tipos

Intermediário
df.duplicated().sum()

# Contar duplicados

Intermediário
df.drop_duplicates()

# Remover duplicados

Intermediário
df['coluna'].astype('int')

# Converter tipo

Intermediário
pd.get_dummies(df['col'])

# One-hot encoding

📋Limpeza de Texto

Intermediário
df['col'].str.lower()

# Converter para minúsculas

Intermediário
df['col'].str.strip()

# Remover espaços

Intermediário
df['col'].str.replace('old', 'new')

# Substituir texto

🔴 Scikit-learn e Machine Learning

Use quando: Machine learning, modelagem preditiva

📋Preparação de Dados

Avançado
from sklearn.model_selection import train_test_split

# Importar split

Avançado
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Dividir treino/teste

Avançado
from sklearn.preprocessing import StandardScaler

# Importar normalização

Avançado
scaler = StandardScaler()

# Criar scaler

Avançado
X_scaled = scaler.fit_transform(X)

# Normalizar dados

📋Modelos de Regressão

Avançado
from sklearn.linear_model import LinearRegression

# Importar regressão

Avançado
model = LinearRegression()

# Criar modelo

Avançado
model.fit(X_train, y_train)

# Treinar modelo

Avançado
predictions = model.predict(X_test)

# Fazer previsões

📋Modelos de Classificação

Avançado
from sklearn.ensemble import RandomForestClassifier

# Importar Random Forest

Avançado
from sklearn.svm import SVC

# Importar SVM

Avançado
model.fit(X_train, y_train)

# Treinar classificador

📋Métricas e Validação

Avançado
from sklearn.metrics import accuracy_score, mean_squared_error

# Importar métricas

Avançado
accuracy = accuracy_score(y_test, predictions)

# Calcular acurácia

Avançado
mse = mean_squared_error(y_test, predictions)

# Calcular MSE

Avançado
from sklearn.model_selection import cross_val_score

# Importar validação cruzada

🔴 Análise Estatística e Séries Temporais

Use quando: Análise estatística avançada, séries temporais

📋Estatística Descritiva

Avançado
df['col'].mean()

# Calcular média

Avançado
df['col'].median()

# Calcular mediana

Avançado
df['col'].std()

# Calcular desvio padrão

Avançado
df['col'].skew()

# Calcular assimetria

Avançado
df['col'].kurt()

# Calcular curtose

📋Correlação e Covariância

Avançado
df.corr()

# Matriz de correlação

Avançado
df.cov()

# Matriz de covariância

Avançado
df.corr()['col'].sort_values(ascending=False)

# Correlação com coluna

📋Séries Temporais

Avançado
df['data'] = pd.to_datetime(df['data'])

# Converter para datetime

Avançado
df.set_index('data', inplace=True)

# Definir como índice

Avançado
df.resample('M').mean()

# Resample mensal

Avançado
df.rolling(window=7).mean()

# Média móvel 7 dias

Avançado
df.diff()

# Diferenças consecutivas

Avançado
df.pct_change()

# Variação percentual

🤝 Contribuindo

Encontrou um erro? Quer melhorar um cheatsheet? Tem uma sugestão? Adoraríamos suas contribuições! Abra uma issue ou submeta um PR.

Gostou do projeto? Apoie o desenvolvimento com um café e ajude a manter tudo open source ☕