Python Data Science Cheatsheet

Bibliotecas essenciais e comandos para análise de dados, machine learning e visualização

📊 O que é Python Data Science?

📖 Definição

Python Data Science é o ecossistema de bibliotecas e ferramentas Python para análise de dados, visualização e machine learning. Combina poderosas bibliotecas como Pandas, NumPy, Matplotlib e Scikit-learn para transformar dados brutos em insights valiosos.

💪 Por que aprender?

• Manipulação eficiente de dados
• Visualizações interativas e informativas
• Algoritmos de machine learning
• Análise estatística avançada
• Processamento de séries temporais

🚀 O que você pode fazer?

• Análise exploratória de dados
• Modelagem preditiva
• Dashboards e relatórios
• Big Data e processamento distribuído

💡 Onde você vai usar:

📊 Análise de Dados
Pandas, NumPy, análise estatística

📈 Visualização
Matplotlib, Seaborn, gráficos interativos

🤖 Machine Learning
Scikit-learn, modelos preditivos

🔬 Research
Jupyter, experimentos, publicações

Filtro ativo:Todos

Total: 8 categoriasBásico: 3Intermediário: 3Avançado: 2

🟢 Pandas e DataFrames

Use quando: Análise exploratória de dados, manipulação básica

📋Importação e Leitura

Básico

import pandas as pd

# Importar biblioteca Pandas

Básico

df = pd.read_csv('arquivo.csv')

# Ler arquivo CSV para DataFrame

Básico

df = pd.read_excel('arquivo.xlsx')

# Ler arquivo Excel

Básico

df = pd.read_json('arquivo.json')

# Ler arquivo JSON

📋Visualização Básica

Básico

df.head()

# Exibir primeiras 5 linhas

Básico

df.tail()

# Exibir últimas 5 linhas

Básico

df.info()

# Exibir informações resumidas

Básico

df.describe()

# Estatísticas descritivas

Básico

df.shape

# Ver dimensões (linhas, colunas)

📋Seleção de Dados

Básico

df['coluna']

# Selecionar coluna específica

Básico

df[['col1', 'col2']]

# Selecionar múltiplas colunas

Básico

df.iloc[0]

# Selecionar por índice numérico

Básico

df.loc[0]

# Selecionar por label

🟢 NumPy e Arrays

Use quando: Cálculos numéricos, operações matriciais

📋Criação de Arrays

Básico

import numpy as np

# Importar biblioteca NumPy

Básico

arr = np.array([1, 2, 3, 4, 5])

# Criar array NumPy

Básico

np.zeros((3, 4))

# Criar array de zeros 3x4

Básico

np.ones((2, 3))

# Criar array de uns 2x3

Básico

np.random.rand(3, 3)

# Array aleatório 3x3

📋Arrays Sequenciais

Básico

np.arange(0, 10, 2)

# Array com range [0, 2, 4, 6, 8]

Básico

np.linspace(0, 1, 5)

# 5 valores entre 0 e 1

Básico

np.eye(3)

# Matriz identidade 3x3

Básico

arr.shape

# Ver dimensões do array

📋Operações Básicas

Básico

arr + 5

# Adicionar escalar

Básico

arr * 2

# Multiplicar por escalar

Básico

arr1 + arr2

# Soma de arrays

Básico

np.sqrt(arr)

# Raiz quadrada

🟢 Matplotlib e Visualização

Use quando: Visualização de dados, exploração visual

📋Importação e Configuração

Básico

import matplotlib.pyplot as plt

# Importar biblioteca

Básico

plt.style.use('seaborn')

# Definir estilo

Básico

plt.figure(figsize=(10, 6))

# Definir tamanho da figura

📋Gráficos Básicos

Básico

plt.plot(x, y)

# Gráfico de linhas

Básico

plt.scatter(x, y)

# Gráfico de dispersão

Básico

plt.bar(categories, values)

# Gráfico de barras

Básico

plt.hist(data, bins=10)

# Histograma

📋Personalização

Básico

plt.xlabel('Eixo X')

# Rótulo eixo X

Básico

plt.ylabel('Eixo Y')

# Rótulo eixo Y

Básico

plt.title('Título')

# Título do gráfico

Básico

plt.legend(['Série 1'])

# Adicionar legenda

Básico

plt.show()

# Exibir gráfico

🟡 Pandas Avançado

Use quando: Análise complexa, transformação de dados

📋Filtragem e Seleção

Intermediário

df.loc[condicao]

# Filtrar linhas por condição

Intermediário

df[df['col'] > 10]

# Filtrar por valor

Intermediário

df.query('col > 10')

# Filtrar com query

Intermediário

df.isnull().sum()

# Contar valores nulos

📋Agrupamento

Intermediário

df.groupby('coluna').mean()

# Agrupar e calcular média

Intermediário

df.groupby('col').agg(['mean', 'sum', 'count'])

# Múltiplas agregações

Intermediário

df.pivot_table(values='valor', index='linha', columns='coluna')

# Tabela dinâmica

📋Junção e Combinação

Intermediário

df.merge(df2, on='chave')

# Mesclar DataFrames

Intermediário

pd.concat([df1, df2])

# Concatenar DataFrames

Intermediário

df.join(df2, on='chave')

# Join por índice

🟡 Seaborn e Visualização Avançada

Use quando: Visualização estatística, análise exploratória avançada

📋Configuração e Estilo

Intermediário

import seaborn as sns

# Importar biblioteca

Intermediário

sns.set_style('whitegrid')

# Definir estilo

Intermediário

sns.set_palette('husl')

# Definir paleta de cores

📋Gráficos Estatísticos

Intermediário

sns.scatterplot(data=df, x='col1', y='col2')

# Dispersão com Seaborn

Intermediário

sns.boxplot(data=df, x='categoria', y='valor')

# Boxplot

Intermediário

sns.violinplot(data=df, x='categoria', y='valor')

# Gráfico de violino

Intermediário

sns.countplot(data=df, x='categoria')

# Gráfico de contagem

📋Mapas e Matrizes

Intermediário

sns.heatmap(correlation_matrix)

# Mapa de calor

Intermediário

sns.pairplot(df)

# Gráfico de pares

Intermediário

sns.lmplot(data=df, x='x', y='y')

# Regressão linear

🟡 Data Cleaning e Preprocessing

Use quando: Preparação de dados, limpeza de dataset

📋Tratamento de Nulos

Intermediário

df.isnull().sum()

# Contar valores nulos

Intermediário

df.dropna()

# Remover linhas com nulos

Intermediário

df.fillna(0)

# Preencher nulos com zero

Intermediário

df.fillna(df.mean())

# Preencher com média

📋Duplicados e Tipos

Intermediário

df.duplicated().sum()

# Contar duplicados

Intermediário

df.drop_duplicates()

# Remover duplicados

Intermediário

df['coluna'].astype('int')

# Converter tipo

Intermediário

pd.get_dummies(df['col'])

# One-hot encoding

📋Limpeza de Texto

Intermediário

df['col'].str.lower()

# Converter para minúsculas

Intermediário

df['col'].str.strip()

# Remover espaços

Intermediário

df['col'].str.replace('old', 'new')

# Substituir texto

🔴 Scikit-learn e Machine Learning

Use quando: Machine learning, modelagem preditiva

📋Preparação de Dados

Avançado

from sklearn.model_selection import train_test_split

# Importar split

Avançado

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Dividir treino/teste

Avançado

from sklearn.preprocessing import StandardScaler

# Importar normalização

Avançado

scaler = StandardScaler()

# Criar scaler

Avançado

X_scaled = scaler.fit_transform(X)

# Normalizar dados

📋Modelos de Regressão

Avançado

from sklearn.linear_model import LinearRegression

# Importar regressão

Avançado

model = LinearRegression()

# Criar modelo

Avançado

model.fit(X_train, y_train)

# Treinar modelo

Avançado

predictions = model.predict(X_test)

# Fazer previsões

📋Modelos de Classificação

Avançado

from sklearn.ensemble import RandomForestClassifier

# Importar Random Forest

Avançado

from sklearn.svm import SVC

# Importar SVM

Avançado

model.fit(X_train, y_train)

# Treinar classificador

📋Métricas e Validação

Avançado

from sklearn.metrics import accuracy_score, mean_squared_error

# Importar métricas

Avançado

accuracy = accuracy_score(y_test, predictions)

# Calcular acurácia

Avançado

mse = mean_squared_error(y_test, predictions)

# Calcular MSE

Avançado

from sklearn.model_selection import cross_val_score

# Importar validação cruzada

🔴 Análise Estatística e Séries Temporais

Use quando: Análise estatística avançada, séries temporais

📋Estatística Descritiva

Avançado

df['col'].mean()

# Calcular média

Avançado

df['col'].median()

# Calcular mediana

Avançado

df['col'].std()

# Calcular desvio padrão

Avançado

df['col'].skew()

# Calcular assimetria

Avançado

df['col'].kurt()

# Calcular curtose

📋Correlação e Covariância

Avançado

df.corr()

# Matriz de correlação

Avançado

df.cov()

# Matriz de covariância

Avançado

df.corr()['col'].sort_values(ascending=False)

# Correlação com coluna

📋Séries Temporais

Avançado

df['data'] = pd.to_datetime(df['data'])

# Converter para datetime

Avançado

df.set_index('data', inplace=True)

# Definir como índice

Avançado

df.resample('M').mean()

# Resample mensal

Avançado

df.rolling(window=7).mean()

# Média móvel 7 dias

Avançado

df.diff()

# Diferenças consecutivas

Avançado

df.pct_change()

# Variação percentual

🤝 Contribuindo

Encontrou um erro? Quer melhorar um cheatsheet? Tem uma sugestão? Adoraríamos suas contribuições! Abra uma issue ou submeta um PR.

Gostou do projeto? Apoie o desenvolvimento com um café e ajude a manter tudo open source ☕

Contribuir no GitHub ☕ Apoiar o Projeto