Skip to content

Latest commit

 

History

History
81 lines (59 loc) · 2.48 KB

18_python_3.md

File metadata and controls

81 lines (59 loc) · 2.48 KB

Introducción al manejo de datos en Python 🐍


Sobre el curso: Este curso está diseñado para fomentar el aprendizaje práctico de Python, con un enfoque en operaciones avanzadas de manejo de datos utilizando Pandas.

Sesión 3: Operaciones avanzadas en Pandas

Esta sesión cubre técnicas principales de Pandas, incluyendo joins, búsqueda de cadenas, agregación de datos y visualizaciones.

1. Combinación de DataFrames

Los joins son esenciales para combinar DataFrames en base a una o más claves con merge(). El parámetro how indica cómo se hará el join (left, right, inner o outer).

# Inner join
df_inner = pd.merge(df1, df2, on='key', how='inner')

2. Búsqueda de cadenas de texto

Pandas permite la búsqueda dentro de series de texto usando métodos como str.contains().

# Filtrar filas que contienen una cadena específica
df[df['column'].str.contains('texto buscado')]

Este método es compatible con expresiones regulares para búsquedas complejas en textos.

# Filtrar utilizando una expresión regular
df[df['column'].str.contains(r'^[A-Za-z]+$', regex=True)]

3. Agregación de datos

Una función básica es la del recuento de ocurrencia de valores únicos dentro de una columna con value_counts().

# Contar valores únicos
df['column'].value_counts()

Sin embargo, Pandas también permite realizar operaciones de agregación para resumir datos a través de groupby().

# Agregación simple por grupo
grouped_data = df.groupby('group_key').sum()

Además, se pueden especificar varias operaciones de manera simultánea con agg().

# Uso de agg() para múltiples operaciones
df.groupby('group_key').agg({'column1': 'sum', 'column2': 'mean'})

4. Visualización de datos

Pandas tiene integrado Matplotlib, que permite crear una variedad de gráficos para analizar los datos visualmente de manera sencilla.

# Gráfico de barras
df['column'].value_counts().plot(kind='bar')

# Gráfico de líneas
df.plot(kind='line')

# Histograma
df['column'].plot(kind='hist', bins=20)

# Scatter plot
df.plot(kind='scatter', x='column1', y='column2')

# Gráfico de boxplot
df.plot(kind='box')

Información

Autor: Wenceslao Arroyo-Machado
Fecha de actualización: 03/05/2024
GitHub: https://github.com/Wences91/teaching