Sobre el curso: Este curso está diseñado para fomentar el aprendizaje práctico de Python, con un enfoque en operaciones avanzadas de manejo de datos utilizando Pandas.
Esta sesión cubre técnicas principales de Pandas, incluyendo joins, búsqueda de cadenas, agregación de datos y visualizaciones.
Los joins son esenciales para combinar DataFrames en base a una o más claves con merge()
. El parámetro how
indica cómo se hará el join (left, right, inner o outer).
# Inner join
df_inner = pd.merge(df1, df2, on='key', how='inner')
Pandas permite la búsqueda dentro de series de texto usando métodos como str.contains()
.
# Filtrar filas que contienen una cadena específica
df[df['column'].str.contains('texto buscado')]
Este método es compatible con expresiones regulares para búsquedas complejas en textos.
# Filtrar utilizando una expresión regular
df[df['column'].str.contains(r'^[A-Za-z]+$', regex=True)]
Una función básica es la del recuento de ocurrencia de valores únicos dentro de una columna con value_counts()
.
# Contar valores únicos
df['column'].value_counts()
Sin embargo, Pandas también permite realizar operaciones de agregación para resumir datos a través de groupby()
.
# Agregación simple por grupo
grouped_data = df.groupby('group_key').sum()
Además, se pueden especificar varias operaciones de manera simultánea con agg()
.
# Uso de agg() para múltiples operaciones
df.groupby('group_key').agg({'column1': 'sum', 'column2': 'mean'})
Pandas tiene integrado Matplotlib, que permite crear una variedad de gráficos para analizar los datos visualmente de manera sencilla.
# Gráfico de barras
df['column'].value_counts().plot(kind='bar')
# Gráfico de líneas
df.plot(kind='line')
# Histograma
df['column'].plot(kind='hist', bins=20)
# Scatter plot
df.plot(kind='scatter', x='column1', y='column2')
# Gráfico de boxplot
df.plot(kind='box')
Fecha de actualización: 03/05/2024
GitHub: https://github.com/Wences91/teaching