Introducción a Pandas para principiantes
Pandas es una biblioteca de código abierto para el análisis de datos en Python. Proporciona herramientas eficientes para manipular y analizar conjuntos de datos con formato tabular. También para tratar datos en archivos csv separados por comas u otros delimitadores, conjuntos de datos de Excel y prácticamente cualquier tipo de archivo. Esta biblioteca es muy útil para científicos de datos, analistas de negocios, desarrolladores de software y SEOS que necesitan trabajar con datos en forma de tablas.
La principal estructura de datos en Pandas es el DataFrame, que podemos imaginarlo como una tabla de datos en la que cada columna tiene un nombre y un tipo de datos específico y cada fila tiene un índice que permite identificarla de manera única. Los DataFrames se pueden crear a partir de diferentes fuentes de datos como archivos CSV, Excel, bases de datos SQL o incluso directamente desde una lista o diccionario en Python.
Una vez que se tiene un DataFrame, se pueden aplicar diferentes operaciones sobre él, como por ejemplo seleccionar y filtrar filas o columnas, agrupar y resumir datos, hacer cálculos y gráficos y mucho más. Pandas ofrece una amplia gama de funcionalidades que facilitan el análisis y manipulación de datos en Python.
Para empezar a trabajar con Pandas, primero es necesario instalarlo en el sistema. Esto se puede hacer utilizando el administrador de paquetes pip. Solo necesitamos escribir desde consola con nuestro entorno virtual activado lo siguiente:
pip install pandas
import pandas as pd
import pandas as pd
data = [
{'nombre': 'Juan', 'edad': 25, 'genero': 'M'},
{'nombre': 'Ana', 'edad': 32, 'genero': 'F'},
{'nombre': 'Mario', 'edad': 19, 'genero': 'M'},
{'nombre': 'Sofía', 'edad': 28, 'genero': 'F'},
]
df = pd.DataFrame(data)
# Seleccionar la columna 'nombre' del DataFrame
df['nombre']
# Seleccionar las columnas 'nombre' y 'edad' del DataFrame
df[['nombre', 'edad']]
# Seleccionar la primera fila del DataFrame
df.loc[0]
# Seleccionar la primera y la tercera fila del DataFrame
df.loc[[0, 2]]
# Seleccionar las filas en las que la columna 'genero' es 'F'
df[df['genero'] == 'F']
# Agrupar las filas por la columna 'genero' y calcular la edad media para cada grupo
df.groupy('genero')['edad'].mean()
Comentarios del artículo "Introducción a Pandas para principiantes"
¿Te ha gustado la información? Coméntanos tus opiniones, dudas y sugerencias: