# pandas: biblioteca para análisis y manipulación de datos

[![Abrir en Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/gf0657-programacionsig/2024-ii/blob/main/contenido/3/pandas.ipynb)

## Introducción

[pandas](https://pandas.pydata.org/) es una biblioteca de Python para análisis y manipulación de datos. Fue creada por Wes McKinney en 2008. El nombre "pandas" puede considerarse un acrónimo de *Panel Data* o de *Python Data Analysis*.

Como su estructura principal, pandas implementa el `dataframe`, el cual es un arreglo rectangular de datos, organizado en filas y columnas. pandas proporciona también una gran cantidad de funciones para limpiar, procesar, analizar y visualizar datos en dataframes.

## Carga

In [251]:
# Carga de pandas con el alias pd
import pandas as pd

## Configuración

El método [pandas.set_option()](https://pandas.pydata.org/docs/reference/api/pandas.set_option.html) se utiliza para configurar diversas opciones que controlan el comportamiento de pandas y la visualización de datos. Estas opciones permiten personalizar aspectos como:

- El número de filas y columnas que se muestran al desplegar conjuntos de datos.
- La precisión al mostrar números decimales.
- El ancho máximo de filas y columnas.
- El formato de la fecha y la hora.

In [252]:
# Configuración de pandas para mostrar separadores de miles y 2 dígitos decimales
# Esto también evita la notación científica

pd.set_option('display.float_format', '{:,.2f}'.format)

Otras funciones relacionadas con la configuración de pandas:

- [pandas.describe_option()](https://pandas.pydata.org/docs/reference/api/pandas.describe_option.html): muestra información sobre una opción (ej. `pd.describe_option('display.max_rows')`). `pd.describe_option()` describe todas las opciones.
- [pandas.get_option()](https://pandas.pydata.org/docs/reference/api/pandas.get_option.html): muestra el valor actual de una opción de configuración (ej. `pd.get_option('display.max_rows')`).
- [pandas.reset_option()](https://pandas.pydata.org/docs/reference/api/pandas.reset_option.html): reestablece el valor por defecto de una opción de configuración (ej. `pd.reset_option('display.max_rows')`). `pd.reset_option('all')` reestablece todas las opciones.

Debe tenerse en cuenta que el uso de estas funciones aplica para toda una sesión de pandas y no, por ejemplo, para conjuntos de datos específicos.

## Estructuras de datos
Las dos principales estructuras de datos de pandas son las `series` y los `dataframes`.

### Series
Las [`series`](https://pandas.pydata.org/docs/reference/api/pandas.Series.html?highlight=series#pandas.Series) son arreglos unidimensionales que contienen datos de cualquier tipo.

In [253]:
# Definición de una serie a partir de una lista

lista_primos = [2, 3, 5, 7, 11]
serie_primos = pd.Series(lista_primos)

print(serie_primos)

0     2
1     3
2     5
3     7
4    11
dtype: int64


Al igual que otras estructuras de datos de Python (ej. tuplas, listas), cada elemento de una serie tiene un índice (i.e. una posición). El índice del primer elemento es 0, el del segundo elemento es 1 y así sucesivamente.

In [254]:
# Primer elemento
print("Primer elemento:", serie_primos[0])

# Segundo elemento
print("Segundo elemento:", serie_primos[1])

Primer elemento: 2
Segundo elemento: 3


A diferencia de las tuplas y las listas, las series pueden tener índices no numéricos, a los cuales se les llama etiquetas.

In [255]:
# Índices de una serie con etiquetas personalizadas
serie_primos = pd.Series(lista_primos, index = ["A", "B", "C", "D", "E"])

serie_primos

A     2
B     3
C     5
D     7
E    11
dtype: int64

In [256]:
# Elemento en la posición B
print("Elemento en B:", serie_primos["B"])

# Elemento en la posición D
print("Elemento en D:", serie_primos["D"])

Elemento en B: 3
Elemento en D: 7


**Ejercicios**

1. Cree una serie que contenga los montos de ventas de una tienda para los 12 meses del año. Utilice los nombres de los meses como índices.

### Dataframes
Los [`dataframes`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html#pandas.DataFrame) son estructuras de datos multidimensionales compuestas por filas y columnas. Un dataframe puede verse como una tabla cuyas columnas se implementan como series.

In [257]:
# Dataframe generado a partir de un diccionario

diccionario_paises = {
  "pais": ["PA", "CR", "NI"],
  "poblacion": [4246439, 5047561, 6545502]
}

df_paises = pd.DataFrame(diccionario_paises)

df_paises

Unnamed: 0,pais,poblacion
0,PA,4246439
1,CR,5047561
2,NI,6545502


La propiedad **iloc** retorna una o más filas de un dataframe, de acuerdo con un índice o una lista de índices.

In [258]:
# Segunda fila
df_paises.iloc[1]

pais              CR
poblacion    5047561
Name: 1, dtype: object

In [259]:
# Segunda y tercera fila
df_paises.loc[[1, 2]]

Unnamed: 0,pais,poblacion
1,CR,5047561
2,NI,6545502


Los índices de los dataframes también pueden etiquetarse.

In [260]:
# Dataframe con índices etiquetados

df_paises = pd.DataFrame(diccionario_paises, index=["pais_0", "pais_1", "pais_2"])

df_paises

Unnamed: 0,pais,poblacion
pais_0,PA,4246439
pais_1,CR,5047561
pais_2,NI,6545502


La propiedad **loc** retorna una o más filas de un dataframe, de acuerdo con sus etiquetas.

In [261]:
# Fila en "pais_0"
df_paises.loc["pais_0"]

pais              PA
poblacion    4246439
Name: pais_0, dtype: object

## Operaciones básicas

Seguidamente, se describen y ejemplifican algunas de las funciones básicas que pueden realizarse en un dataframe de pandas.

En los siguientes ejemplos, se utilizará un conjunto de datos de países descargado de [Natural Earth](https://www.naturalearthdata.com/).

### Carga de datos

El método [`pandas.read_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html#pandas.read_csv) carga un archivo de valores separados por comas (CSV) en un dataframe.

In [262]:
# Carga de un archivo CSV remoto en un dataframe

paises = pd.read_csv(
    "https://raw.githubusercontent.com/gf0657-programacionsig/2024-ii/refs/heads/main/datos/natural-earth/paises.csv"
)

**Ejercicios**

1. Descargue en su computadora el archivo `paises.csv` y cárguelo en otro dataframe.

### Obtención de información general

El método [`pandas.DataFrame.info()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html) despliega un resumen de información sobre un dataframe.

In [263]:
# Información general sobre un dataframe

paises.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 201 entries, 0 to 200
Data columns (total 10 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   ADM0_ISO    201 non-null    object 
 1   NAME        201 non-null    object 
 2   CONTINENT   201 non-null    object 
 3   REGION_UN   201 non-null    object 
 4   SUBREGION   201 non-null    object 
 5   REGION_WB   201 non-null    object 
 6   ECONOMY     201 non-null    object 
 7   INCOME_GRP  201 non-null    object 
 8   POP_EST     201 non-null    float64
 9   GDP_MD      201 non-null    int64  
dtypes: float64(1), int64(1), object(8)
memory usage: 15.8+ KB


### Funciones básicas de recuperación y despliegue de datos

Los datos contenidos en un dataframe pueden visualizarse con la función `print()`. En un cuaderno de notas, basta también con ejecutar una celda con el nombre del dataframe. Esta última opción genera una salida más legible.

In [264]:
# Despliegue de los datos de un dataframe

paises

Unnamed: 0,ADM0_ISO,NAME,CONTINENT,REGION_UN,SUBREGION,REGION_WB,ECONOMY,INCOME_GRP,POP_EST,GDP_MD
0,IDN,Indonesia,Asia,Asia,South-Eastern Asia,East Asia & Pacific,4. Emerging region: MIKT,4. Lower middle income,270625568.00,1119190
1,MYS,Malaysia,Asia,Asia,South-Eastern Asia,East Asia & Pacific,6. Developing region,3. Upper middle income,31949777.00,364681
2,CHL,Chile,South America,Americas,South America,Latin America & Caribbean,5. Emerging region: G20,3. Upper middle income,18952038.00,282318
3,BOL,Bolivia,South America,Americas,South America,Latin America & Caribbean,5. Emerging region: G20,4. Lower middle income,11513100.00,40895
4,PER,Peru,South America,Americas,South America,Latin America & Caribbean,5. Emerging region: G20,3. Upper middle income,32510453.00,226848
...,...,...,...,...,...,...,...,...,...,...
196,NRU,Nauru,Oceania,Oceania,Micronesia,East Asia & Pacific,6. Developing region,4. Lower middle income,12581.00,118
197,FSM,Micronesia,Oceania,Oceania,Micronesia,East Asia & Pacific,6. Developing region,4. Lower middle income,113815.00,401
198,VUT,Vanuatu,Oceania,Oceania,Melanesia,East Asia & Pacific,7. Least developed region,4. Lower middle income,299882.00,934
199,PLW,Palau,Oceania,Oceania,Micronesia,East Asia & Pacific,6. Developing region,3. Upper middle income,18008.00,268


Es posible que la cantidad de filas sea muy grande para desplegarse completamente en la pantalla, por lo que es usual emplear algunos métodos para limitarla.

#### `head()` - primeras filas

El método [`pandas.DataFrame.head()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html) retorna las primeras n filas de un dataframe (por defecto, n=5).

In [265]:
# Primeras 5 filas de un dataframe

paises.head()

Unnamed: 0,ADM0_ISO,NAME,CONTINENT,REGION_UN,SUBREGION,REGION_WB,ECONOMY,INCOME_GRP,POP_EST,GDP_MD
0,IDN,Indonesia,Asia,Asia,South-Eastern Asia,East Asia & Pacific,4. Emerging region: MIKT,4. Lower middle income,270625568.0,1119190
1,MYS,Malaysia,Asia,Asia,South-Eastern Asia,East Asia & Pacific,6. Developing region,3. Upper middle income,31949777.0,364681
2,CHL,Chile,South America,Americas,South America,Latin America & Caribbean,5. Emerging region: G20,3. Upper middle income,18952038.0,282318
3,BOL,Bolivia,South America,Americas,South America,Latin America & Caribbean,5. Emerging region: G20,4. Lower middle income,11513100.0,40895
4,PER,Peru,South America,Americas,South America,Latin America & Caribbean,5. Emerging region: G20,3. Upper middle income,32510453.0,226848


#### `tail()` - últimas filas

El método [`pandas.DataFrame.tail()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.tail.html) retorna las últimas n filas de un dataframe (por defecto, n=5).

In [266]:
# Últimas 10 filas de un dataframe

paises.tail(10)

Unnamed: 0,ADM0_ISO,NAME,CONTINENT,REGION_UN,SUBREGION,REGION_WB,ECONOMY,INCOME_GRP,POP_EST,GDP_MD
191,TON,Tonga,Oceania,Oceania,Polynesia,East Asia & Pacific,6. Developing region,4. Lower middle income,104494.0,512
192,WSM,Samoa,Oceania,Oceania,Polynesia,East Asia & Pacific,7. Least developed region,4. Lower middle income,197097.0,852
193,SLB,Solomon Is.,Oceania,Oceania,Melanesia,East Asia & Pacific,7. Least developed region,4. Lower middle income,669823.0,1589
194,TUV,Tuvalu,Oceania,Oceania,Polynesia,East Asia & Pacific,7. Least developed region,3. Upper middle income,11646.0,47
195,MDV,Maldives,Seven seas (open ocean),Asia,Southern Asia,South Asia,6. Developing region,3. Upper middle income,530953.0,5642
196,NRU,Nauru,Oceania,Oceania,Micronesia,East Asia & Pacific,6. Developing region,4. Lower middle income,12581.0,118
197,FSM,Micronesia,Oceania,Oceania,Micronesia,East Asia & Pacific,6. Developing region,4. Lower middle income,113815.0,401
198,VUT,Vanuatu,Oceania,Oceania,Melanesia,East Asia & Pacific,7. Least developed region,4. Lower middle income,299882.0,934
199,PLW,Palau,Oceania,Oceania,Micronesia,East Asia & Pacific,6. Developing region,3. Upper middle income,18008.0,268
200,BHR,Bahrain,Asia,Asia,Western Asia,Middle East & North Africa,6. Developing region,2. High income: nonOECD,1641172.0,38574


#### `sample()` - muestra aleatoria de filas

El método [`pandas.DataFrame.sample()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sample.html) retorna una muestra aleatoria de n filas de un dataframe (por defecto, n=1).

In [267]:
# Muestra aleatoria de 3 filas de un dataframe

paises.sample(3)

Unnamed: 0,ADM0_ISO,NAME,CONTINENT,REGION_UN,SUBREGION,REGION_WB,ECONOMY,INCOME_GRP,POP_EST,GDP_MD
22,GUY,Guyana,South America,Americas,South America,Latin America & Caribbean,6. Developing region,4. Lower middle income,782766.0,5173
169,BHS,Bahamas,North America,Americas,Caribbean,Latin America & Caribbean,6. Developing region,2. High income: nonOECD,389482.0,13578
12,ETH,Ethiopia,Africa,Africa,Eastern Africa,Sub-Saharan Africa,7. Least developed region,5. Low income,112078730.0,95912


### Creación de subconjuntos

Una de las operaciones más comunes de manipulación y análisis de datos es la creación de subconjuntos. En el caso de un dataframe, estos subconjuntos pueden ser de filas, de columnas o de ambas a la vez. Pueden crearse de varias formas.

#### Mediante índices numéricos

La propiedad [`pandas.DataFrame.iloc`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html) permite seleccionar filas y columnas de un dataframe por sus índices numéricos.

Índice de una fila:

In [268]:
# Fila 0
paises.iloc[0]

ADM0_ISO                           IDN
NAME                         Indonesia
CONTINENT                         Asia
REGION_UN                         Asia
SUBREGION           South-Eastern Asia
REGION_WB          East Asia & Pacific
ECONOMY       4. Emerging region: MIKT
INCOME_GRP      4. Lower middle income
POP_EST                 270,625,568.00
GDP_MD                         1119190
Name: 0, dtype: object

Rango de filas:

In [269]:
# Filas entre la 5 (inclusive) y la 7 (inclusive)
paises.iloc[5:8]

Unnamed: 0,ADM0_ISO,NAME,CONTINENT,REGION_UN,SUBREGION,REGION_WB,ECONOMY,INCOME_GRP,POP_EST,GDP_MD
5,ARG,Argentina,South America,Americas,South America,Latin America & Caribbean,5. Emerging region: G20,3. Upper middle income,44938712.0,445445
6,GBR,United Kingdom,Europe,Europe,Northern Europe,Europe & Central Asia,1. Developed region: G7,1. High income: OECD,67366465.0,2863166
7,CYP,Cyprus,Asia,Asia,Western Asia,Europe & Central Asia,6. Developing region,2. High income: nonOECD,1198575.0,24948


Lista de índices de filas:

In [270]:
# Filas 3, 5 y 7
paises.iloc[[3, 5, 7]]

Unnamed: 0,ADM0_ISO,NAME,CONTINENT,REGION_UN,SUBREGION,REGION_WB,ECONOMY,INCOME_GRP,POP_EST,GDP_MD
3,BOL,Bolivia,South America,Americas,South America,Latin America & Caribbean,5. Emerging region: G20,4. Lower middle income,11513100.0,40895
5,ARG,Argentina,South America,Americas,South America,Latin America & Caribbean,5. Emerging region: G20,3. Upper middle income,44938712.0,445445
7,CYP,Cyprus,Asia,Asia,Western Asia,Europe & Central Asia,6. Developing region,2. High income: nonOECD,1198575.0,24948


#### Mediante etiquetas

La propiedad [`pandas.DataFrame.loc`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html) permite seleccionar filas y columnas de un dataframe por sus etiquetas.

El método [`pandas.DataFrame.set_index()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.set_index.html) crea índices (etiquetas en las filas) para un dataframe con base en columnas existentes.

In [271]:
# Se usa la columna ADM0_ISO como índice
paises.set_index('ADM0_ISO', inplace=True)

paises.iloc[0:5]

Unnamed: 0_level_0,NAME,CONTINENT,REGION_UN,SUBREGION,REGION_WB,ECONOMY,INCOME_GRP,POP_EST,GDP_MD
ADM0_ISO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
IDN,Indonesia,Asia,Asia,South-Eastern Asia,East Asia & Pacific,4. Emerging region: MIKT,4. Lower middle income,270625568.0,1119190
MYS,Malaysia,Asia,Asia,South-Eastern Asia,East Asia & Pacific,6. Developing region,3. Upper middle income,31949777.0,364681
CHL,Chile,South America,Americas,South America,Latin America & Caribbean,5. Emerging region: G20,3. Upper middle income,18952038.0,282318
BOL,Bolivia,South America,Americas,South America,Latin America & Caribbean,5. Emerging region: G20,4. Lower middle income,11513100.0,40895
PER,Peru,South America,Americas,South America,Latin America & Caribbean,5. Emerging region: G20,3. Upper middle income,32510453.0,226848


Si se desea reestablecer el índice al numérico predeterminado, puede utilizarse el método [`pandas.DataFrame.reset_index()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.reset_index.html).

Una vez que se han creado las etiquetas, puede usarse `loc` para seleccionarlas.

In [272]:
# Fila correspondiente a Costa Rica
paises.loc['CRI']

NAME                         Costa Rica
CONTINENT                 North America
REGION_UN                      Americas
SUBREGION               Central America
REGION_WB     Latin America & Caribbean
ECONOMY         5. Emerging region: G20
INCOME_GRP       3. Upper middle income
POP_EST                    5,047,561.00
GDP_MD                            61801
Name: CRI, dtype: object

In [273]:
# Lista de filas correspondientes a Costa Rica, Nicaragua y Panamá
paises.loc[['CRI', 'NIC', 'PAN']]

Unnamed: 0_level_0,NAME,CONTINENT,REGION_UN,SUBREGION,REGION_WB,ECONOMY,INCOME_GRP,POP_EST,GDP_MD
ADM0_ISO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
CRI,Costa Rica,North America,Americas,Central America,Latin America & Caribbean,5. Emerging region: G20,3. Upper middle income,5047561.0,61801
NIC,Nicaragua,North America,Americas,Central America,Latin America & Caribbean,6. Developing region,4. Lower middle income,6545502.0,12520
PAN,Panama,North America,Americas,Central America,Latin America & Caribbean,6. Developing region,3. Upper middle income,4246439.0,66800


In [274]:
# Lista de etiquetas de filas y lista de etiquetas de columnas
paises.loc[['CRI', 'NIC', 'PAN'], ['NAME', 'POP_EST']]

Unnamed: 0_level_0,NAME,POP_EST
ADM0_ISO,Unnamed: 1_level_1,Unnamed: 2_level_1
CRI,Costa Rica,5047561.0
NIC,Nicaragua,6545502.0
PAN,Panama,4246439.0


In [275]:
# Nombres y poblaciones de países de América Central
poblaciones_america_central = paises.loc[['PAN', 'CRI', 'NIC', 'HND', 'SLV', 'GTM', 'BLZ'], ['NAME', 'POP_EST']]

poblaciones_america_central

Unnamed: 0_level_0,NAME,POP_EST
ADM0_ISO,Unnamed: 1_level_1,Unnamed: 2_level_1
PAN,Panama,4246439.0
CRI,Costa Rica,5047561.0
NIC,Nicaragua,6545502.0
HND,Honduras,9746117.0
SLV,El Salvador,6453553.0
GTM,Guatemala,16604026.0
BLZ,Belize,390353.0


**Ejercicios**

1. Seleccione los países de la península ibérica y las columnas correspondientes a sus nombres y a su producto interno bruto.

#### Mediante expresiones lógicas

Un dataframe puede filtrarse mediante expresiones lógicas, las cuales pueden incluir los operadores:

Y lógico (*AND*): `&`  
O lógico (*OR*): `|`  
No lógico (*NOT*): `~`

In [276]:
# Países con más de 200 millones de habitantes
paises_muy_poblados = paises[paises['POP_EST'] > 200000000]

paises_muy_poblados

Unnamed: 0_level_0,NAME,CONTINENT,REGION_UN,SUBREGION,REGION_WB,ECONOMY,INCOME_GRP,POP_EST,GDP_MD
ADM0_ISO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
IDN,Indonesia,Asia,Asia,South-Eastern Asia,East Asia & Pacific,4. Emerging region: MIKT,4. Lower middle income,270625568.0,1119190
IND,India,Asia,Asia,Southern Asia,South Asia,3. Emerging region: BRIC,4. Lower middle income,1366417754.0,2868929
CHN,China,Asia,Asia,Eastern Asia,East Asia & Pacific,3. Emerging region: BRIC,3. Upper middle income,1405862845.0,14762473
BRA,Brazil,South America,Americas,South America,Latin America & Caribbean,3. Emerging region: BRIC,3. Upper middle income,211049527.0,1839758
NGA,Nigeria,Africa,Africa,Western Africa,Sub-Saharan Africa,5. Emerging region: G20,4. Lower middle income,200963599.0,448120
PAK,Pakistan,Asia,Asia,Southern Asia,South Asia,5. Emerging region: G20,4. Lower middle income,216565318.0,278221
USA,United States of America,North America,Americas,Northern America,North America,1. Developed region: G7,1. High income: OECD,331595460.0,21542705


In [277]:
# Países con más de 200 millones de habitantes, incluyendo solo NAME, CONTINENT y POP_EST
paises_muy_poblados = paises.loc[paises['POP_EST'] > 200000000, ['NAME', 'CONTINENT', 'POP_EST']]

paises_muy_poblados

Unnamed: 0_level_0,NAME,CONTINENT,POP_EST
ADM0_ISO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
IDN,Indonesia,Asia,270625568.0
IND,India,Asia,1366417754.0
CHN,China,Asia,1405862845.0
BRA,Brazil,South America,211049527.0
NGA,Nigeria,Africa,200963599.0
PAK,Pakistan,Asia,216565318.0
USA,United States of America,North America,331595460.0


In [278]:
# Países asiáticos con más de 200 millones de habitantes, incluyendo solo NAME, CONTINENT y POP_EST
paises_asiaticos_muy_poblados = paises.loc[
    (paises['POP_EST'] > 200000000) & (paises['CONTINENT'] == 'Asia'), 
    ['NAME', 'CONTINENT', 'POP_EST']
]

paises_asiaticos_muy_poblados

Unnamed: 0_level_0,NAME,CONTINENT,POP_EST
ADM0_ISO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
IDN,Indonesia,Asia,270625568.0
IND,India,Asia,1366417754.0
CHN,China,Asia,1405862845.0
PAK,Pakistan,Asia,216565318.0


In [279]:
# Países asiáticos o africanos con más de 200 millones de habitantes, incluyendo solo NAME, CONTINENT y POP_EST
paises_asiaticos_africanos_muy_poblados = paises.loc[
    (paises['POP_EST'] > 200000000) & ((paises['CONTINENT'] == 'Asia') | (paises['CONTINENT'] == 'Africa')), 
    ['NAME', 'CONTINENT', 'POP_EST']
]

paises_asiaticos_africanos_muy_poblados

Unnamed: 0_level_0,NAME,CONTINENT,POP_EST
ADM0_ISO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
IDN,Indonesia,Asia,270625568.0
IND,India,Asia,1366417754.0
CHN,China,Asia,1405862845.0
NGA,Nigeria,Africa,200963599.0
PAK,Pakistan,Asia,216565318.0


#### Métodos `head()`, `tail()` y `sample()`

Los métodos `head()`, `tail()` y `sample()`, descritos anteriormente, también pueden emplearse para crear subconjuntos.

**Ejercicios**

1. Cree un subconjunto de los países con producto interno bruto (`GDP_MD`) menor a 1000 millones de dólares.
2. Cree un subconjunto de los países con producto interno bruto menor a 1000 millones de dólares y con más de un millón de habitantes.
3. Cree un subconjunto de los países de América Central, excepto Belice.
4. Cree un subconjunto de los siete países de América Central y, además, República Dominicana.

### Ordenamiento

El método [`pandas.DataFrame.sort_values()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html) ordena un dataframe de pandas por una o por varias columnas, en orden ascendente o descendente.

In [280]:
# Ordenamiento ascendente de países por nombre
paises.sort_values(by='NAME')

Unnamed: 0_level_0,NAME,CONTINENT,REGION_UN,SUBREGION,REGION_WB,ECONOMY,INCOME_GRP,POP_EST,GDP_MD
ADM0_ISO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
AFG,Afghanistan,Asia,Asia,Southern Asia,South Asia,7. Least developed region,5. Low income,38041754.00,19291
ALB,Albania,Europe,Europe,Southern Europe,Europe & Central Asia,6. Developing region,4. Lower middle income,2854191.00,15279
DZA,Algeria,Africa,Africa,Northern Africa,Middle East & North Africa,6. Developing region,3. Upper middle income,43053054.00,171091
AND,Andorra,Europe,Europe,Southern Europe,Europe & Central Asia,2. Developed region: nonG7,2. High income: nonOECD,77142.00,3154
AGO,Angola,Africa,Africa,Middle Africa,Sub-Saharan Africa,7. Least developed region,3. Upper middle income,31825295.00,88815
...,...,...,...,...,...,...,...,...,...
B28,W. Sahara,Africa,Africa,Northern Africa,Middle East & North Africa,7. Least developed region,5. Low income,603253.00,907
YEM,Yemen,Asia,Asia,Western Asia,Middle East & North Africa,7. Least developed region,4. Lower middle income,29161922.00,22581
ZMB,Zambia,Africa,Africa,Eastern Africa,Sub-Saharan Africa,7. Least developed region,4. Lower middle income,17861030.00,23309
ZWE,Zimbabwe,Africa,Africa,Eastern Africa,Sub-Saharan Africa,5. Emerging region: G20,5. Low income,14645468.00,21440


In [281]:
# Ordenamiento ascendente de países por nombre y despliegue de las 5 primeras filas
paises.sort_values(by='NAME').head()

Unnamed: 0_level_0,NAME,CONTINENT,REGION_UN,SUBREGION,REGION_WB,ECONOMY,INCOME_GRP,POP_EST,GDP_MD
ADM0_ISO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
AFG,Afghanistan,Asia,Asia,Southern Asia,South Asia,7. Least developed region,5. Low income,38041754.0,19291
ALB,Albania,Europe,Europe,Southern Europe,Europe & Central Asia,6. Developing region,4. Lower middle income,2854191.0,15279
DZA,Algeria,Africa,Africa,Northern Africa,Middle East & North Africa,6. Developing region,3. Upper middle income,43053054.0,171091
AND,Andorra,Europe,Europe,Southern Europe,Europe & Central Asia,2. Developed region: nonG7,2. High income: nonOECD,77142.0,3154
AGO,Angola,Africa,Africa,Middle Africa,Sub-Saharan Africa,7. Least developed region,3. Upper middle income,31825295.0,88815


In [282]:
# Ordenamiento descendente de países por nombre y despliegue de las 5 primeras filas
paises.sort_values(by='NAME', ascending=False).head()

Unnamed: 0_level_0,NAME,CONTINENT,REGION_UN,SUBREGION,REGION_WB,ECONOMY,INCOME_GRP,POP_EST,GDP_MD
ADM0_ISO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
SWZ,eSwatini,Africa,Africa,Southern Africa,Sub-Saharan Africa,6. Developing region,4. Lower middle income,1148130.0,4471
ZWE,Zimbabwe,Africa,Africa,Eastern Africa,Sub-Saharan Africa,5. Emerging region: G20,5. Low income,14645468.0,21440
ZMB,Zambia,Africa,Africa,Eastern Africa,Sub-Saharan Africa,7. Least developed region,4. Lower middle income,17861030.0,23309
YEM,Yemen,Asia,Asia,Western Asia,Middle East & North Africa,7. Least developed region,4. Lower middle income,29161922.0,22581
B28,W. Sahara,Africa,Africa,Northern Africa,Middle East & North Africa,7. Least developed region,5. Low income,603253.0,907


In [283]:
# Ordenamiento de países por continente y nombre
paises.sort_values(by=['CONTINENT', 'NAME'], ascending=[True, True])[['CONTINENT', 'NAME']]

Unnamed: 0_level_0,CONTINENT,NAME
ADM0_ISO,Unnamed: 1_level_1,Unnamed: 2_level_1
DZA,Africa,Algeria
AGO,Africa,Angola
BEN,Africa,Benin
BWA,Africa,Botswana
BFA,Africa,Burkina Faso
...,...,...
PRY,South America,Paraguay
PER,South America,Peru
SUR,South America,Suriname
URY,South America,Uruguay


**Ejercicios**

1. Cree un subconjunto de todos los países del mundo ordenado descendentemente por la cantidad de habitantes.
2. Cree un subconjunto de todos los países del mundo ordenado ascendentemente por el producto interno bruto.

### Creación y modificación de columnas

En un dataframe, pueden crearse o modificarse columnas de varias formas. Una de las más comunes es a través de operaciones con otras columnas.

#### Ejemplo: PIB per cápita

En el dataframe `paises` puede crearse una nueva columna llamada `GDP_MD_PC` con el resultado del cálculo del [Producto Interno Bruto (PIB) per cápita](https://es.wikipedia.org/wiki/Renta_per_c%C3%A1pita) para cada país.

In [284]:
# Creación de la columna GDP_PC (PIB per cápita en dólares)
paises['GDP_PC'] = (paises['GDP_MD'] * 1000000) / paises['POP_EST']

Para modularizar el código, es conveniente crear una función que realice el cálculo del PIB per cápita.

In [285]:
def pib_per_capita(pib, poblacion):
    """
    Retorna el PIB per cápita dados el PIB de un país (en millones de dólares) y su población.
    """

    return (pib * 1000000) / poblacion

In [286]:
# Creación de la columna GDP_PC (PIB per cápita en dólares)
# mediante la función pib_per_capita()
paises['GDP_PC'] = pib_per_capita(paises['GDP_MD'], paises['POP_EST'])

In [287]:
# Despliegue de la nueva columna
paises[['NAME', 'GDP_MD', 'POP_EST', 'GDP_PC']]

Unnamed: 0_level_0,NAME,GDP_MD,POP_EST,GDP_PC
ADM0_ISO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
IDN,Indonesia,1119190,270625568.00,4135.57
MYS,Malaysia,364681,31949777.00,11414.20
CHL,Chile,282318,18952038.00,14896.45
BOL,Bolivia,40895,11513100.00,3552.04
PER,Peru,226848,32510453.00,6977.69
...,...,...,...,...
NRU,Nauru,118,12581.00,9379.22
FSM,Micronesia,401,113815.00,3523.26
VUT,Vanuatu,934,299882.00,3114.56
PLW,Palau,268,18008.00,14882.27


#### Ejemplo: idiomas oficiales

Para crear una nueva columna llamada `LANGUAGES`, con los idiomas oficiales de cada país, se define una función llamada `obtener_idiomas_pais()`, la cual recibe como entrada el código [ISO 3166-1 alpha-3 (cca3)](https://es.wikipedia.org/wiki/ISO_3166-1_alfa-3) del país (el cual se encuentra en el índice del dataframe `paises`) y consulta el API [REST Countries](https://restcountries.com/) para retornar una hilera de texto con los nombres de los idiomas.

In [288]:
import requests

def obtener_idiomas_pais(cca3):
    """
    Obtiene una cadena con la lista de lenguajes oficiales de un país dado su código cca3.
    """

    # URL del API REST Countries
    url = f'https://restcountries.com/v3.1/alpha/{cca3}'
    
    # Respuesta del API a la solicitud
    respuesta = requests.get(url)
    
    # Revisión de la respuesta
    if respuesta.status_code == 200:
        datos = respuesta.json()
        
        if datos and 'languages' in datos[0]:
            lenguajes = datos[0]['languages']
            lista_lenguajes = list(lenguajes.values())
            return ', '.join(lista_lenguajes)
        else:
            return None
    else:
        return None

Ahora, para crear o modificar la nueva columna `LANGUAGES`, se utiliza la función [map()](https://docs.python.org/3/library/functions.html#map) de Python, la cual aplica una función a cada uno de los elementos de una estructura de datos iterable (ej. tuplas, listas, series, dataframes). En este caso, aplica la función `obtener_idiomas_pais()` al dataframe de países, recibiendo como entrada el índice del dataframe `paises` (`paises.index`).

In [289]:
# Creación de la columna LANGUAGES mediante la función obtener_idiomas_pais()
paises['LANGUAGES'] = paises.index.map(obtener_idiomas_pais)

In [290]:
# Despliegue de la nueva columna
paises[['NAME', 'LANGUAGES']]

Unnamed: 0_level_0,NAME,LANGUAGES
ADM0_ISO,Unnamed: 1_level_1,Unnamed: 2_level_1
IDN,Indonesia,Indonesian
MYS,Malaysia,"English, Malay"
CHL,Chile,Spanish
BOL,Bolivia,"Aymara, Guaraní, Quechua, Spanish"
PER,Peru,"Aymara, Quechua, Spanish"
...,...,...
NRU,Nauru,"English, Nauru"
FSM,Micronesia,English
VUT,Vanuatu,"Bislama, English, French"
PLW,Palau,"English, Palauan"


**Ejercicios**

1. Defina una función llamada `obtener_capital_pais()` que reciba el código cca3 de un país y retorne su capital mediante una consulta al API REST Countries. Utilíce esta función para crear en el dataframe `paises` una nueva columna llamada `CAPITAL`, con la ciudad capital de cada país.

### Agrupación y agregación

El proceso de agrupación y agregación consiste en dividir un conjunto de datos en grupos basados en uno o más criterios, para luego realizar operaciones en cada grupo. En pandas, este proceso se realiza mediante el método [pandas.DataFrame.groupby()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html).

Por ejemplo, el dataframe de países puede agruparse por continente para calcular en cada uno la suma de la población.

In [291]:
# Suma de población por continente
suma_poblacion_por_continente = paises.groupby('CONTINENT')['POP_EST'].sum()

# Despliegue de los resultados, ordenados descendentemente por población
suma_poblacion_por_continente.sort_values(ascending=False)

CONTINENT
Asia                      4,562,304,603.00
Africa                    1,307,986,092.30
Europe                      747,708,092.00
North America               584,776,221.00
South America               427,063,263.00
Oceania                      41,589,500.00
Seven seas (open ocean)       1,894,289.00
Antarctica                        4,490.00
Name: POP_EST, dtype: float64

El argumento de `groupby()` es usualmente una columna categórica (ej. `CONTINENT`) cuyos valores pasan a ser los grupos. En cada grupo se aplica una función de agregación (ej. `sum()`) para los valores de una columna numérica (ej. `POP_EST`).

Algunas funciones comunes de agregación son:

- `sum()`: suma.
- `mean()`: promedio.
- `count()`: número de elementos.
- `max()`, `min()`: valores máximo y mínimo.
- `median()`: mediana.
- `std()`: desviación estándar.
- `agg()`: para aplicar múltiples funciones o funciones personalizadas.

El métoddo `groupby()` permite agrupar también por múltiples columnas.

In [292]:
# Suma de población por región y subregión de la ONU
suma_poblacion_por_region_subregion = paises.groupby(['REGION_UN', 'SUBREGION'])['POP_EST'].sum()

suma_poblacion_por_region_subregion

REGION_UN   SUBREGION                
Africa      Eastern Africa                435,175,445.30
            Middle Africa                 174,308,432.00
            Northern Africa               241,801,558.00
            Southern Africa                66,629,895.00
            Western Africa                391,434,098.00
Americas    Caribbean                      38,982,419.00
            Central America               176,609,080.00
            Northern America              369,184,722.00
            South America                 427,063,263.00
Antarctica  Antarctica                          4,490.00
Asia        Central Asia                   73,814,587.00
            Eastern Asia                1,636,296,580.00
            South-Eastern Asia            661,911,038.00
            Southern Asia               1,918,690,648.00
            Western Asia                  272,122,703.00
Europe      Eastern Europe                291,080,093.00
            Northern Europe               105,802,

También es posible aplicar múltiples funciones de agregación.

In [293]:
# Suma y promedio de población por región y subregión de la ONU
suma_promedio_poblacion_por_region_subregion = paises.groupby(['REGION_UN', 'SUBREGION'])['POP_EST'].agg(['sum', 'mean'])

suma_promedio_poblacion_por_region_subregion

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,mean
REGION_UN,SUBREGION,Unnamed: 2_level_1,Unnamed: 3_level_1
Africa,Eastern Africa,435175445.3,22903970.81
Africa,Middle Africa,174308432.0,19367603.56
Africa,Northern Africa,241801558.0,34543079.71
Africa,Southern Africa,66629895.0,13325979.0
Africa,Western Africa,391434098.0,24464631.12
Americas,Caribbean,38982419.0,2998647.62
Americas,Central America,176609080.0,22076135.0
Americas,Northern America,369184722.0,184592361.0
Americas,South America,427063263.0,35588605.25
Antarctica,Antarctica,4490.0,4490.0


**Ejercicios**

1. Calcule el promedio del PIB (`GDP_MD`) por continente. Muestre los resultados por orden alfabético de continente.
2. Calcule la suma y el promedio del PIB (`GDP_MD`) por continente. Muestre los resultados por orden descendente de suma del PIB.
3. Calcule el promedio del PIB (`GDP_MD`) por grupo de ingresos (`INCOME_GRP`). Muestre los resultados en orden descendente de promedio del PIB.
4. Calcule el promedio del PIB (`GDP_MD`) para las subregiones de las regiones de la ONU del continente americano. Muestre los resultados en orden descendente de promedio del PIB.

### Unión (*join*)

La unión (en inglés, *join*) de datos ubicados en diferentes fuentes (ej. diferentes archivos) es una tarea común en análisis de información. Las uniones pueden ser de filas, columnas o de ambas. Usualmente, este tipo de operaciones se realiza con base en columnas que son comunes en los conjuntos de datos que se desea unir. A estas columnas se les llama "llaves" o "claves" (en inglés, *keys*).

Hay varios tipos de uniones de datos:

- ***Left join***: mantiene todas las filas del conjunto de datos del lado izquierdo y les agrega las columnas del conjunto de datos del lado derecho, en las filas en las que hay coincidencia en las llaves.
- ***Right join***: mantiene todas las filas del conjunto de datos del lado derecho y agrega las columnas del conjunto de datos del lado izquierdo, en las filas en las que hay coincidencia en las llaves.
- ***Inner join***: incluye las filas que coinciden en ambos conjuntos de datos.
- ***Full join***: incluye todas las filas de ambos conjuntos de datos.

Los diferentes tipos de unión se ilustran en la {numref}`figure-tipos-join` mediante diagramas de Venn.

```{figure} img/join.jpg
:name: figure-tipos-join

Tipos de uniones de datos. Imagen de [hostingplus](https://www.hostingplus.com.co/blog/tipos-de-join-en-sql-cuales-son-los-principales/).
```

La biblioteca pandas incluye varios métodos para unir series y dataframes:

- [`pandas.DataFrame.merge()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html)
- [`pandas.DataFrame.join()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html)
- [`pandas.concat()`](https://pandas.pydata.org/docs/reference/api/pandas.concat.html)

Para ejemplificar el concepto de unión de datos, al dataframe `paises` se le agregará una columna correspondiente a la [esperanza de vida al nacer](https://es.wikipedia.org/wiki/Esperanza_de_vida) en cada país. Esta columna proviene de los datos de [indicadores del Banco Mundial](https://datos.bancomundial.org/indicador).

In [294]:
# Carga de datos de esperanza de vida al nacer por país

esperanza_vida = pd.read_csv(
    "https://raw.githubusercontent.com/gf0657-programacionsig/2024-ii/refs/heads/main/datos/world-bank/paises-esperanza-vida.csv"
)

El archivo CSV del Banco Mundial tiene más de 60 columnas. Para simplificar el análisis, se conservan solamente las columnas `Country Code` (código cca3) y `2022` (esperanza de vida al nacer en 2022). La primera se utiliza como índice.

In [295]:
# Reducción de columnas de esperanza_vida
esperanza_vida = esperanza_vida[['Country Code', '2022']]

# Se usa la columna 'Country Code' como índice
esperanza_vida.set_index('Country Code', inplace=True)

# Muestra de los datos
esperanza_vida.sample(10)

Unnamed: 0_level_0,2022
Country Code,Unnamed: 1_level_1
IBT,70.51
NPL,70.48
MNA,72.3
LCA,71.29
ECA,74.11
PAK,66.43
ISL,82.17
IDA,64.05
OMN,73.94
ARB,71.23


Seguidamente, se utiliza el método `pandas.Dataframe.join()` para unir `paises` con `paises_esperanza_vida`. Se elige este método debido a que su sintaxis es muy sencilla cuando las llaves de ambos dataframes con los índices.

In [296]:
# Unión de los dataframes paises y esperanza_vida
paises = paises.join(esperanza_vida, how="left")

En este caso `paises` es el conjunto del "lado izquierdo" y `esperanza_vida` el del "lado derecho". El argumento `how="left"` indica que se está realizando un *left join*, por lo que se conservan todas las filas del conjunto de lado izquierdo. Si el código cca3 de algún país de `países` no está en `esperanza_vida`, la columna unida tendrá un valor nulo.

La nueva columna se renombra con el método [`pandas.DataFrame.rename()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html), para que sea similar a las otras.

In [297]:
# Cambio de nombre de la nueva columna

paises.rename(columns={'2022': 'LIFE_EXPECTANCY'}, inplace=True)

In [298]:
# Muestra aleatoria de 10 filas
paises.sample(5)

Unnamed: 0_level_0,NAME,CONTINENT,REGION_UN,SUBREGION,REGION_WB,ECONOMY,INCOME_GRP,POP_EST,GDP_MD,GDP_PC,LANGUAGES,LIFE_EXPECTANCY
ADM0_ISO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
IRL,Ireland,Europe,Europe,Northern Europe,Europe & Central Asia,2. Developed region: nonG7,1. High income: OECD,4941444.0,388698,78660.81,"English, Irish",83.06
MOZ,Mozambique,Africa,Africa,Eastern Africa,Sub-Saharan Africa,7. Least developed region,5. Low income,30366036.0,15291,503.56,Portuguese,59.62
CPV,Cabo Verde,Africa,Africa,Western Africa,Sub-Saharan Africa,6. Developing region,4. Lower middle income,549935.0,1981,3602.24,Portuguese,74.72
JAM,Jamaica,North America,Americas,Caribbean,Latin America & Caribbean,6. Developing region,3. Upper middle income,2948279.0,16458,5582.24,"English, Jamaican Patois",70.63
BHS,Bahamas,North America,Americas,Caribbean,Latin America & Caribbean,6. Developing region,2. High income: nonOECD,389482.0,13578,34861.69,English,74.36


In [299]:
# Países con esperanza de vida más alta
paises.sort_values(by='LIFE_EXPECTANCY', ascending=False).head(10)[['NAME', 'CONTINENT', 'LIFE_EXPECTANCY']]

Unnamed: 0_level_0,NAME,CONTINENT,LIFE_EXPECTANCY
ADM0_ISO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
LIE,Liechtenstein,Europe,84.32
JPN,Japan,Asia,84.0
CHE,Switzerland,Europe,83.45
AUS,Australia,Oceania,83.2
SWE,Sweden,Europe,83.11
ESP,Spain,Europe,83.08
IRL,Ireland,Europe,83.06
LUX,Luxembourg,Europe,83.05
ITA,Italy,Europe,82.9
SGP,Singapore,Asia,82.9


In [300]:
# Países con esperanza de vida más baja
paises.sort_values(by='LIFE_EXPECTANCY', ascending=True).head(10)[['NAME', 'CONTINENT', 'LIFE_EXPECTANCY']]

Unnamed: 0_level_0,NAME,CONTINENT,LIFE_EXPECTANCY
ADM0_ISO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
TCD,Chad,Africa,53.0
LSO,Lesotho,Africa,53.04
NGA,Nigeria,Africa,53.63
CAF,Central African Rep.,Africa,54.48
SSD,S. Sudan,Africa,55.57
SOM,Somaliland,Africa,56.11
SOM,Somalia,Africa,56.11
SWZ,eSwatini,Africa,56.36
NAM,Namibia,Africa,58.06
CIV,Côte d'Ivoire,Africa,58.92


**Ejercicios**

1. Mediante uniones de datos, agregue al dataframe `paises` columnas correspondientes a:
   
  - Tasa de alfabetización de adultos.
  - Tasa de mortalidad infantil.
  
  Busque los archivos de datos necesarios en [Banco Mundial - Datos de indicadores](https://datos.bancomundial.org/indicador). **Sugerencia**: con un editor de texto (ej. VS Code) elimine las filas que no forman parte del formato CSV en la parte superior de los archivos.
  


### Exportación

pandas proporciona varios métodos para exportar dataframes a otros formatos. Por ejemplo, el método [`pandas.DataFrame.to_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html) exporta un dataframe a un archivo de valores separados por comas (CSV). Otros métodos similares pueden exportar a otros formatos.

In [301]:
# Exportación al formato CSV
paises.to_csv('paises-ampliado.csv')

# Exportación al formato JSON
paises.to_json('paises-ampliado.json', orient='records')

## Recursos de interés

*Banco Mundial - Datos de indicadores*. (s. f.). Recuperado 6 de octubre de 2024, de [https://datos.bancomundial.org/indicador](https://datos.bancomundial.org/indicador)

*Natural Earth - Free vector and raster map data*. (s. f.). Recuperado 6 de octubre de 2024, de [https://www.naturalearthdata.com/](https://www.naturalearthdata.com/)