-
Notifications
You must be signed in to change notification settings - Fork 2
/
Copy pathintro.qmd
164 lines (106 loc) · 8.43 KB
/
intro.qmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
---
title: "Introducción"
---
## ¿Qué es el análisis inicial de datos?
El análisis inicial de datos es la fase en la que se inspeccionan los datos **crudos** para entender su **estructura**, **calidad** y **contenido** antes de realizar un análisis más profundo.
Esta fase incluye la revisión de la forma general del conjunto de datos, la identificación de posibles problemas (valores faltantes, duplicados, valores atípicos, inconsistencias), y la preparación de los datos para su uso en el análisis exploratorio y modelado.
## Importancia de la fase preliminar en el ciclo de análisis de datos
La fase preliminar es crucial porque asegura que los datos estén en condiciones adecuadas para análisis avanzados. Realizar un análisis exploratorio o modelado sin una revisión cuidadosa puede llevar a interpretaciones incorrectas y resultados sesgados.
Algunos beneficios incluyen:
- Identificación temprana de problemas que pueden afectar los resultados.
- Reducción de errores en los modelos posteriores.
- Optimización del rendimiento del análisis exploratorio y modelado.
- Ahorro de tiempo y recursos.
## Diferencias entre el análisis inicial y el exploratorio
### Análisis Inicial:
- Se enfoca en la revisión básica de la calidad, estructura y contenido de los datos.
- Es un proceso más mecánico y tiene como objetivo asegurar que los datos estén listos para análisis más complejos.
Ejemplo de análisis inicial:
``` python
import pandas as pd
# Cargar un conjunto de datos
df = pd.read_csv('datos.csv')
# Ver las primeras filas del conjunto de datos
print(df.head())
# Ver un resumen estadístico del conjunto de datos
print(df.describe())
# Verificar valores faltantes
print(df.isnull().sum())
# Verificar duplicados
print(df.duplicated().sum())
# Identificar valores atípicos usando el método IQR (Interquartile Range)
Q1 = df['variable'].quantile(0.25)
Q3 = df['variable'].quantile(0.75)
IQR = Q3 - Q1
outliers = df[(df['variable'] < (Q1 - 1.5 * IQR)) | (df['variable'] > (Q3 + 1.5 * IQR))]
print(outliers)
```
### Análisis Exploratorio de Datos (AED):
- Se centra en la comprensión más profunda de los patrones, relaciones y tendencias en los datos.
- Involucra visualizaciones, estadísticas descriptivas avanzadas y modelos iniciales para descubrir información oculta en los datos.
Ejemplo de análisis exploratorio:
``` python
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# Cargar un conjunto de datos
df = pd.read_csv('datos.csv')
# Visualizar la distribución de una variable
sns.histplot(df['variable'], kde=True)
plt.title('Distribución de la variable')
plt.show()
# Visualizar la relación entre dos variables
sns.scatterplot(x='variable1', y='variable2', data=df)
plt.title('Relación entre variable1 y variable2')
plt.show()
# Visualizar la correlación entre variables
correlation_matrix = df.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.title('Matriz de correlación')
plt.show()
# Realizar un análisis de componentes principales (PCA)
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
principal_components = pca.fit_transform(df)
principal_df = pd.DataFrame(data=principal_components, columns=['PC1', 'PC2'])
# Visualizar los componentes principales
sns.scatterplot(x='PC1', y='PC2', data=principal_df)
plt.title('Componentes principales')
plt.show()
```
Claro, aquí tienes las secciones con ejemplos de situaciones cotidianas o aplicaciones:
## ¿Qué son los datos?
- Los *Datos* son colecciones de valores discretos o continuos que contienen información describiendo cantidad, calidad, u otras unidades de significado como impacto o importancia.
- En general, son secuencias de símbolos que pueden ser interpretados formalmente.
- **Ejemplo:** En una aplicación de salud, los datos pueden incluir la frecuencia cardíaca, la presión arterial y el nivel de actividad física de un usuario. Estos valores numéricos y categóricos ayudan a describir el estado de salud del usuario.
- La palabra «dato» se origina en «dar», y su primer uso fue el de «información de una computadora transmisible y almacenable».
- **Ejemplo:** Cuando usas una aplicación de mensajería, cada mensaje que envías o recibes es un dato que se almacena y transmite entre dispositivos.
## ¿Qué se quiere decir con «exploratorio»?
- Hace referencia a las técnicas de análisis de datos que nos sirven de guía para establecer un primer contacto con los datos.
- **Ejemplo:** En una tienda de ropa, el análisis exploratorio puede implicar revisar las ventas diarias para identificar patrones iniciales, como cuáles productos se venden más en ciertos días de la semana.
- El objetivo es contar con más y mejores elementos para planificar los análisis posteriores, lo cuál implica formular las primeras hipótesis como alinear las transformaciones que requieren las técnicas especializadas.
- **Ejemplo:** En una plataforma de streaming, el análisis exploratorio puede ayudar a identificar qué géneros de películas son más populares entre los usuarios, lo que puede guiar futuras decisiones de contenido.
## ¿Estadística descriptiva glorificada?
Aunque en el análisis exploratorio se utilizan conceptos de estadística descriptiva,
> Es fundamental el conocimiento del **dato como valor codificado en un sistema de cómputo** para entender muchos pasos y técnicas del análisis exploratorio.
- **Ejemplo:** En una aplicación de finanzas personales, los datos sobre ingresos y gastos se codifican y almacenan en el sistema. El análisis exploratorio puede incluir calcular promedios mensuales de gastos y visualizar estos datos en gráficos para ayudar al usuario a entender mejor sus hábitos financieros.
## Nomenclatura
- **Característica, campo, medición, columna y variable** se usan de manera similar.
- **Fila, registro, observación y muestra** también son casi sinónimos.
### Ejemplos:
1. **Datos de un formulario de inscripción**:
- En un formulario de inscripción para un evento, cada **campo** (como "Nombre", "Edad", "Correo electrónico") representa una **característica** o **variable** del participante. Cada **fila** del conjunto de datos corresponde a un **registro** o **observación** (un participante individual).
2. **Datos de un inventario de productos**:
- En un inventario, cada **columna** representa una **medición** o **atributo** del producto (como "Nombre del producto", "Cantidad", "Precio"). Cada **fila** corresponde a un **registro** o **observación** (un producto individual).
3. **Datos de un informe de ventas**:
- En un informe de ventas, cada **columna** representa una **característica** de la transacción (como "Fecha", "Producto", "Cantidad vendida", "Ingresos"). Cada **fila** corresponde a una **observación** o **registro** de una transacción individual.
4. **Datos de un estudio médico**:
- En un estudio médico, cada **columna** representa una **variable** o **medición** del paciente (como "Edad", "Peso", "Presión arterial"). Cada **fila** corresponde a una **observación** o **registro** de un paciente individual.
Los datos generalmente representan mediciones de atributos de un "objeto" común, normalmente organizados en filas (observaciones) y columnas (características). Vale tener cuidado con:
- **Conceptos generales e implementaciones específicas** ("data frame" vs "DataFrame"), un dataframe de pandas no es exactamente igual a uno de pyspark, o polars.
### Ejemplos:
1. **"Data frame" vs "DataFrame"**:
- En general, un *Data Frame* (no hay ninguna traducción al español de uso generalizado) es una estructura de datos tabular de **Datos Ordenados** que organiza los datos en filas y columnas, en donde cada columna corresponde a una variable en paticular, y cada fila se corresponde a una observación.
- En **Pandas**, un `DataFrame` es un objeto que representa un *Data Frame* al que se le agregan etiquetas a las filas y columnas, y las operaciones aritméticas se alinean de acuerdo a esas etiquetas. Está implementado como un conjunto de `Series` (esto es, vectores con un índice de etiquetas) del mismo tamaño.
2. **"Data set" vs "dataset" en HDF5**:
- Un **data set** es un término genérico que se refiere a un conjunto de datos. En cambio, en el formato **HDF5**, un "dataset" es un objeto específico que almacena datos en un archivo jerárquico, similar a un archivo de Excel pero optimizado para grandes volúmenes de datos.