Blog
¿Qué es el Análisis Exploratorio de Datos o EDA?
- Publicado por: Rafael Fernandez
- Categoría: Blog

En Data Science, el Análisis Exploratorio de Datos o en inglés Exploratory Data Analysis (EDA) es un método de análisis de los conjuntos de datos para resumir sus principales características. El EDA se utiliza para ver lo que los datos pueden decirnos antes de la tarea de modelación. No es fácil mirar una columna de números o una hoja de cálculo y determinar las características importantes de los datos. Puede ser una labor tediosa, larga y no sencilla la de derivar conocimientos observando números sencillos. Por lo tanto se han ideado técnicas de análisis exploratorio de datos como ayuda en esta situación.
Definición de Análisis Exploratorio de Datos:
El EDA se refiere al proceso crítico de realizar investigaciones iniciales sobre los datos para descubrir patrones, detectar anomalías, probar hipótesis y verificar supuestos con ayuda de la estadística y representaciones gráficas.
Métodos para realizar análisis exploratorio de datos
1. Datos univariantes (Univariate data)
precios_casas = ["400000", "360000","860000","520000","440000","490000"]
Suponga que se registran los precios de 6 casas en venta de un barrio, solo hay una variable que es el precio y no se trata de ninguna causa o relación. La descripción de los patrones encontrados en este tipo de datos se puede hacer sacando conclusiones usando medidas de tendencia central (media, mediana y moda), dispersión o diseminación de datos (rango, mínimo, máximo, cuartiles, varianza y desviación estándar) y usando tablas de distribución de frecuencia, histogramas, gráficos circulares, polígonos de frecuencia y gráficos de barras.
2. Datos bivariados (Bivariate data)
precios_casas = ["400000", "360000","860000","520000","440000","490000" "60", "45", "85", "65", "63", "66"] tamaño_casas = ["60", "45", "85", "65", "63", "66"]
Suponga que el precio y el tamaño son las dos variables de un dato bivariado. Aquí, la relación es visible desde la tabla de que el tamaño y el precio son proporcionales entre sí y, por lo tanto, están relacionadas porque, a medida que aumenta el tamaño normalmente también aumenta el precio. Por lo tanto, el análisis de datos bivariados implica comparaciones, relaciones, causas y explicaciones. Estas variables a menudo se trazan en los ejes X e Y en el gráfico para una mejor comprensión de los datos y una de estas variables es independiente mientras que la otra es dependiente.
3. Datos multivariados (Multivariate data)
Es similar al bivariado pero contiene más de una variable dependiente. Las formas de realizar el análisis de estos datos dependen de los objetivos a alcanzar. Algunas de las técnicas son análisis de regresión, análisis factorial o análisis de varianza multivariante (MANOVA).