Que es la estadística descriptiva?

La Estadística Descriptiva es la rama de la estadística que se encarga de resumir, organizar y describir conjuntos de datos de forma clara y concisa.

No busca inferir o generalizar conclusiones sobre una población más grande (eso es tarea de la estadística inferencial), sino simplemente presentar las características principales de los datos que ya tenemos. Es el primer paso en cualquier análisis de datos, ayudándonos a comprender su naturaleza antes de profundizar.

¿Por qué es importante la Estadística Descriptiva?

  • Simplifica datos complejos: Transforma grandes volúmenes de datos en información comprensible.
  • Identifica patrones: Permite detectar tendencias, agrupaciones o valores atípicos.
  • Comunica hallazgos: Facilita la presentación de los resultados a una audiencia no técnica.
  • Prepara para el análisis inferencial: Sirve como base para métodos estadísticos más avanzados.

Métricas clave en estadística descriptiva

Las métricas de la estadística descriptiva se dividen principalmente en tres categorías:

  1. Medidas de Tendencia Central: Indican el centro o la posición típica de los datos.
  2. Medidas de Dispersión (o Variabilidad): Describen cuánto se extienden o varían los datos.
  3. Medidas de Forma: Indican la forma de la distribución de los datos (simetría, apuntamiento).

1. Medidas de tendencia central

Estas métricas nos dan una idea del «valor promedio» o «típico» de un conjunto de datos.

a. Media (Promedio)

La media aritmética es la suma de todos los valores de un conjunto de datos dividida por el número total de valores. Es la medida de tendencia central más utilizada y fácil de calcular.

\[\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}\]

Donde:

  • xˉ es la media
  • ∑xi​ es la suma de todos los valores
  • n es el número total de valores

Ejemplo: Supongamos que las calificaciones de un estudiante en 5 exámenes son: 75, 80, 90, 65, 85.

\[ \text{Media} = \frac{75+80+90+65+85}{5} = \frac{395}{5} = \text{79}\]

Cuándo usarla?: Es ideal para datos que se distribuyen de forma simétrica y no tienen valores extremos (outliers).

Limitaciones: Es muy sensible a los valores atípicos. Un solo valor extremadamente alto o bajo puede distorsionar significativamente la media.

b. Mediana

La mediana es el valor central en un conjunto de datos ordenado de menor a mayor. Si el número de datos es impar, la mediana es el valor en la posición central. Si el número de datos es par, la mediana es el promedio de los dos valores centrales.

Ejemplo 1 (Número impar de datos): Calificaciones: 75, 80, 90, 65, 85

  1. Ordenamos los datos: 65, 75, 80, 85, 90
  2. La mediana es el valor central: 80

Ejemplo 2 (Número par de datos): Salarios anuales (en miles de USD) de 6 empleados: 30, 35, 40, 50, 90, 200

  1. Ordenamos los datos: 30, 35, 40, 50, 90, 200
  2. Los dos valores centrales son 40 y 50.
\[\text{Mediana} = \frac{40+50}{2} = 45\]

Cuándo usarla: Es la mejor medida de tendencia central cuando los datos tienen valores atípicos o están sesgados, ya que no se ve afectada por ellos.

c. Moda

La moda es el valor que aparece con mayor frecuencia en un conjunto de datos. Un conjunto de datos puede tener una moda (unimodal), dos modas (bimodal), más de dos modas (multimodal) o ninguna moda si todos los valores aparecen con la misma frecuencia.

Ejemplo 1 (Unimodal): Colores de autos vendidos: Rojo, Azul, Blanco, Rojo, Negro, Rojo, Gris, Azul La moda es Rojo (aparece 3 veces).

Ejemplo 2 (Bimodal): Edades de un grupo de personas: 15, 18, 20, 22, 18, 25, 20, 30 Las modas son 18 y 20 (ambos aparecen 2 veces).

Cuándo usarla: Es la única medida de tendencia central que se puede usar para datos nominales (categóricos) y también es útil para datos numéricos.

2. Medidas de Dispersión (o Variabilidad)

Estas métricas nos dicen qué tan dispersos o concentrados están los datos alrededor de la medida de tendencia central.

a. Rango

El rango es la diferencia entre el valor máximo y el valor mínimo en un conjunto de datos. Es la medida de dispersión más sencilla.

Fórmula: Rango=Valor Maˊximo−Valor Mıˊnimo

Ejemplo: Calificaciones: 65, 75, 80, 85, 90 Rango=90−65=25

Cuándo usarlo: Es fácil de calcular y entender.

Limitaciones: Es muy sensible a los valores atípicos y solo considera los dos valores extremos, ignorando la distribución del resto de los datos.

b. Varianza

La varianza mide la dispersión promedio de los datos con respecto a la media. Se calcula como el promedio de los cuadrados de las diferencias de cada valor con la media. Elevar al cuadrado las diferencias asegura que los valores negativos y positivos no se cancelen y da mayor peso a las desviaciones más grandes.

Fórmula (Varianza muestral):

\[s^2 = \frac{\sum_{i=1}^{n} (x_i – \bar{x})^2}{n-1}\]

Donde:

  • s2 es la varianza muestral
  • xi​ es cada valor
  • xˉ es la media
  • n es el número de valores

Interpretación: Un valor de varianza más alto indica que los datos están más dispersos de la media. Sin embargo, debido a que está en unidades al cuadrado, no es intuitiva para interpretar directamente.

c. Desviación Estándar

La desviación estándar es la raíz cuadrada de la varianza. Es la medida de dispersión más utilizada porque está en las mismas unidades que los datos originales, lo que facilita su interpretación. Nos dice cuánto se desvían los valores promedio de la media.

Fórmula (Desviación estándar muestral):

\[ s = \sqrt{\frac{\sum_{i=1}^{n} (x_i – \bar{x})^2}{n-1}} \]

Interpretación: Cuanto menor sea la desviación estándar, más agrupados están los datos alrededor de la media.

Cuándo usarla: Es una excelente medida para entender la variabilidad y es fundamental en estadística inferencial.

d. Coeficiente de Variación (CV)

El coeficiente de variación es una medida de dispersión relativa que expresa la desviación estándar como un porcentaje de la media. Es útil para comparar la variabilidad de conjuntos de datos con diferentes unidades o medias muy distintas.

Fórmula:

\[CV = \frac{s}{\bar{x}} \times 100\%\]

Ejemplo: Tienes dos tiendas de comestibles y quieres comparar la variabilidad en sus ventas diarias:

  • Tienda A: Media de ventas = $1000, Desviación Estándar = $100
  • Tienda B: Media de ventas = $500, Desviación Estándar = $70

CV para Tienda A: CVA​= (100 / 1000) ​× 100% = 10%

CV para Tienda B: CVB​= (70 / 500 ) ​× 100% = 14%

Interpretación: Aunque la Tienda B tiene una desviación estándar más baja en términos absolutos ($70 vs $100), su coeficiente de variación es más alto (14% vs 10%), lo que indica que sus ventas son relativamente más variables en comparación con su propio promedio.

e. Cuartiles y Rango Intercuartílico (IQR)

Los cuartiles dividen un conjunto de datos ordenado en cuatro partes iguales.

  • Q1 (Primer Cuartil): El 25% de los datos están por debajo de este valor. Es la mediana de la mitad inferior de los datos.
  • Q2 (Segundo Cuartil): Es la mediana (50% de los datos están por debajo).
  • Q3 (Tercer Cuartil): El 75% de los datos están por debajo de este valor. Es la mediana de la mitad superior de los datos.

El Rango Intercuartílico (IQR) es la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1). Representa el 50% central de los datos y es una medida robusta de dispersión, menos afectada por valores atípicos que el rango.

Fórmula: IQR=Q3−Q1

Ejemplo: Edades de 10 personas: 12, 15, 18, 20, 22, 25, 28, 30, 35, 40

  1. Ordenamos los datos (ya están ordenados).
  2. Mediana (Q2): Como hay un número par (10), la mediana es el promedio de los valores en la posición 5 y 6:
    (22+25) /2 ​= 23.5
  3. Q1 (Mediana de la mitad inferior): 12, 15, 18, 20, 22. La mediana de esta mitad es 18.
  4. Q3 (Mediana de la mitad superior): 25, 28, 30, 35, 40. La mediana de esta mitad es 30.
  5. IQR: 30−18=12

Interpretación: El 50% central de las edades de este grupo de personas tiene un rango de 12 años (entre 18 y 30 años). Los cuartiles y el IQR son excelentes para identificar la dispersión en datos sesgados o con outliers.

3. Medidas de Forma

Estas métricas describen la forma de la distribución de los datos, es decir, cómo se agrupan o dispersan los valores.

a. Asimetría (Skewness)

La asimetría mide la simetría de la distribución de los datos.

  • Asimetría = 0: La distribución es perfectamente simétrica (como una campana de Gauss). Media, mediana y moda son aproximadamente iguales.
  • Asimetría > 0 (positiva/derecha): La cola de la distribución se extiende hacia la derecha. La media es mayor que la mediana y la moda (Media > Mediana > Moda). Esto indica que hay valores atípicos altos que «jalan» la media.
  • Asimetría < 0 (negativa/izquierda): La cola de la distribución se extiende hacia la izquierda. La media es menor que la mediana y la moda (Media < Mediana < Moda). Esto indica que hay valores atípicos bajos.

Ejemplo visual:

  • Simétrica: Notas de exámenes de una clase grande donde la mayoría está en el promedio.
  • Asimetría positiva: Ingresos de una población (pocos tienen ingresos muy altos).
  • Asimetría negativa: Edades al morir en un país con alta esperanza de vida (pocos mueren muy jóvenes).

Fórmula:

Coeficiente de Asimetría de Pearson = (Media−Moda​) / Desviacion Estandar

Cuándo usarla: Ayuda a entender si los datos están concentrados en un lado o si hay colas largas en una dirección, lo cual es crucial para la elección de modelos estadísticos.

b. Curtosis (Kurtosis)

La curtosis mide el «apuntamiento» o la «planitud» de una distribución de datos, en comparación con una distribución normal (mesocúrtica). También indica la presencia de valores atípicos (colas pesadas).

  • Curtosis = 0 (Mesocúrtica): La distribución tiene un apuntamiento similar al de una distribución normal.
  • Curtosis > 0 (Leptocúrtica): La distribución es más «apuntada» y tiene «colas más pesadas» (más valores atípicos) que una distribución normal.
  • Curtosis < 0 (Platicúrtica): La distribución es más «plana» y tiene «colas más ligeras» (menos valores atípicos) que una distribución normal.

Ejemplo visual:

  • Mesocúrtica: Distribución normal de alturas en una población.
  • Leptocúrtica: Datos financieros donde hay más valores extremos (ganancias/pérdidas muy grandes).
  • Platicúrtica: Un proceso de fabricación con variabilidad muy controlada, donde los valores se distribuyen de manera más uniforme en un rango.

Cuándo usarla: Es importante para entender la probabilidad de ocurrencia de eventos extremos en los datos.

———————————————

Visualización en Estadística Descriptiva

Además de las métricas numéricas, la estadística descriptiva se apoya fuertemente en la visualización de datos para comunicar los hallazgos. Algunas herramientas comunes son:

  • Histogramas: Muestran la distribución de una variable numérica.
  • Diagramas de Caja (Box Plots): Visualizan la mediana, los cuartiles y los valores atípicos.
  • Gráficos de Barras: Para variables categóricas.
  • Gráficos de Dispersión (Scatter Plots): Para mostrar la relación entre dos variables numéricas.

La estadística descriptiva es una herramienta poderosa y el punto de partida esencial para cualquier análisis de datos. Al dominar estas métricas y su interpretación, podrás comprender mejor tus datos y tomar decisiones más informadas.