---

MEDIDAS DE VARIABILIDAD O DISPERSIÓN

---

Los estadísticos de tendencia central o posición nos indican donde se sitúa un grupo de puntuaciones. Los de variabilidad o dispersión nos indican si esas puntuaciones o valores están próximas entre sí o si por el contrario están o muy dispersas.

Una medida razonable de la variabilidad podría ser la amplitud o rango, que se obtiene restando el valor más bajo de un conjunto de observaciones del valor más alto. Es fácil de calcular y sus unidades son las mismas que las de la variable, aunque posee varios inconvenientes:

*   No utiliza todas las observaciones (sólo dos de ellas);

*   Se puede ver muy afectada por alguna observación extrema;

*   El rango aumenta con el número de observaciones, o bien se queda igual. En cualquier caso nunca disminuye.

En el transcurso de esta sección, veremos medidas de dispersión mejores que la anterior. Estas se determinan en función de la distancia entre las observaciones y algún estadístico de tendencia central.

---

Desviación media, Dm

Se define la desviación media como la media de las diferencias en valor absoluto de los valores de la variable a la media, es decir, si tenemos un conjunto de n observaciones, x1, ..., xn, entonces

\begin{displaymath}{D_m}= \frac{1}{n} \sum_{i=1}^n \vert x_i-\overline{x}\vert
\end{displaymath}

Si los datos están agrupados en una tabla estadística es más sencillo usar la relación

\begin{displaymath}{D_m}= \frac{1}{n} \sum_{i=1}^k \vert x_i-\overline{x}\vert\, n_i
\end{displaymath}


Como se observa, la desviación media guarda las mismas dimensiones que las observaciones. La suma de valores absolutos es relativamente sencilla de calcular, pero esta simplicidad tiene un inconveniente, esto hace que sea muy engorroso trabajar con ella a la hora de hacer inferencia a la población.

---

Varianza y desviación típica

Como forma de medir la dispersión de los datos hemos descartado:

Si las desviaciones con respecto a la media las consideramos al cuadrado, , de nuevo obtenemos que todos los sumandos tienen el mismo signo (positivo). Esta es además la forma de medir la dispersión de los datos de forma que sus propiedades matemáticas son más fáciles de utilizar.

Vamos a definir entonces dos estadísticos que serán fundamentales en el resto del curso: La varianza y la desviación típica.

La varianza, ${{\cal S}^{2}}$, se define como la media de las diferencias cuadráticas de n puntuaciones con respecto a su media aritmética, es decir

\begin{displaymath}\mbox{\fbox{$
\displaystyle {{\cal S}^{2}}= \frac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2
$ } }
\end{displaymath}

Para datos agrupados en tablas, usando las notaciones establcidas en los capítulos anteriores, la varianza se puede escibir como

\begin{displaymath}\displaystyle {{\cal S}^{2}}= \frac{1}{n} \sum_{i=1}^k (x_i - \overline{x})^2 \, n_i
\end{displaymath}

Una fórmula equivalente para el cálculo de la varianza es

\begin{displaymath}\mbox{\fbox{$
\displaystyle {{\cal S}^{2}}=\frac{1}{n} \sum_{i=1}^n x_i^2 -
\overline{x}^2
$ } }
\end{displaymath} 

Si los datos están agrupados en tablas, es evidente que

 

\begin{displaymath}{{\cal S}^{2}}=
\frac{1}{n} \sum_{i=1}^k x_i^2 \, n_i -
\overline{x}^2
\end{displaymath}


La varianza no tiene la misma magnitud que las observaciones (ej. si las observaciones se miden en metros, la varianza lo hace en $\mbox{metros}^2$). Si queremos que la medida de dispersión sea de la misma dimensionalidad que las observaciones bastará con tomar su raíz cuadrada. Por ello se define la desviación típica, ${\cal S}$, como

 

\begin{displaymath}{\cal S}= \sqrt{{{\cal S}^{2}}}
\end{displaymath}


---

Ejemplo

Calcular la varianza y desviación típica de las siguientes cantidades medidas en metros:

 

3,3,4,4,5


Solución: Para calcular dichas medidas de dispersión es necesario calcular previamente el valor con respecto al cual vamos a medir las diferencias. Éste es la media:

 

\begin{displaymath}\overline{x}= (3+3+4+4+5)/5 = 3,8\mbox { metros}
\end{displaymath}


La varianza es:

 

\begin{displaymath}{{\cal S}^{2}}= \frac{1}{n} \sum_{i=1}^n x_i^2 - \overline{x}...
... + 3^2 + 4^2+ 4^2+ 5^2\right) - 3,8^2
= 0,56 \mbox{ metros}^2
\end{displaymath}


siendo la desviación típica su raíz cuadrada:

 

\begin{displaymath}{\cal S}=\sqrt{{{\cal S}^{2}}}= \sqrt{0,56} = 0,748 \mbox{ metros}
\end{displaymath}


---

Observación

Además de las propiedades que hemos demostrado sobre la varianza (y por tanto sobre la desviación típica), será conveniente tener siempre en mente otras que enunciamos a continuación:

 

\begin{displaymath}(\overline{x}-2\,{\cal S},\overline{x}+2\,{\cal S}) \stackrel{\rm def}{\sim} \overline{x}\pm 2\,{\cal S}
\end{displaymath}


se encuentra, al menos, el 75% de las observaciones (vease más adelante el teorema de Thebycheff, página [*]). Incluso si tenemos muchos datos y estos provienen de una distribución normal (se definirá este concepto más adelante), podremos llegar al 95 %.

---