Medidas de Variabilidad/Dispersión
Aquí aprenderás cómo encontrar las medidas de dispersión (el rango, la varianza y la desviación estándar) para determinar qué tan dispersa es la información.
Digamos que vas a un lote de autos usados en tu ciudad y anotas el precio de todos los autos. ¿Cómo podrías describir que tan dispersa es tu información? Una vez que completes esta sección, podrás medir la dispersión de una colección de información como ésta.
Mira esto
Haz clic en la imagen de arriba para ver más contenido (requiere conexión a internet)
CK-12 Foundation: Measures of Dispersion
*Este video solo está disponible en inglés
Orientación
Mira los gráficos siguientes. Cada uno representa un conjunto de datos y muestran cómo los valores individuales (línea continua) se comparan con la media del conjunto de información (línea discontinua). Puedes ver que, aunque los tres párrafos tienen una media común, la variabilidad de la información es distinta entre los gráficos. En estadística usamos la palabra dispersión como una medida de que tan dispersa es la información.
Rango
El rango es la medida de dispersión más simple. Es simplemente la dispersión total en la información, calculado al restar el número más grande del grupo con el más pequeño.
Ejemplo A
Encuentra el rango y la mediana de la siguiente información:
223, 121, 227, 433, 122, 193, 397, 276, 303, 199, 197, 265, 366, 401, 222
Solución
Lo primero que hay que hacer en este caso es ordenar la información y hacer una lista con todos los valores en orden de menor a mayor:
121, 122, 193, 197, 199, 222, 223, 227, 265, 276, 303, 366, 397, 401, 433
Nota: : Es muy importante asegurar que no dejes fuera ningún valor cuando reordenes la lista. Hay dos maneras para hacer esto: (i) tachar con una equis los números en la lista original una vez que los hayas escrito en la segunda lista y (ii) contar el número de valores en ambas listas cuando termines. En este ejemplo, ambas listas contienen 15 valores, para que así podamos estar seguros de que no dejamos ninguno fuera (¡siempre que no hayamos contado algún valor dos veces!)
El rango se encuentra al restar el mayor valor con el menor:
.
Y ahora que la lista está ordenada, podemos ver que la mediana es el octavo valor: 227 .
Varianza
El rango no es particularmente una buena medida de dispersión, ya que no elimina puntos que tienen valores inusualmente altos o bajos cuando se comparan con el resto de la información (los valores sobresalientes ). Un método mejor involucra medir la distancia en la que se ubica cada dato del promedio central.
Mira los siguientes valores:
11, 13, 14, 15, 19, 22, 24, 26
La media de estos valores es 18; por supuesto, los valores son distintos de 18 en distintas cantidades. A continuación una lista de las desviaciones de los valores respecto a la media:
-7, -5, -4, -3, 1, 4, 6, 8
Si tomamos la media de estas desviaciones, podemos ver que es igual a cero:
Esto no es ninguna sorpresa. Puedes ver que algunos valores son positivos y otros negativos, mientras la media se ubica en algún lugar cerca del medio del rango. Puedes usar álgebra para probar (¡inténtalo!) que la suma de las desviaciones siempre será cero, sin importar qué números hay en la lista. Por ende, la suma de las desviaciones no es una herramienta útil para medir la varianza.
Pero si elevamos al cuadrado las diferencias, todas las diferencias negativas pasan a ser positivas y así podemos notar qué tan amplia es la desviación promedio. Si hacemos esto con éste conjunto de datos, obtenemos la siguiente lista:
49, 25, 16, 9, 1, 16, 36, 64
La suma de esos valores cuadrados es 216, por ende el promedio es
.
A este promedio del cuadrado de las diferencias de la media (la desviación de la media al cuadrado) la llamamos la varianza . La varianza es una medida de dispersión y su valor es menor en un grupo de datos que se encuentran más cerca que el de datos muy dispersos. En el ejemplo anterior, la varianza es 27.
¿Qué significa decir que un grupo de datos más juntos tendrá una varianza baja? Probablemente ya puedes imaginar que el tamaño de la varianza depende también del tamaño de los datos en sí. Los matemáticos han intentado estandarizar la definición de varianza de distintas maneras; la desviación estándar es una de las más usadas.
Desviación estándar
Puedes ver en el ejemplo anterior que usar la varianza nos entrega una medida de la dispersión de los datos (deberías notar que datos muy juntos tendrían una menor desviación al cuadrado de la media y una varianza aún menor) pero no se puede notar a simple vista lo que el número 27 significa realmente. Sin embargo, ya que es
la media de los valores al cuadrado
de la desviación, parece lógico que calcular la raíz cuadrada sería una mejor manera para entender esto. El valor cuadrático d la media (es decir, la raíz cuadrada de la varianza) se conoce como la
desviación estándar
, y se representa con el símbolo
.
Ejemplo B
Encuentra la media, la varianza y la desviación estándar de los siguientes valores.
121, 122, 193, 197, 199, 222, 223, 227, 265, 276, 303, 366, 397, 401, 433
Solución
Necesitamos la media para encontrar la varianza y, a su vez, desde la varianza podemos determinar la desviación estándar. La suma de los quince valores es 3945, por ende su media es
.
La varianza y la desviación estándar son calculadas de mejor manera mediante una tabla. Usando este método, introducimos la desviación y el cuadrado de la desviación para cada dato por separado.
| Value | Deviation |
Deviation
|
|---|---|---|
| 121 | –142 | 20,164 |
| 122 | –141 | 19,881 |
| 193 | –70 | 4,900 |
| 197 | –66 | 4,356 |
| 199 | –64 | 4,096 |
| 222 | –41 | 1,681 |
| 223 | –40 | 1,600 |
| 227 | –36 | 1,296 |
| 265 | 2 | 4 |
| 276 | 13 | 169 |
| 303 | 40 | 1,600 |
| 366 | 103 | 10,609 |
| 397 | 134 | 17,956 |
| 401 | 138 | 19,044 |
| 433 | 170 | 28,900 |
| sum: | 0 | 136,256 |
La varianza es la media de los cuadrados de las desviaciones, por ende es
. La desviación estándar es la raíz cuadrada de la varianza, o aproximadamente 95.31.
Si miras la segunda columna de la tabla, puedes ver que la desviación estándar es una buena medida de la dispersión. Parece ser un estimado razonable de la distancia promedio en la que cada dato o punto se ubica de la media.
Calcular e Interpretar Medidas de Tendencia Central y Dispersión en Situaciones del Mundo Real
Ejemplo C
Abajo se encuentra una lista de los precios de casas en una ciudad de Arizona. Calcula la media y la mediana de los precios. Además, calcula la desviación estándar en los precios de venta.
| Dirección | Precio de venta |
|---|---|
| 518 CLEVELAND AVE | $117, 424 |
| 1808 MARKESE AVE | $128, 000 |
| 1770 WHITE AVE | $132, 485 |
| 1459 LINCOLN AVE | $77, 900 |
| 1462 ANNE AVE | $60, 000 |
| 2414 DIX HWY | $250, 000 |
| 1523 ANNE AVE | $110, 205 |
| 1763 MARKESE AVE | $70, 000 |
| 1460 CLEVELAND AVE | $111, 710 |
| 1478 MILL ST | $102, 646 |
Solución
La suma de los diez valores es $1.160.370, por ende su media es $116,037 .
La mediana está en la mitad entre el
y el
valor más alto. Esos dos valores medios (si reordenamos la lista por precio) son son $110.205 y $111.710, entonces la mediana es
$110,957.50
.
Ahora podemos reescribir la tabla con las desviaciones y sus cuadrados sumados:
| Valor ($) | Desviación |
Desviación
|
|---|---|---|
| 60,000 | -56037 | 3140145369 |
| 70,000 | -46037 | 2119405369 |
| 77,900 | -38137 | 1454430769 |
| 102,646 | -13391 | 179318881 |
| 110,205 | -5832 | 34012224 |
| 111,710 | -4327 | 18722929 |
| 117,424 | 1387 | 1923769 |
| 128,000 | 11963 | 14311369 |
| 132,485 | 16448 | 270536704 |
| 250,000 | 133963 | 17946085369 |
| SUMA: | 25178892752 |
La variación es
, y la raíz cuadrada de eso es aproximadamente 50179. Por lo tanto, la desviación estándar es
$50,179
.
En este caso, la media y la mediana se encuentran cerca, lo que indica que los precios de las casas en esta área están dispersos simétricamente de la media. Aunque hay una casa que es notoriamente más cara que las otras, también hay un número que es más barato para balancear la dispersión.
Mira este video si necesitas ayuda con los ejemplos anteriores.
Haz clic en la imagen de arriba para ver más contenido (requiere conexión a internet)
CK-12 Foundation: Measures of Dispersion
*Este video solo está disponible en inglés
Vocabulario
- En estadística, usamos la palabra dispersión como una medida de qué tan dispersa es la información o los datos.
- El rango es la medida de dispersión más simple. Es simplemente la dispersión total en la información, calculado al restar el número más grande del grupo con el más pequeño.
- Llamamos a este promedio del cuadrado de las diferencias de la media (la desviación de la media al cuadrado) la varianza .
-
La raíz cuadrada de la varianza se llama la
desviación estándar
, y se representa con el símbolo
.
Práctica guiada
James y John poseen cada uno un terreno donde plantan coles. James planta las coles a mano, mientras que John usa una máquina para controlar cuidadosamente la distancia entre las coles. Se miden los diámetros de cada col de los agricultores. Las de James tienen un diámetro promedio (media) de 7,10 pulgadas con una desviación estándar de 2,75 pulgadas; las de John tienen un diámetro medio de 6,85 pulgadas con una desviación estándar de 0,60 pulgadas.
John dice que su método de plantar con una máquina es mejor. James insiste que es mejor plantar a mano. Usa los datos para entregar una razón para justificar ambos lados de la discusión.
Solución
- Las coles de James tienen un diámetro medio más grande, por ende en promedio éstas son más grandes que las de John. La desviación estándar más grande también significa que habrá un número de coles que son significativamente más grandes que la mayoría de las de John.
- Las coles de John son más pequeñas en promedio, pero sólo un poco (un cuarto de pulgada). Mientras tanto, la desviación estándar más pequeña significa que los tamaños de sus coles son mucho más predecibles. La dispersión de tamaños es menor, por lo tanto éstos se encuentran más cerca a la media. Mientras John puede que no tenga muchas coles muy grandes, no tendrá ninguna que sea excesivamente pequeña tampoco, lo que puede ser mejor para cualquier tienda a la cual le venda sus coles.
Práctica
-
Dos compañías de buses entregan servicios entre Los Angeles y San Francisco. Inter-Cal Express demora un tiempo medio de 9,5 horas para hacer el viaje, con una desviación estándar de 0,25 horas. Fast-Dog Travel demora un promedio de 8,75 horas, con una desviación estándar de 2,5 horas. Si Samantha necesita viajar entre esas ciudades, qué compañía le conviene si:
- Necesita estar a tiempo para una reunión en San Francisco.
- Viaja semanalmente a visitar unos amigos que viven en San Francisco y quiere minimizar el tiempo que pasa en un bus durante todo el año.
Para los problemas del 2 al 6, supone que tienes una colección de datos para los cuales ya has encontrado la media, mediana, moda, el rango, la varianza y la desviación estándar. Luego, encuentras dos nuevos datos, uno es mayor que cualquiera de los valores en el conjunto original y el otro es menor que cualquiera de los valores originales.
- Basado solo en esta información, ¿puedes averiguar qué le pasará al valor de la media del conjunto de datos cuando se añadan estos nuevos datos? (En otras palabras, ¿puedes decir algo sobre si la media aumentará o no, si disminuirá o seguirá igual, o no tienes suficiente información para hacerlo? Si es así, ¿qué información adicional necesitarías?)
- ¿Puedes averiguar qué pasará con el valor de la mediana?
- ¿Puedes averiguar qué pasará con el valor de la moda? (Asume que el conjunto original tiene sólo una moda).
- ¿Puedes averiguar qué pasará con el rango?
- ¿Puedes averiguar qué pasará con la varianza y la desviación estándar?
Para los problemas del 7 al 11, supone que en vez de encontrar dos nuevos valores para tu información anterior, sólo has encontrado un nuevo valor, uno que es mayor que todos los valores en el conjunto original.
- Ahora, ¿puedes averiguar qué pasará con el valor de la media?
- ¿Puedes averiguar qué pasará con el valor de la mediana?
- ¿Puedes averiguar qué pasará con la moda?
- ¿Puedes averiguar qué pasará con el rango?
- ¿Puedes averiguar qué pasará con la varianza y la desviación estándar
Finalmente, para los problemas del 12 al 16, supone que, en vez de ser mayor que todos los valores en el conjunto original, tu nuevo valor se ubica en algún lugar en el medio del conjunto original. Específicamente, supone que es mayor que la media, menor que la mediana e igual a la moda.
- Ahora, ¿puedes averiguar qué pasará con la media?
- ¿Puedes averiguar qué pasará con la mediana?
- ¿Puedes ver qué pasará con la moda?
- ¿Puedes ver qué pasará con el rango?
- ¿Puedes ver qué pasará con la variación y la desviación estándar?