Probabilidad y Estadísticas
CK-12 and Intel Education

Diagramas de Caja

Aquí aprenderás otra forma para presentar gráficamente un conjunto de datos, conocida como diagrama de caja. Además aprenderás cómo interpretar tales presentaciones y cómo determinar el efecto que tienen los datos atípicos en un conjunto de información.

Digamos que tu profesora registra cada puntaje de sus alumnos en la última prueba de matemáticas. ¿Cómo podría ella presentar esa información de tal manera que quedara separada en cuatro segmentos distintos? Una vez que completes esta sección, podrás hacer e interpretar diagramas de caja para información como ésta.

Mira esto

Haz clic en la imagen de arriba para ver más contenido (requiere conexión a internet)

CK-12 Foundation: Box-and-Whisker Plots

*Este video solo está disponible en inglés

Orientación

Mira la siguiente lista de números: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10.

La mediana es el valor número \left (\frac{n+1}{2} \right) Hay 10 valores, por ende la mediana se encuentra en la mitad entre el 5^{th} y el 6^{th} valor. Por lo tanto la mediana es 5,5. Esto divide la lista en dos mitades justas.

La primera mitad de la lista es: 1, 2, 3, 4, 5

La segunda mitad es: 6, 7, 8, 9, 10

La mediana de la primera mitad es 3. La mediana de la segunda mitad es 8. Estos números, junto con la mediana, cortan la lista en cuatro cuartos. Llamamos a la división entre los primeros dos cuartos el primer cuartil . La división entre los dos cuartos de la segunda mitad es el tercer cuartil (el segundo cuartil es, por supuesto, la mediana).

Un diagrama de caja se forma al colocar líneas verticales en cinco posiciones, que corresponden al valor más pequeño, al primer cuartil, a la mediana, al tercer cuartil y al valor más grande (a estos cinco números se les suele llamar el resumen de cinco números .) Se dibuja una caja entre la posición del primero y el cuarto cuartil. Segmentos de línea horizontal (los bigotes ) conectan la caja con los dos valores en los extremos.

El diagrama de caja para números enteros del 1 al 10 se muestra a continuación.

Con un diagrama de caja, se puede obtener, a partir de la distancia entre el primer cuartil y el tercer cuartil, una medida simple de la dispersión. Este rango entre cuartiles es una medida de dispersión de la zona intermedia de la información.

Ejemplo A

Cuarenta estudiantes hicieron una prueba para optar a un curso de álgebra y los resultados están resumidos en el diagrama de caja más abajo. Cuántos estudiantes podrán entrar al curso si el mínimo de nota se estableció en

a) 65%

b) 60%

Solución

En el diagrama podemos ver la siguiente información:

Puntaje más bajo = 50%

Primer cuartil = 60%

Puntaje mediano = 65%

Tercer cuartil = 77%

Puntaje más alto = 97%

Ya que las notas de aceptación en la pregunta se encuentran entre la mediana y el primer cuartil, la pregunta es realmente cuántos alumnos hay en a) la primera mitad y b) en los primeros tres cuartiles.

a) Ya que hay 40 estudiantes, hay 20 en la primera mitad, lo que significa que , 20 estudiantes obtuvieron sobre el 65%.

b) De igual manera, hay 30 estudiantes en los primeros tres cuartiles, por ende 30 estudiantes obtuvieron sobre el 60%.

Ejemplo B

Harika lanza 3 dados y suma los resultados. Ella registra el puntaje total para cada uno de 50 lanzamientos. Los resultados que obtiene se encuentran a continuación. Presenta la información en un diagrama de caja y encuentra el rango y el rango entre cuartiles .

9, 10, 12, 13, 10, 14, 8, 10, 12, 6, 8, 11, 12, 12, 9, 11, 10, 15, 10, 8, 8, 12, 10, 14, 10, 9, 7, 5, 11, 15, 8, 9, 17, 12, 12, 13, 7, 14, 6, 17, 11, 15, 10, 13, 9, 7, 12, 13, 10, 12

Solución

Primero ordenamos la lista. Ya que hay 50 datos, \left ( \frac{n+1}{2} \right ) =26.5 , por ende la mediana será la media entre el 25^{th} y el 26^{th} valor. La mediana dividirá la información en dos listas de 25 valores; podemos escribirlas como dos listas distintas.

& 5, 6, 6, 7, 7, 7, 8, 8, 8, 8, 8, 9, \colorbox{yellow}{9}, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10, \colorbox{yellow}{10}, \colorbox{yellow}{11}, 11, \\\& 11, 11, 12, 12, 12, 12, 12, 12, 12, 12, 12, \colorbox{yellow}{13}, 13, 13, 13, 14, 14, 14, 15, 15, 15, 17, 17

Ya que cada sub-lista tiene 25 valores, el primer y el tercer cuartil de toda la información se puede encontrar con la mediana de cada sub-lista. Para 25 valores, \left ( \frac{n+1}{2} \right ) =13 , por lo tanto los cuartiles los encontramos con el 13^{th} valor de cada sub-lista.

En la lista ordenada podemos ver el resumen de cinco números:

  • El valor menos es 5
  • El primer cuartil es 9
  • La mediana es 10.5
  • El tercer cuartil es 13
  • El valor mayor es 17.

Por ende, el diagrama de caja se vería así:

El rango lo obtenemos al restar el valor mayor con el valor menor: 17 - 5 = 12 .

El rango entre cuartiles lo obtenemos al restar el tercer cuartil con el primer cuartil: 13 - 9 = 4 .

Representar valores atípicos en un diagrama de caja

Los diagramas de caja pueden ser confusos si no tomamos en cuenta los valores atípicos. Un valor atípico es un dato que no encaja bien con los otros datos de la lista. En un diagrama de caja, podemos definir los puntos que son sobresalientes al notar qué tan lejos están de la parte con forma de caja del diagrama. Definir cuales datos son atípicos es algo arbitrario, pero muchos libros siguen la siguiente norma. Nuestra medida básica de distancia será el rango intercuartil (RIC en español o IQR por sus siglas en inglés).

  • Un valor atípico leve es un punto fuera de la caja que es 1,5 veces mayor que el IQR.
  • Un valor atípico extremo es un punto fuera de la caja que es 3 veces que el IQR.

Cuando dibujamos un diagrama de caja, no incluimos los sobresalientes en la parte con forma de “bigotes” del diagrama; en vez de esto, los dibujamos como puntos separados

Ejemplo C

Dibuja un diagrama de caja con la siguiente lista ordenada de información:

1, 2, 5, \colorbox{yellow}{9}, 10, 10, \colorbox{yellow}{11, 12}, 13, 13, \colorbox{yellow}{14}, 19, 25, 30

Solución

En la lista ordenada podemos ver que:

  • El menor valor es 1.
  • El primer cuartil (Q_1) es 9.
  • La mediana es 11.5.
  • El tercer cuartil (Q_3) es 14.
  • El mayor valor es 30.

Antes de que empecemos a dibujar nuestro diagrama de caja, podemos determinar nuestro IQR:

IQR = Q_3 - Q_1 = 14 - 9 = 5

Los valores atípicos son puntos fuera de la caja que son 1,5 veces mayores que el IQR; en otras palabras, los valores que sean 1,5 veces menores que 9 o mayores que 14. Por ende, cualquier valor menor que 1,5 o mayor que 21,5 es un valor atípico.

Mirando otra vez la información podemos ver que:

  • El valor de 1 es menor que 1,5, por ende es un valor atípico leve .
  • El valor 2 es el menor valor que se aparece en el rango incluido .
  • El valor 30 es mayor que 21,5. De hecho, no se encuentra solamente a 1,5 unidades fuera de la caja; se encuentra fuera de la caja más del doble de esta cantidad. Ya que su valor es mayor que 3 veces el valor del IQR sobre el tercer cuartil, es un valor atípico extremo .
  • El valor 25 también es mayor que 21,5, por ende es un valor atípico leve .
  • El valor 19 es el mayor valor que aparece en el rango incluido .

Por lo tanto cuando dibujamos nuestro diagrama de caja, los bigotes se encontraran sólo desde el 2 hasta el 19. Los puntos fuera de ese rango son todos valores atípicos. Aquí está el diagrama:

Hacer un diagrama de caja usando una calculadora gráfica

Las calculadoras gráficas hacen que analizar grandes listas de información sea fácil. Han incorporado algoritmos para encontrar la mediana y los cuartiles y se pueden usar para presentar diagramas de caja.

Ejemplo D

Las edades de todos los pasajeros que viajan en un vagón de tren se muestran a continuación.

35, 42, 38, 57, 2, 24, 27, 36, 45, 60, 38, 40, 40, 44, 1, 44, 48, 84, 38, 20, 4, 2, 48, 58, 3, 20, 6, 40, 22, 26, 17, 18, 40, 51, 62, 31, 27, 48, 35, 27, 37, 58, 21

Usa una calculadora gráfica para:

a) obtener el resumen de 5 números de la información.

b) crear un diagrama de caja.

c) determinar si cualquiera de los puntos es un valor atípico.

Solución

Ingresa la información en tu calculadora:

Presiona [START] y luego escoge [EDIT] .

Ingresa los 43 puntos de datos en la lista L_1 .

Encuentra el resumen de 5 números:

Presiona [START] de nuevo. Usa la flecha derecha para escoger [CALU] .

Selecciona la opción 1-Var Stats. Presiona [EDIT] .

Aparece el resumen de estadísticas con variable única.

Fíjate que la media (  \bar x ) es el primer elemento dado.

Usa la flecha de abajo para traer la información para el resumen de cinco números. . n es el número de puntos de datos y los cinco números que aparecen finalmente en la pantalla son los números que necesitamos.

Símbolo Valor
Menor valor minX 1
Primer cuartil Q_2 21
Mediana Med 37
Tercer cuartil Q_3 45
Mayor valor maxX 84

Presenta el diagrama de caja:

Aparece la opción [STARTPLOT] al presionar [2nd]. [Y=] .

Selecciona 1:Plot1 y presiona [ENTER] .

Hay dos diagramas de caja disponibles. El primero identifica automáticamente los valores atípicos. Selecciónalo y presiona [ENTER] .

Presiona [WINDOW] y asegúrate que Xmin y Xmax Xmax permiten que se muestren todos los datos. En este ejemplo, Xmin = 0 y Xmax = 100 .

Presiona [GRAPH] y debería aparecer el diagrama de caja.

La calculadora automáticamente identificará los valores atípicos y los graficará como tales. Puedes usar la función [TRACE] junto con las flechas para identificar valores atípicos. En este caso hay un valor atípico: 84.

Mira este video si necesitas ayuda con los ejemplos anteriores.

Haz clic en la imagen de arriba para ver más contenido (requiere conexión a internet)

CK-12 Foundation: Box and Whisker Plots

*Este video solo está disponible en inglés

Vocabulario

  • A la división entre los dos primeros cuartos le llamamos primer cuartil . La división entre los dos cuartos de la segunda mitad es el tercer cuartil (el segundo cuartil es, por supuesto, la mediana).
  • Un diagrama de caja se forma al dibujar líneas verticales en cinco posiciones, las que corresponden al valor menor, el primera cuartil, la mediana, el tercer cuartil y el valor mayor (estos cinco números son conocidos a menudo como el el resumen de cinco números .) Una caja se dibuja entre la posición del primer y tercer cuartil y segmentos lineales horizontales (los bigotes ) conectan la caja con los dos valores extremos.

Práctica guiada

Los diagramas de caja a continuación representan las veces que una clase de un escuela intentó completar una cancha de obstáculos. Las veces han sido separadas entre niñas y niños. Los niños piensan que lo hicieron mejor que las niñas y viceversa. Determina el resumen de cinco números tanto para los niños como para las niñas y entrega un argumento convincente para cada uno de ellos.

Solución

Comparar dos conjuntos de datos con un diagrama de caja es relativamente directo. Por ejemplo, puedes ver que la información de los niños es más dispersa, tanto en relación al rango y al rango intercuartil.

El resumen de cinco números para cada uno se muestra en la tabla a continuación.

Niños Niñas
Menor valor 1:30 1:40
Primer cuartil 2:00 2:30
Mediana 2:30 2:55
Tercer cuartil 3:30 3:20
Mayor valor 5:10 4:10

Acá hay dos puntos que cada lado podría usar en sus argumentos:

Niños:

  • Los niños tuvieron el tiempo más rápido (1 minuto 30 segundos), por ende el individual más rápido fue un niño.
  • Los niños tuvieron además la mediana más pequeña (2 minutos 30 segundos), lo que significa que la mitad de los niños ya habían terminado cuando un cuarto de las niñas habían terminado (ya que el primer cuartil de las niñas también es 2:30). En otras palabras, el tiempo promedio de los niños fue más rápido.

Niñas:

  • Los niños tuvieron el tiempo más lento (5 minutos 10 segundos), entonces cuando todas las niñas ya habían terminado, aún quedaba por lo menos un niño completando la cancha de obstáculos.
  • Las niñas tuvieron el tercer cuartil más pequeño (3 minutos 20 segundos), lo que significa que incluso sin tomar en cuenta los cuartos más lentos de cada grupo, las niñas fueron más rápidas.

Práctica

  1. Dibuja un diagrama de caja con la siguiente información desordenada: 49, 57, 53, 54, 57, 49, 67, 51, 57, 56, 59, 57, 50, 49, 52, 53, 50, 58
  2. Una simulación de un gran número de lanzamientos de tres dados y de la suma de sus números resulta en el siguiente resumen de cinco números: 3, 8, 10.5, 13, 18 . Haz un diagrama de caja para la información y comenta las diferencias entre éste y el diagrama en el ejemplo B.
  3. El diagrama de caja abajo representa el porcentaje de personas que viven bajo la línea de pobreza en los estados de Texas y California. Determina el resumen de 5 números para cada estado y comenta sobre la dispersión de cada distribución.
  4. El resumen de 5 números de la temperatura diaria promedio en Atlantic City, NJ^1 (mostrada en Fahrenheit ^\circ F ) is: 31, 39, 52, 68, 76 . Dibuja el diagrama de caja para esta información y úsalo para determinar si alguno de los siguientes datos podría(n) ser considerado(s) como valor(es) atípico(s) si se incluyera(n) en la información:
    1. La temperatura más alta de enero fue 78^{\circ}
    2. La temperatura más baja de enero fue  -8^{\circ}
    3. La temperatura más alta de abril fue  94^{\circ}
    4. La temperatura más alta de todos los meses fue 106^{\circ}
  5. En 1887, Albert Michelson y Edward Morley realizaron un experimento para determinar la velocidad de la luz. La información para los primeros 10 intentos (5 resultados en cada intento) se entrega más abajo. Cada valor representa cuántos kilómetros por segundo sobre 299.000km/h se midieron. Crea un diagrama de caja con la información. Asegúrate de identificar valores atípicos y grafícalos como tales. 850, 740, 900, 1070, 930, 850, 950, 980, 980, 880, 960, 940, 960, 940, 880, 800, 850, 880, 900, 840, 880, 880, 800, 860, 720, 720, 620, 860, 970, 950, 890, 810, 810, 820, 800, 770, 760, 740, 750, 760, 890, 840, 780, 810, 760, 810, 790, 810, 820, 850
  6. ¿Es posible tener valores atípicos en ambos extremos de un conjunto de datos? Explica.
  7. ¿Es posible que más de la mitad de los valores de un conjunto de datos sean valores atípicos? Explica.
  8. ¿Es posible que más de un cuarto de los valores de un conjunto de información sean valores atípicos? Explica.
  9. ¿Es posible que cualquiera de los “bigotes” en un diagrama de distribución tenga longitud cero? Explica.
  10. ¿Es posible que cualquiera de los “bigotes” en un diagrama de caja sea más largo que la caja? Explica.
  11. ¿Es posible que cualquiera de los “bigotes” en un diagrama de caja sea dos veces más largo que la caja? Explica.

^1 Información recabada de datos publicados por Rutgers University Climate Lab ( http://climate.rutgers.edu )

Licencia

Licencia epub de ck12

Para acceder a una versión personalizada de este libro, así como otros contenidos interactivos, visite www.ck12.org

 

Fundación CK- 12  es una organización sin fines de lucro con la misión de reducir el costo de los materiales de libros de texto para el mercado K- 12, tanto en los EE.UU. así como en todo el mundo. Mediante el uso de contenido libre y un modelo colaborativo basado en la web denominado FlexBook®. CK-12 tiene la intención de ser pioneros en la generación y distribución de contenidos educativos de alta calidad que van a servir como texto base y además proporcionar un entorno para el aprendizaje adaptativo, impulsado a través  de FlexBook Platform®.

Copyright © 2012 CK-12 Foundation, www.ck12.org

Los nombres "CK-12" y "CK12", los logotipos asociados y los términos"FlexBook®" and "FlexBook Platform®" (en adelante "Marcas CK- 12") son marcas comerciales y marcas de servicio de la Fundación    CK- 12 y están protegidos por leyes federales, estatales e internacionales.

Cualquier forma de reproducción de este libro en cualquier formato o medio, en todo o secciones, debe incluir el enlace de atribución de referencia http://www.ck12.org/saythanks (colocado en un lugar visible), además de los siguientes términos.

Con excepción de lo señalado, todo el contenido CK- 12 (incluyendo material de Curriculum CK- 12) se ha puesto a disposición de los usuarios de acuerdo con la licencia Creative Commons Attribution-Non-Commercial 3.0 Unported (CC BY-NC 3.0) License (http://creativecommons.org/licenses/by-nc/3.0/), en su versión modificada y actualizada ("CC License"), que se incorpora al presente por medio de ésta referencia.

Las condiciones completas en su versión en Ingles se pueden encontrar en http://www.ck12.org/terms.

by-nc-na

×