SIMULACIÒN
Análisis de datos de Entrada
2 [ POLITÉCNICO GRANCOLOMBIANO]
• ANÁLISIS DE DATOS DE ENTRADA
1. Índice 1. Introducción 2. Identificación gráfica de distribuciones de probabilidad adecuadas
2.1. Histogramas 2.2. Q-‐Q Plot 2.3. P-‐P Plot
3. Pruebas de bondad de ajuste 3.1. Prueba Chi Cuadrado 3.2. Prueba Kolmogorov-‐Smirnov
Interpretación P-‐Value
2. Introducción El propósito del presente documento es presentar a los estudiantes las herramientas gráficas y analíticas para llevar a cabo un correcto análisis de los datos de entrada, donde se tenga muy presente que son estos los que alimentarán el modelo de simulación a construir y, que por lo tanto, tendrán una alta influencia en los resultados que se reporten después de haber corrido la simulación. Por otra parte, teniendo en cuenta que el objetivo general del módulo es que los estudiantes desarrollen las capacidades necesarias para llevar a cabo un estudio completo de simulación, en esta unidad se presentarán las herramientas fundamentales para realizar el análisis de entrada, así como herramientas computacionales que permite su realización casi de forma automática.
Finalmente, se presentará al estudiante una serie de ejercicios relacionados para reforzar los conocimientos adquiridos en el desarrollo del módulo.
3. Objetivo general Al finalizar el módulo, los estudiantes sabrán cuáles son las herramientas gráficas para llevar a cabo un análisis de datos de entrada, así como sabrán emplear, de forma adecuada, las pruebas analíticas para alimentar el modelo de simulación que se esté construyendo. Al finalizar la tercera semana de aprendizaje:
1. El estudiante entenderá la importancia de realizar un análisis de datos de entrada. 2. El estudiante conocerá las distintas metodologías para ejecutar un correcto análisis de
la información de entrada.
3 [ SIMULACIÓN ]
3. El estudiante podrá realizar un análisis de entrada donde emplee herramientas computacionales adecuadas.
4. Desarrollo temático
4.1 Recomendaciones académicas
Se recomienda al estudiante realizar la lectura de la cartilla, en la que se encuentra toda la información relevante que se evaluará en la semana. Adicional, se recomienda al estudiante revisar las teleconferencias, así como las video -‐diapositivas, pues estas son un medio para aclarar las dudas generadas con la lectura y dar soporte a los temas expuestos en la misma.
Finalmente, se recomienda al estudiante realizar los ejercicios planteados y sugeridos por el tutor, ya que estos, a pesar de no tener un valor porcentual en la nota, si harán que su formación sea completa y pueda ser reforzada de forma práctica. 4.2 Desarrollo de cada una de las unidades temáticas 1. Introducción
La recolección de datos y el procesamiento de la información son una de las tareas más grandes y difíciles en los problemas reales. Incluso, aún cuando hay información disponible, rara vez los datos vienen o están grabados en un formato que sea útil y aplicable directamente en un modelo de simulación. El término “GIGO” o “garbage-‐in-‐garbage-‐out” (si entra basura, sale basura) es un concepto básico en ciencias de la computación y se aplica, sin problema, en el área de simulación de sistemas discretos. Aún cuando la estructura del modelo sea válida y robusta, si los datos de entrada han sido recolectados de manera inapropiada, analizados de manera imprecisa o simplemente no son representativos, los datos de salida o resultados del modelo serán inservibles para tomar buenas decisiones, derivándose en pérdidas costosas para la organización. Para llevar a cabo un correcto análisis de datos de entrada y recolectar datos que no sean “basura”, se recomienda lo siguiente:
• Planeación: observación del sistema actual y situaciones atípicas, etc. • Análisis de los datos a medida que son recolectados. Revisar su pertinencia. • Verificar homogeneidad en los diferentes grupos de datos. • Revisar la relación entre variables. • Revisar autocorrelación. • Diferenciar claramente entre datos de entrada y de salida.
4 [ POLITÉCNICO GRANCOLOMBIANO]
2. Identificación gráfica de distribuciones de probabilidad adecuadas
En esta sección se describirán métodos para seleccionar familias de distribuciones de probabilidad cuando los datos están disponibles. Básicamente, la identificación gráfica, como su nombre lo indica, permite visualizar la forma de una distribución como punto de partida para realizar una primera aproximación de al tipo de distribución que siguen los datos recolectados para la construcción del modelo de simulación.
2.1. Histogramas
Una distribución de frecuencias o un histograma es útil para identificar la forma de una distribución. Un histograma se construye bajo la siguiente metodología:
1. Dividir el rango de datos en intervalos, generalmente de igual amplitud 2. Marcar el eje horizontal del gráfico para conformar los intervalos 3. Encontrar la frecuencia de ocurrencias dentro de cada intervalo 4. Marcar en el eje vertical del gráfico el total de ocurrencias de cada intervalo
El número de intervalos depende del número de observaciones y de la dispersión de los datos. Generalmente, en la práctica s establece que el número de intervalos es aproximadamente igual a la raíz cuadrada del tamaño de la muestra que se utiliza para el análisis. Si los intervalos son muy anchos, el histograma no mostrará claramente un comportamiento visible de la información. El histograma para datos continuos corresponde a la función de densidad de la distribución teórica de los dato, mientras que para datos discretos, la forma del histograma debería parecerse a la función de masa de la distribución teórica. Sin embargo, debe tenerse en cuenta que un histograma tan sólo da una idea de cómo se distribuyen los datos, más no es la única herramienta de identificación de los mismos.
5 [ SIMULACIÓN ]
2.2. Q-‐Q Plot (Diagramas Cuantil – Cuantil)
Al igual que los histogramas, los gráficos Cuantil – Cuantil o Q-‐Q plot dan una idea gráfica del posible comportamiento que pueden seguir los datos de entrada que se estén analizando. La diferencia principal de un histograma y un Q-‐Q plot es que los segundos no muestran propiamente el comportamiento de la distribución, si no que muestra la relación de los cuantiles de la distribución que se sospecha siguen los datos con la distribución real, y a partir de dicha relación es posible realizar conclusiones. Estrictamente hablando, un cuantil se define de la siguiente manera: Sea X es una variable aleatoria (VA) con función acumulada de probabilidad Fx(x), entonces el q-‐cuantil de X es aquel valor ! tal que ! ! = ! ! ≤ ! = !. Luego, ! = !!!(!). Ahora bien, al partir de este concepto, se presenta a continuación el algoritmo (metodología) a desarrollar para obtener los cuantiles y, por lo tanto, la gráfica que propone la herramienta debe realizarse:
1. Si se tiene una muestra de n datos de X, estos deben ordenarse de menor a mayor, y denotarlos como yj, donde j es el orden que tiene el dato dentro del conjunto, es decir, j = 1 para el menor dato y j = n para el mayor.
2. Asignar una probabilidad de ocurrencia a cada uno de los datos recolectados, dicha probabilidad es asignada de acuerdo a la expresión (j-‐0.5)/n
3. Basado en el hecho de que yj es una estimación del cuantil (j-‐0.5)/n de X calculado en el paso anterior, debe calcularse la función inversa de la distribución que se sospecha siguen los datos. En otras palabras:
6 [ POLITÉCNICO GRANCOLOMBIANO]
!! ≅ !!!! − 0.5!
4. Graficar yj v.s. !!!!!!.!!
Supóngase que se ha escogido una distribución con función F como una posible representación de la distribución de X. Si F es un miembro de una familia apropiada de distribuciones, entonces la gráfica de yj versus F-‐1 será aproximadamente una línea recta. Ejemplo Se tienen los siguientes diez datos y se sospecha que siguen una distribución normal con media = 100 y desviación estándar = 13
105 91 103 83 71 120 100 135 123 9
0 Con base en la metodología anterior, el primer paso consiste en ordenarlos de menor a mayor, así:
j Yj 1 71 2 83 3 90 4 91 5 100 6 103 7 105 8 120 9 123 10 135
El segundo paso es asignarle una probabilidad de acuerdo a la expresión (j-‐0.5)/n:
j Yj Probabilidad 1 71 0,05 2 83 0,15 3 90 0,25 4 91 0,35 5 100 0,45
7 [ SIMULACIÓN ]
6 103 0,55 7 105 0,65 8 120 0,75 9 123 0,85 10 135 0,95
El tercer paso es calcular la función inversa para cada una de las probabilidades asignadas en el paso anterior. Como en este caso se sospecha que los datos siguen una distribución normal con media = 100 y desviación estándar = 13, debe calcularse la inversa de una distribución normal.
j Yj Probabilid
ad Función inversa
1 71 0,05 78,616903 2 83 0,15 86,526366 3 90 0,25 91,231633 4 91 0,35 94,990834 5 100 0,45 98,366402 6 103 0,55 101,633598 7 105 0,65 105,009166 8 120 0,75 108,768367 9 123 0,85 113,473634 10 135 0,95 121,383097
Nota: si por ejemplo, se hubiese dicho que se sospechaba que los datos seguían una distribución exponencial, los pasos 1 y 2 se debían haber realizado de la misma forma, pero en el paso tres debería haberse calculado la inversa de una distribución exponencial y no de la normal, es decir, la función inversa se calcula con base en la distribución de probabilidad que se sospecha siguen los datos.
8 [ POLITÉCNICO GRANCOLOMBIANO]
La columna denominada Probabilidad, corresponde al cálculo del cuantil respectivo. Por ejemplo, para j = 1, al reemplazar en la expresión !!!/!
!, da como resultado 0,05, para n = 10.
La columna de Función Inversa, se puede calcular utilizando Excel, mediante la función DISTR.NORM.INV, con parámetros: media = 100; desviación estándar = 13; probabilidad = la recién calculada para cada uno de los datos. Cabe anotar que la decisión de aceptar o rechazar la hipótesis es subjetiva, por cuanto la apreciación de la gráfica y el ajuste de los puntos a una línea recta parten de simple observación.
2.3. P-‐P Plot (Diagramas probabilidad – probabilidad)
Al igual que con el diagrama Q-‐Q, el diagrama P-‐P permite evaluar un conjunto de datos mediante la comparación de una distribución teórica de probabilidad. Su principal diferencia con respecto al diagrama anteriormente descrito, radica en que los valores a contrastar corresponden al cuantil calculado versus la función de distribución acumulada. Si los datos corresponden a la distribución teórica que se está probando, la nube de puntos debe aproximarse a una línea recta. Ahora bien, a partir de lo anterior, se presenta, a continuación, el algoritmo (metodología) a desarrollar para obtener los percentiles y, por lo tanto, la gráfica que propone la herramienta debe realizarse:
1. Si se tiene una muestra de n datos de X, estos deben ordenarse de menor a mayor, y denotarlos como yj, donde j es el orden que tiene el dato dentro del conjunto, es decir, j = 1 para el menor dato y j = n para el mayor.
0
20
40
60
80
100
120
140
0 20 40 60 80 100 120 140 160
9 [ SIMULACIÓN ]
2. Asignar una probabilidad de ocurrencia a cada uno de los datos recolectados, dicha probabilidad es asignada de acuerdo a la expresión (j-‐0.5)/n
3. Calcular la probabilidad “real” de que se de cada uno de los valores de los datos que se recolectaron. En otras palabras:
!! !!
4. Graficar !!!.!! v.s. !! !!
Ejemplo Se tienen los siguientes diez datos, y se sospecha que siguen una distribución normal con media = 100 y desviación estándar = 13
105 91 103 83 71 120 100 135 123 9
0 Con base en la metodología anterior, el primer paso consiste en ordenarlos de menor a mayor, así:
j Yj 1 71 2 83 3 90 4 91 5 100 6 103 7 105 8 120 9 123 10 135
El segundo paso es asignarle una probabilidad de acuerdo a la expresión (j-‐0.5)/n:
j Yj Probabilidad 1 71 0,05 2 83 0,15 3 90 0,25 4 91 0,35 5 100 0,45 6 103 0,55
10 [ POLITÉCNICO GRANCOLOMBIANO]
7 105 0,65 8 120 0,75 9 123 0,85 10 135 0,95
El tercer paso es calcular la probabilidad real para cada uno de los valores de los datos ordenados en el paso 1. Como en este caso se sospecha que los datos siguen una distribución normal con media = 100 y desviación estándar = 13, debe calcularse la probabilidad de los yj con esta distribución.
j Yj Probabilida
d Acumulada 1 71 0,05 0,01284821
2 83 0,15 0,0954888
5 3 90 0,25 0,22087816
4 91 0,35 0,2443720
6 5 100 0,45 0,5 6 103 0,55 0,59125296 7 105 0,65 0,6497388 8 120 0,75 0,9380321 9 123 0,85 0,96157231
10 135 0,95 0,9964520
3 Nota: si por ejemplo se hubiese dicho que se sospechaba que los datos seguían una distribución exponencial, los pasos 1 y 2 se debían haber realizado de la misma forma, pero en el paso tres debería haberse calculado la probabilidad con una distribución exponencial y no de la normal, es decir, la probabilidad se calcula con base en la distribución de probabilidad que se sospecha siguen los datos.
11 [ SIMULACIÓN ]
3. Pruebas de bondad de ajuste
Las pruebas de bondad de ajuste son pruebas de hipótesis que permiten evaluar la idoneidad de un conjunto de datos, dada una distribución teórica de probabilidad donde se podrían ajustar. Como toda prueba de hipótesis, esta comienza con el enunciado de la hipótesis nula y alternativa. La hipótesis nula afirma que la variable aleatoria que describe el conjunto de datos, se distribuye según la función de probabilidad propuesta, mientras que la hipótesis alternativa contradice tal afirmación. Nota: Las pruebas de hipótesis corresponden a procesos de toma de decisión estadísticos. El modelador formula dos hipótesis complementarias, llamadas la hipótesis nula (denotada por H0) y la hipótesis alternativa (denotada por H1). Generalmente, una decisión se asocia a la hipótesis nula, la cual puede ser aceptada o rechazada. Consecuentemente, se pueden generar dos tipos de error:
- Error tipo I: Rechazar H0 erróneamente - Error tipo II: aceptar H0 erróneamente
El objetivo de las pruebas de hipótesis es rechazar (o aceptar H0) de tal manera que si H0 es en realidad verdadera, entonces la probabilidad de rechazarla erróneamente (error tipo I), no exceda un valor de probabilidad previamente definido, α, el cual es llamado nivel de confianza o nivel de significancia. Mientras más pequeño es α, más alta es la confianza en la decisión de rechazo correspondiente.
0
0,2
0,4
0,6
0,8
1
1,2
0 0,2 0,4 0,6 0,8 1
12 [ POLITÉCNICO GRANCOLOMBIANO]
3.1. Prueba Chi Cuadrado
Para realizar esta prueba se disponen los datos en una tabla de frecuencias. Para cada valor o intervalo de valores se indica la frecuencia absoluta observada (Oi). A continuación, y suponiendo que la hipótesis nula es cierta, se calculan para cada valor o intervalo de valores, la frecuencia esperada (Ei=n·∙pi, donde n es el tamaño de la muestra y pi la probabilidad del i-‐ésimo valor o intervalo de valores según la hipótesis nula). Para emplear esta metodología que es analíticamente más confiable que los histogramas o gráficos P-‐P y Q-‐Q, es necesario calcular un estadístico de prueba. Dicho estadístico se calcula con base en la frecuencia observada y frecuencia esperada, así:
! =!! − !! !
!!
!
!!!
Este estadístico tiene una distribución Chi-‐cuadrado con k-‐1 grados de libertad si n es suficientemente grande, es decir, si todas las frecuencias esperadas son mayores que 5. Si existe concordancia perfecta entre las frecuencias observadas y las esperadas, el estadístico tomará un valor igual a 0; por el contrario, si existe una gran discrepancia entre estas frecuencias, el estadístico tomará un valor grande y, en consecuencia, se rechazará la hipótesis nula. Así pues, la región crítica estará situada en el extremo superior de la distribución Chi-‐cuadrado con k-‐1 grados de libertad.
Ejemplo La distribución de los ingresos anuales en dólares de una muestra de 100 familias, que habitan en cierta población presentó los siguientes resultados:
Ingresos anuales en miles de dólares
Frecuencia Observada (Oi)
40 ≤ x ≤ 60 12 60 < x ≤ 80 8 80 <x ≤ 100 25 100 <x ≤ 120 30 120 <x ≤ 140 25
Puede admitirse que los ingresos de las familias que habitan en dicha población sigue una distribución uniforme en el intervalo [40.000 – 140.000] con un nivel de significancia del 5%. Dado que ya se tienen las frecuencias observadas, el siguiente paso es calcular la frecuencia esperada Ei, se debe que esta siempre será igual a pi·∙n, donde n es el número total de
13 [ SIMULACIÓN ]
observaciones y pi es la probabilidad de la clase estimada con base en la función de distribución de probabilidad que se sospecha tienen los datos. Dado que se sospecha que los datos siguen una distribución uniforme [40 – 140], el cálculo de la probabilidad pi debería realizarse con la función de densidad acumulada de una uniforme que como habíamos visto en la semana 2 del curso es igual a:
!! ! =! − !! − !
Para la primera clase pi, sería entonces: ! 40 < ! ≤ 60 = ! ! ≤ 60 − ! ! ≤ 40
! 40 < ! ≤ 60 =60− 40140− 40−
40− 40140− 40
! 40 < ! ≤ 60 = 0,2− 0 ! 40 < ! ≤ 60 = 0,2 Entonces Ei sería 0,2*100 =20 Nota: Dado que se sospechaba que los datos seguían una distribución uniforme, la probabilidad fue calculada con la función de densidad acumulada de la uniforme, si por el contrario se hubiese sospechado que los datos seguían una distribución exponencial, la probabilidad debería haber sido calculada con la función de densidad acumulada de la exponencial, si se hubiese sospechado que los datos seguían una distribución Poisson, entonces debía haberse calculado la probabilidad con la función de densidad de una Poisson, etc… Este procedimiento se repite para cada una de las clases, donde se obtiene los siguientes resultados:
Ingresos anuales en miles de dólares
Frecuencia Observada
(Oi)
Probabilidad
Frecuencia Esperada (Ei)
40 ≤ x ≤ 60 12 0,2 20 60 < x ≤ 80 8 0,2 20 80 <x ≤ 100 25 0,2 20 100 <x ≤ 120 30 0,2 20 120 <x ≤ 140 25 0,2 20
14 [ POLITÉCNICO GRANCOLOMBIANO]
Al tener los valores de la frecuencia observada y de la frecuencia esperada, es posible realizar el cálculo del estadístico recordando que este es igual a
! =!! − !! !
!!
!
!!!
Se obtienen, entonces, los siguientes resultados:
Ingresos anuales en miles de dólares
Frecuencia Observada
(Oi)
Probabilidad
Frecuencia Esperada (Ei)
(Oi-‐Ei)2/Ei
40 ≤ x ≤ 60 12 0,2 20 3.2 60 < x ≤ 80 8 0,2 20 7.2 80 <x ≤ 100 25 0,2 20 1.25 100 <x ≤ 120 30 0,2 20 5 120 <x ≤ 140 25 0,2 20 1.25
Y = 17.9 Una vez obtenido el estadístico, este deberá compararse con el valor Chi2 de la tabla Chi2. Para calcular este valor, recuerde que debe tenerse presente el nivel de significancia con que se realizó la prueba y los grados de libertad. Para este ejemplo en específico se sugirió que alfa fuera igual a 0.05 y los grados de libertad siempre serán iguales al número de clases menos 1, es decir, que para el ejercicio los grados de libertad serían df = 5-‐1 = 4 Al observar la tabla de la Chi2 , apreciamos que el resultado es:
Finalmente, para concluir, si se rechaza o no la hipótesis de que la distribución de los ingresos anuales de dichas familias siguen una distribución entre [40.000 – 140.000], se deben comparar los valores del estadístico calculado Y y los de la tabla Chi2, así:
15 [ SIMULACIÓN ]
- Si el estadístico Y es menor al valor en tabla de la Chi2, entonces no se rechaza la hipótesis nula de lo contrario se rechaza
Para este ejemplo en particular, dado que Y = 17.9 no es menor a 9.48, entonces se debe rechazar la hipótesis nula y, por lo tanto, se concluye que el ingreso anual de las familias no sigue una distribución uniforme ente [40.000 – 140.000].
3.2. Prueba Kolmogorov-‐Smirnov
En esta prueba se pretende medir la mayor desviación entre la función de distribución teórica y la empírica. Esta desviación se compara con el valor crítico respectivo, según la tabla asociada a este tipo de prueba. Una ventaja de esta prueba consiste en que funciona muy bien para cualquier tamaño de muestra, incluso para conjuntos de datos muy pequeños. El algoritmo para ejecutar esta prueba es como sigue: 1. Ordenar los datos de manera ascendente 2. Calcular F (X) para cada uno de los datos 3. Calcular las siguientes desviaciones
!! = !"#!! − ! !
!! = !"# ! ! −! − 1!
4. Estimar el estadístico de la prueba dado por ! = max !!,!! . 5. Determinar el valor crítico !! de la tabla, para un nivel de significancia α y un tamaño de muestra N. 6. Si el estadístico de la prueba es mayor que el valor crítico de la tabla, entonces se rechaza la hipótesis. Ejemplo
Se tomaron mediciones de tiempo de un proceso crítico en una línea de producción, donde se tiene la siguiente información (en segundos):
17,3 19,6 10,7 11,3 17,8 16,1 18,0 17,6 18,7 14,5
16 [ POLITÉCNICO GRANCOLOMBIANO]
Se quiere comprobar la hipótesis de que este tiempo sigue una distribución uniforme con parámetros (10, 20) segundos, con un nivel de confianza del 95%. De manera similar a la elaboración de los diagramas Q-‐Q y P-‐P, resulta bastante útil la elaboración de una tabla para completar la prueba.
D+ = 0,07 D-‐ = 0,33
Entonces, el estadístico de la prueba corresponde a 0,33. Se procede ahora a consultar la tabla de valores críticos de la prueba Kolmogorov-‐Smirnov, la cual se muestra a continuación:
Se puede observar que el valor crítico equivale a 0,40925, para un tamaño de muestra n = 10, y un nivel de significancia del 5%. Como este valor es mayor al estadístico de la prueba, no
17 [ SIMULACIÓN ]
existe suficiente evidencia estadística para rechazar la hipótesis de que los datos se distribuyen uniformemente.
4. Interpretación P-‐Value
Otra forma de determinar si se rechaza o no una hipótesis sin emplear directamente los estimadores, es a través del concepto de P-‐value (esta metodología es la que suelen emplear la gran mayoría de software estadísticos capaces de realizar análisis de entrada). El P-‐Value corresponde al área superior derecha a partir del estadístico de prueba, es decir, es la probabilidad acumulada que existe después del estadístico de prueba. Por ejemplo, para el caso de la prueba Chi2 realizada en el ejemplo, podemos ver que el p-‐value corresponde al área amarilla + área azul:
Con base en este análisis, las conclusiones se tomarían así:
Si el p-‐value es menor que el nivel de significancia, entonces se debe rechazar la hipótesis nula, de lo contrario no se rechaza.