Post on 23-Jan-2016
Repaso de Inferencia
Simulación
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Conceptos de Inferencia Estadística Población
Totalidad elementos que se desean estudiar. Parámetro
Valor o medida asociado a la Población. Muestra
Una parte de la población que se asume contempla todas sus características.
Estadístico Valor o medida asociado a una Muestra. Puede ser: Media, desviación, mediana, asimetría, curtosis,
etc. Son variables aleatorias.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Estadística Descriptiva Promedio
Valor medio de un conjunto de datos Varianza
Promedio de las distancias cuadradas entre cada valor y su media.
Permite comprender la variabilidad de los datos Desviación Estándar
Raíz cuadrada de la varianza. Está en las mismas unidades que el conjunto de datos.
Mediana Es el valor que está por encima del 50% de los datos. No se deja afectar por datos extremos.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Representaciones Gráficas Permiten resumir la información de grandes
cantidades de datos. Son fáciles de explicar y entender. Apoyan el proceso de control de información. Las nuevas tecnologías de información posibilitan la
interpretación en tiempo real de información.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Histograma
Representación de las frecuencias acumuladas de una variable.
Permite observar el comportamiento de la variable de interés.
Brinda información sobre sus estadísticos centrales y de forma.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Diagrama de Pareto Es un histograma
ordenado por las frecuencias.
Permite la selección de los elementos más relevantes.
Barras=Frecuencia relativa, Ojiva= Frecuencia Acumulada.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Diagrama de cajas y bigotes Concentración de
datos. Cantidad de datos
extremos. Valores centrales.
Bigote Inf: Q1-1.5*RIC . Bigote Sup: Q3+1.5*RIC. Extremos: Med ± 3*RIC
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Diagramas de tendencia Indican el comportamiento de una variable en el tiempo Permite identificar tendencias, estaciones, ciclos. Comúnmente aplicado a la predicción.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Características de los estimadores Variabilidad
Cada uno de los estimadores tienen asociada una variabilidad que se debe a las variables aleatorias que lo componen
Consistencia Los valores del estimador, a pesar de que sea insesgado
siempre van a cambiar cada vez que se analice una muestra diferente.
Intervalos de Estimadores Para muchas situaciones es preferible estimar un intervalo
dentro del cuál se esperaría encontrar el valor del parámetro.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Intervalo de confianza Definición
Un intervalo numérico que expresa los valores en los que el parámetro poblacional estará presente un determinado número de veces. Formalmente estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional.
Confianza Proporción del número de veces que el parámetro se
encontrará dentro del intervalo. Estimador
Para poder crear el parámetro relacionado a un intervalo de confianza se requiere un estimador adecuado.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Fórmulas I.C. general para un parámetro asociado a le media
poblacional.
I.C. de una población normal con varianza conocida.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Descripción del Intervalo
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Consideraciones El intervalo de confianza debe implementarse cuando
se desea hacer un análisis sobre el parámetro poblacional.
Un intervalo de confianza no responde exactamente preguntas: ¿En dónde va a caer la siguiente observación? ¿Dónde está la mayoría de la distribución?
Específicamente un intervalo de confianza presenta: Sólo indica que si el experimento o los datos se observan
muchas veces. (Obteniendo un I.C. en cada caso). Aproximadamente el 95% de tales intervalos contendrá el parámetro real.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Diferencias entre los valores medios de un intervalo de confianza Un intervalo de confianza es un procedimiento de estimación que tiene
una probabilidad del 95% de producir un intervalo donde se encuentre el parámetro poblacional.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Estimación del tamaño de muestra El término que acompaña al estimador de cada
intervalo representa el error límite al cual está asociado el nivel de confianza.
Es posible definir un tamaño de muestra que garantice con (con una probabilidad igual al nivel de confianza), no exceder un error determinado. Es necesario realizar la aproximación al entero mayor
siguiente para asegurar que se cumpla siempre con el nivel de confianza.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Ejemplo En determinado producto se obtiene a través de una muestra la
cantidad promedio de concentración de calcio. Por el constante control de calidad se sabe que la desviación estándar de la población es 0.3g Se toma una muestra de 36 productos, y se obtiene un promedio muestral del de 2.6g. Calcule un intervalo de confianza del 95% y 99% para la media de la población
¿Qué conclusiones se obtienen entre la relación del nivel de confianza y la amplitud del intervalo?
¿Qué valores tendría un intervalo de confianza de la media poblacional al 100%? ¿Qué interpreta usted sobre los resultados del intervalo? ¿Qué les dice este resultado sobre la probabilidad de obtener un producto mayor
a 2.8?
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Ejercicio ¿Qué tan grande se requiere una muestra para el
ejemplo anterior, si queremos tener un 95% de confianza de que nuestra estimación de la media poblacional difiera por menos de 0.05? ¿Y para que difiera menos de 0.01?
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Pruebas de Hipótesis Son un proceso de decisión que se basa en los datos, el cual ofrece una
conclusión acerca de algún sistema específico.
El objetivo de las pruebas de hipótesis consiste en intentar responder la
pregunta ¿Cuál se cree que es el valor del parámetro de una población?
Debido a que para conocer el valor del parámetro es necesario analizar
toda la población, las pruebas de hipótesis utilizan valores muestrales y
estimadores.
Parten de una hipótesis estadística, la cual es una aseveración o
conjetura respecto a una o más poblaciones.
La falsedad o verdad de una hipótesis estadística nunca se sabe con
absoluta certeza, a menos que se examine toda la población.
Inferencia Estadística- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Definición de Hipótesis Hipótesis Nula
Se refiere a la hipótesis que se desea probar y se denota como Ho. Este tipo de hipótesis se opone a Ha, y a menudo es el complemento lógico para ella. Frecuentemente, representa el status quo del experimento.
Hipótesis Alternativa El rechazo de Ho conduce al no rechazo de una hipótesis alternativa, determinada como Ha,
o H1.
Este tipo de hipótesis representa por lo general la pregunta que debe responderse, la teoría que desea probarse.
La conclusión obtenida a través de la aplicación de la prueba de hipótesis puede llegar a la siguientes dos conclusiones.
En cualquier caso, se debe evidenciar que las conclusiones no implican una aceptación formal y literal de Ho.
Rechazar Ho : A favor de Ha, debido a evidencia de los datos de la muestra.No rechazar Ho : Debido a insuficiente evidencia en los datos.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Suponga que un juez está decidiendo sobre algún caso que podría ocasionar que la persona acusada vaya a la cárcel.
En este caso se plantea las siguientes hipótesis: Ho = El acusado es Culpable Ha = El acusado es Inocente
Errores tipo 1 y 2
Culpable | Culpable Culpable | Inocente
Inocente | Culpable Inocente | Inocente
Correcto
CorrectoError tipo 1
Error tipo 2
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Conceptos P.H. Estadístico de Prueba
Valor obtenido a través de la muestra que se va a comprar con los valores asociados al error tipo 1 y a la curva de probabilidad asociada.
Nivel de confianza de la prueba Valor asociado al error tipo 1
P-value Mínimo valor de error tipo 1 para rechazar la hipótesis nula.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Descripción Gráfica
ZcZp
Pvalue
Prueba de Cola Derecha
No RechazoRechazo
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Fórmulas Cola Derecha
Cola Izquierda
Dos colas
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Ejemplo Una empresa de material eléctrico afirma que fabrica
bombillas de luz que tienen una duración promedio de 800 horas. Según los análisis de calidad de la empresa, se conoce que el tiempo de vida de cada bombilla se distribuye normal, y que además tiene desviación estándar de 40 horas. Para probar la afirmación de la empresa, se procede a obtener una muestra aleatoria de 50 unidades, de la cual se obtiene un promedio muestral de 790 horas. ¿Qué se puede decir acerca de la afirmación inicial de la empresa?
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Relación entre I.C. y P.H. Los intervalos de confianza pueden ser utilizados para
probar cierto tipo de hipótesis. Los I.C. bilaterales son equivalentes a las pruebas de
hipótesis de dos colas. Para estos casos, si el valor de la hipótesis se encuentra
por dentro de los límites del intervalo, entonces con seguridad dicha hipótesis nula no será rechazada.
Para estas herramientas estadísticas, un incremento en el tamaño de la muestra disminuye el error asociado al intervalo de confianza y los errores tipo 1 y 2 de la prueba de hipótesis.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Prueba de Hipótesis de dos poblaciones Permiten realizar pruebas acerca de las diferencias
entre los promedios o varianzas de dos poblaciones. Se deben tener en cuenta los diferentes casos
existentes Varianzas conocidas Varianzas desconocidas pero diferentes Varianzas desconocidas pero iguales
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Distribución de muestreo de la diferencia de medias de distribuciones independientes.
Varianzas Conocidas
Varianzas Desconocidas pero iguales
Varianzas desconocidas y diferentes
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Ejercicio Se desea saber si el promedio de la población 1 es
mayor al de la población 2, para ello se toman una muestra aleatoria de tamaño 30 en cada una de las poblaciones obteniendo 38 y 35 para los promedios muestrales. Si se puede asumir que ambas poblaciones tienen una varianza de 9, probar la hipótesis mencionada con un valor de confianza del 95%. Calcular el valor del error tipo 2 para un valor sensible de la diferencia entre la población 1 y 2 de 5.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Pruebas de Aleatoriedad (Rachas) Permiten identificar si una secuencia de datos se puede suponer aleatoria.
Una racha consiste en una secuencia de elementos de la misma característica. SSSCSC tiene 4 rachas CCCCSSS tiene 2 rachas CSCSCSCS tiene 6 rachas
Cuando se está hablando de variables escalares se puede elegir el criterio: Mayor o igual que la mediana o menor que la mediana.
Existen otras pruebas de aleatoriedad como las espectrales de Hadamard.
También es posible verificarlo a través de un diagrama de nube de puntos.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Pruebas de Aleatoriedad (Rachas)
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Distribuciones de Frecuencias Muchos de los supuestos de las pruebas paramétricas dependen de las
distribuciones de origen. En muchas ocasiones es deseable conocer la distribución de
probabilidad de origen de una variable aleatoria. Visto de una manera general, es deseable conocer a qué distribución de
probabilidad conocida se asemeja el histograma de frecuencias de una variable.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Prueba Chi cuadrado
Usualmente es aplicada para distribuciones discretas, aunque se puede implementar en distribuciones continuas si se agrupa los datos.
Para calcular el estadístico de prueba se tiene en cuenta las diferencias entre las frecuencias esperadas y las frecuencias observadas.
A pesar de que la prueba de hipótesis se define de manera bilateral, los cálculos se hacen de cola derecha, ya que se define un límite máximo de error de los datos.
Las distribuciones teóricas no necesariamente deben ser distribuciones de probabilidad conocidas, puede ser una distribución de frecuencias particular.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Fórmulas
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Pasos Variables Discretas1. Definir la distribución teórica a testear.2. Por cada parámetro que se estime de la distribución (a
través de M.V.) se debe eliminar un grado de libertad.3. Definir el valor del error tipo 14. Ordenar los datos observados en clases.5. Crear una tabla con los valores observados y
esperados para cada valor de la variable discreta.6. Calcular el estadístico de prueba.7. Calcular el valor crítico de la prueba según una prueba
de cola derecha.8. Concluir.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Ejemplo Discreta Si cree que el número de clientes que llegan a un banco
se distribuye de manera Poisson con tasa de 3 clientes por minuto. Tras tomar una muestra aleatoria de 120 datos se obtuvieron los siguientes resultados.
Se puede suponer que los datos siguen una distribución Poisson?. Utilizar alfa del 5%.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Pasos Variables Continuas1. Definir la distribución teórica a testear.2. Por cada parámetro que se estime de la distribución (a través de
M.V.) se debe eliminar un grado de libertad.3. Definir el valor del error tipo 14. Ordenar los datos observados en intervalos (criterio raíz).5. Crear una tabla con los valores observados contando cuántos
caen dentro del intervalo6. Calcular los valores esperados según la probabilidad de que se
obtenga un valor en ese intervalo multiplicado por n7. Calcular el estadístico de prueba.8. Calcular el valor crítico de la prueba según una prueba de cola
derecha.9. Concluir.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Ejemplo (c) Se desea saber si el peso del siguiente producto se
distribuye de manera normal con media y varianza de 100. Utilizar alfa del 5%.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Test de Kolmogorov - Smirnov Una prueba de bondad de ajuste que se basa en la máxima
diferencia entre la distribución teórica y las frecuencias acumuladas.
Es ideal para muestras pequeñas y funciones de probabilidad continuas.
No se deben agrupar los datos.
El resultado del estadístico de prueba se debe comparar con los valores críticos de las tablas de K-S, que dependen del número de datos y el valor del error tipo 1.
Si varios datos se repiten, sólo se debe obtener la diferencia del último de ellos, pues es éste el que indica la frecuencia acumulada.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Pasos Seleccionar la distribución de prueba. Ordenar los datos de menor a mayor. Calcular la frecuencia acumulada para cada dato:
(1/n), (2/n)…(n/n) Obtener la probabilidad teórica de obtener un valor
menor al de la posición. Obtener el valor absoluto de la diferencia Seleccionar el máximo valor Compararlo con los estadísticos críticos teóricos.
Inferencia Estadística- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Ejemplo Se desea conocer si los tiempos de llegada de los
clientes a cierto restaurante se distribuyen exponencial con promedio de 5 minutos. Utilizar alfa del 5%.
Inferencia Estadística- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá
Prueba de Anderson Darling Prueba de bondad de ajuste basada en el test de
kolmogorv smirnov.
Ha ganado popularidad las últimas décadas.
Dada una función de probabilidad de hipótesis, se asume que los datos pueden ser transformados a una distribución uniforme, posteriormente se prueba la uniformidad de los datos transformados.
Contempla los valores de la función de distribución y las frecuencias de datos ordenados.
Es una de las herramientas más poderosas para probar la normalidad de un conjunto de datos.
Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá