Repaso de Inferencia Simulación Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería...

Repaso de Inferencia

Simulación

Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

Conceptos de Inferencia Estadística Población

Totalidad elementos que se desean estudiar. Parámetro

Valor o medida asociado a la Población. Muestra

Una parte de la población que se asume contempla todas sus características.

Estadístico Valor o medida asociado a una Muestra. Puede ser: Media, desviación, mediana, asimetría, curtosis,

etc. Son variables aleatorias.

Estadística Descriptiva Promedio

Valor medio de un conjunto de datos Varianza

Promedio de las distancias cuadradas entre cada valor y su media.

Permite comprender la variabilidad de los datos Desviación Estándar

Raíz cuadrada de la varianza. Está en las mismas unidades que el conjunto de datos.

Mediana Es el valor que está por encima del 50% de los datos. No se deja afectar por datos extremos.

Representaciones Gráficas Permiten resumir la información de grandes

cantidades de datos. Son fáciles de explicar y entender. Apoyan el proceso de control de información. Las nuevas tecnologías de información posibilitan la

interpretación en tiempo real de información.

Histograma

Representación de las frecuencias acumuladas de una variable.

Permite observar el comportamiento de la variable de interés.

Brinda información sobre sus estadísticos centrales y de forma.

Diagrama de Pareto Es un histograma

ordenado por las frecuencias.

Permite la selección de los elementos más relevantes.

Barras=Frecuencia relativa, Ojiva= Frecuencia Acumulada.

Diagrama de cajas y bigotes Concentración de

datos. Cantidad de datos

extremos. Valores centrales.

Bigote Inf: Q1-1.5*RIC . Bigote Sup: Q3+1.5*RIC. Extremos: Med ± 3*RIC

Diagramas de tendencia Indican el comportamiento de una variable en el tiempo Permite identificar tendencias, estaciones, ciclos. Comúnmente aplicado a la predicción.

Características de los estimadores Variabilidad

Cada uno de los estimadores tienen asociada una variabilidad que se debe a las variables aleatorias que lo componen

Consistencia Los valores del estimador, a pesar de que sea insesgado

siempre van a cambiar cada vez que se analice una muestra diferente.

Intervalos de Estimadores Para muchas situaciones es preferible estimar un intervalo

dentro del cuál se esperaría encontrar el valor del parámetro.

Intervalo de confianza Definición

Un intervalo numérico que expresa los valores en los que el parámetro poblacional estará presente un determinado número de veces. Formalmente estos números determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parámetro poblacional.

Confianza Proporción del número de veces que el parámetro se

encontrará dentro del intervalo. Estimador

Para poder crear el parámetro relacionado a un intervalo de confianza se requiere un estimador adecuado.

Fórmulas I.C. general para un parámetro asociado a le media

poblacional.

I.C. de una población normal con varianza conocida.

Descripción del Intervalo

Consideraciones El intervalo de confianza debe implementarse cuando

se desea hacer un análisis sobre el parámetro poblacional.

Un intervalo de confianza no responde exactamente preguntas: ¿En dónde va a caer la siguiente observación? ¿Dónde está la mayoría de la distribución?

Específicamente un intervalo de confianza presenta: Sólo indica que si el experimento o los datos se observan

muchas veces. (Obteniendo un I.C. en cada caso). Aproximadamente el 95% de tales intervalos contendrá el parámetro real.

Diferencias entre los valores medios de un intervalo de confianza Un intervalo de confianza es un procedimiento de estimación que tiene

una probabilidad del 95% de producir un intervalo donde se encuentre el parámetro poblacional.

Estimación del tamaño de muestra El término que acompaña al estimador de cada

intervalo representa el error límite al cual está asociado el nivel de confianza.

Es posible definir un tamaño de muestra que garantice con (con una probabilidad igual al nivel de confianza), no exceder un error determinado. Es necesario realizar la aproximación al entero mayor

siguiente para asegurar que se cumpla siempre con el nivel de confianza.

Ejemplo En determinado producto se obtiene a través de una muestra la

cantidad promedio de concentración de calcio. Por el constante control de calidad se sabe que la desviación estándar de la población es 0.3g Se toma una muestra de 36 productos, y se obtiene un promedio muestral del de 2.6g. Calcule un intervalo de confianza del 95% y 99% para la media de la población

¿Qué conclusiones se obtienen entre la relación del nivel de confianza y la amplitud del intervalo?

¿Qué valores tendría un intervalo de confianza de la media poblacional al 100%? ¿Qué interpreta usted sobre los resultados del intervalo? ¿Qué les dice este resultado sobre la probabilidad de obtener un producto mayor

a 2.8?

Ejercicio ¿Qué tan grande se requiere una muestra para el

ejemplo anterior, si queremos tener un 95% de confianza de que nuestra estimación de la media poblacional difiera por menos de 0.05? ¿Y para que difiera menos de 0.01?

Pruebas de Hipótesis Son un proceso de decisión que se basa en los datos, el cual ofrece una

conclusión acerca de algún sistema específico.

El objetivo de las pruebas de hipótesis consiste en intentar responder la

pregunta ¿Cuál se cree que es el valor del parámetro de una población?

Debido a que para conocer el valor del parámetro es necesario analizar

toda la población, las pruebas de hipótesis utilizan valores muestrales y

estimadores.

Parten de una hipótesis estadística, la cual es una aseveración o

conjetura respecto a una o más poblaciones.

La falsedad o verdad de una hipótesis estadística nunca se sabe con

absoluta certeza, a menos que se examine toda la población.

Inferencia Estadística- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana Sede Bogotá

Definición de Hipótesis Hipótesis Nula

Se refiere a la hipótesis que se desea probar y se denota como Ho. Este tipo de hipótesis se opone a Ha, y a menudo es el complemento lógico para ella. Frecuentemente, representa el status quo del experimento.

Hipótesis Alternativa El rechazo de Ho conduce al no rechazo de una hipótesis alternativa, determinada como Ha,

Este tipo de hipótesis representa por lo general la pregunta que debe responderse, la teoría que desea probarse.

La conclusión obtenida a través de la aplicación de la prueba de hipótesis puede llegar a la siguientes dos conclusiones.

En cualquier caso, se debe evidenciar que las conclusiones no implican una aceptación formal y literal de Ho.

Rechazar Ho : A favor de Ha, debido a evidencia de los datos de la muestra.No rechazar Ho : Debido a insuficiente evidencia en los datos.

Suponga que un juez está decidiendo sobre algún caso que podría ocasionar que la persona acusada vaya a la cárcel.

En este caso se plantea las siguientes hipótesis: Ho = El acusado es Culpable Ha = El acusado es Inocente

Errores tipo 1 y 2

Culpable | Culpable Culpable | Inocente

Inocente | Culpable Inocente | Inocente

Correcto

CorrectoError tipo 1

Error tipo 2

Conceptos P.H. Estadístico de Prueba

Valor obtenido a través de la muestra que se va a comprar con los valores asociados al error tipo 1 y a la curva de probabilidad asociada.

Nivel de confianza de la prueba Valor asociado al error tipo 1

P-value Mínimo valor de error tipo 1 para rechazar la hipótesis nula.

Descripción Gráfica

Pvalue

Prueba de Cola Derecha

No RechazoRechazo

Fórmulas Cola Derecha

Cola Izquierda

Dos colas

Ejemplo Una empresa de material eléctrico afirma que fabrica

bombillas de luz que tienen una duración promedio de 800 horas. Según los análisis de calidad de la empresa, se conoce que el tiempo de vida de cada bombilla se distribuye normal, y que además tiene desviación estándar de 40 horas. Para probar la afirmación de la empresa, se procede a obtener una muestra aleatoria de 50 unidades, de la cual se obtiene un promedio muestral de 790 horas. ¿Qué se puede decir acerca de la afirmación inicial de la empresa?

Relación entre I.C. y P.H. Los intervalos de confianza pueden ser utilizados para

probar cierto tipo de hipótesis. Los I.C. bilaterales son equivalentes a las pruebas de

hipótesis de dos colas. Para estos casos, si el valor de la hipótesis se encuentra

por dentro de los límites del intervalo, entonces con seguridad dicha hipótesis nula no será rechazada.

Para estas herramientas estadísticas, un incremento en el tamaño de la muestra disminuye el error asociado al intervalo de confianza y los errores tipo 1 y 2 de la prueba de hipótesis.

Prueba de Hipótesis de dos poblaciones Permiten realizar pruebas acerca de las diferencias

entre los promedios o varianzas de dos poblaciones. Se deben tener en cuenta los diferentes casos

existentes Varianzas conocidas Varianzas desconocidas pero diferentes Varianzas desconocidas pero iguales

Distribución de muestreo de la diferencia de medias de distribuciones independientes.

Varianzas Conocidas

Varianzas Desconocidas pero iguales

Varianzas desconocidas y diferentes

Ejercicio Se desea saber si el promedio de la población 1 es

mayor al de la población 2, para ello se toman una muestra aleatoria de tamaño 30 en cada una de las poblaciones obteniendo 38 y 35 para los promedios muestrales. Si se puede asumir que ambas poblaciones tienen una varianza de 9, probar la hipótesis mencionada con un valor de confianza del 95%. Calcular el valor del error tipo 2 para un valor sensible de la diferencia entre la población 1 y 2 de 5.

Pruebas de Aleatoriedad (Rachas) Permiten identificar si una secuencia de datos se puede suponer aleatoria.

Una racha consiste en una secuencia de elementos de la misma característica. SSSCSC tiene 4 rachas CCCCSSS tiene 2 rachas CSCSCSCS tiene 6 rachas

Cuando se está hablando de variables escalares se puede elegir el criterio: Mayor o igual que la mediana o menor que la mediana.

Existen otras pruebas de aleatoriedad como las espectrales de Hadamard.

También es posible verificarlo a través de un diagrama de nube de puntos.

Pruebas de Aleatoriedad (Rachas)

Distribuciones de Frecuencias Muchos de los supuestos de las pruebas paramétricas dependen de las

distribuciones de origen. En muchas ocasiones es deseable conocer la distribución de

probabilidad de origen de una variable aleatoria. Visto de una manera general, es deseable conocer a qué distribución de

probabilidad conocida se asemeja el histograma de frecuencias de una variable.

Prueba Chi cuadrado

Usualmente es aplicada para distribuciones discretas, aunque se puede implementar en distribuciones continuas si se agrupa los datos.

Para calcular el estadístico de prueba se tiene en cuenta las diferencias entre las frecuencias esperadas y las frecuencias observadas.

A pesar de que la prueba de hipótesis se define de manera bilateral, los cálculos se hacen de cola derecha, ya que se define un límite máximo de error de los datos.

Las distribuciones teóricas no necesariamente deben ser distribuciones de probabilidad conocidas, puede ser una distribución de frecuencias particular.

Fórmulas

Pasos Variables Discretas1. Definir la distribución teórica a testear.2. Por cada parámetro que se estime de la distribución (a

través de M.V.) se debe eliminar un grado de libertad.3. Definir el valor del error tipo 14. Ordenar los datos observados en clases.5. Crear una tabla con los valores observados y

esperados para cada valor de la variable discreta.6. Calcular el estadístico de prueba.7. Calcular el valor crítico de la prueba según una prueba

de cola derecha.8. Concluir.

Ejemplo Discreta Si cree que el número de clientes que llegan a un banco

se distribuye de manera Poisson con tasa de 3 clientes por minuto. Tras tomar una muestra aleatoria de 120 datos se obtuvieron los siguientes resultados.

Se puede suponer que los datos siguen una distribución Poisson?. Utilizar alfa del 5%.

Pasos Variables Continuas1. Definir la distribución teórica a testear.2. Por cada parámetro que se estime de la distribución (a través de

M.V.) se debe eliminar un grado de libertad.3. Definir el valor del error tipo 14. Ordenar los datos observados en intervalos (criterio raíz).5. Crear una tabla con los valores observados contando cuántos

caen dentro del intervalo6. Calcular los valores esperados según la probabilidad de que se

obtenga un valor en ese intervalo multiplicado por n7. Calcular el estadístico de prueba.8. Calcular el valor crítico de la prueba según una prueba de cola

derecha.9. Concluir.

Ejemplo (c) Se desea saber si el peso del siguiente producto se

distribuye de manera normal con media y varianza de 100. Utilizar alfa del 5%.

Test de Kolmogorov - Smirnov Una prueba de bondad de ajuste que se basa en la máxima

diferencia entre la distribución teórica y las frecuencias acumuladas.

Es ideal para muestras pequeñas y funciones de probabilidad continuas.

No se deben agrupar los datos.

El resultado del estadístico de prueba se debe comparar con los valores críticos de las tablas de K-S, que dependen del número de datos y el valor del error tipo 1.

Si varios datos se repiten, sólo se debe obtener la diferencia del último de ellos, pues es éste el que indica la frecuencia acumulada.

Pasos Seleccionar la distribución de prueba. Ordenar los datos de menor a mayor. Calcular la frecuencia acumulada para cada dato:

(1/n), (2/n)…(n/n) Obtener la probabilidad teórica de obtener un valor

menor al de la posición. Obtener el valor absoluto de la diferencia Seleccionar el máximo valor Compararlo con los estadísticos críticos teóricos.

Ejemplo Se desea conocer si los tiempos de llegada de los

clientes a cierto restaurante se distribuyen exponencial con promedio de 5 minutos. Utilizar alfa del 5%.

Prueba de Anderson Darling Prueba de bondad de ajuste basada en el test de

kolmogorv smirnov.

Ha ganado popularidad las últimas décadas.

Dada una función de probabilidad de hipótesis, se asume que los datos pueden ser transformados a una distribución uniforme, posteriormente se prueba la uniformidad de los datos transformados.

Contempla los valores de la función de distribución y las frecuencias de datos ordenados.

Es una de las herramientas más poderosas para probar la normalidad de un conjunto de datos.

Repaso de Inferencia Simulación Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería...

Documents

Transcript of Repaso de Inferencia Simulación Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería...

REGLAS INFERENCIA

INFERENCIA ESTADÍSTICA

Final Inferencia

INFERENCIA E.

Inferencia lbinomialypoisson

Inferencia estadística

Introducción a la Inferencia Estadística vía Simulación › ... · Introducción a la Inferencia Estadística vía Simulación 1. Estadísca 2019 - Prof. Tamara Burdisso 2 El

Inferencia LóGica

Fragmento la inferencia en la comprension lectora (inferencia lexica)

Inferencia porque.....

Inferencia Estimacion

Inferencia estadistica

Inferencia estadistica.Muestreo

Inferencia social

Inferencia Bayesiana · 1.1. Propiedades de la inferencia bayesiana La inferencia bayesiana es una estrategia de inferencia estadística que tiene su base en el teorema de Bayes.

INFERENCIA CIENTIFICA.docx

Inferencia estadistica.para.economia.y.administracion.de.empresas

05 INFERENCIA

inferencia arqueológica

Ecuaciones de Chapman Kolmogorov Simulación Simulación- Ing. Ricardo Fernando Otero - Pregrado Ingeniería Industrial – Pontificia Universidad Javeriana.