07 – Estimación puntual e introducción a la estadística...

Post on 15-Feb-2018

236 views 3 download

Transcript of 07 – Estimación puntual e introducción a la estadística...

1

07 – Estimación puntual e introducción a la estadística

inferencial

Diego Andrés Alvarez MarínProfesor Asistente

Universidad Nacional de ColombiaSede Manizales

2

Contenido

● ¿Qué es la estadística inferencial?

● Muestreo aleatorio

● Estimador puntual

● Estimación de parámetros de una FDP utilizando el método de la máxima verosimilitud

● Distribuciones de muestreo:

– Método bootstrap para la aproximación de la distribución de muestreo

– FDP chi-cuadrada

– FDP t-Student

– FDP F

Estadística

Es la rama matemática relacionada con la colección, el análisis, la interpretación (o explicación) y la representación de datos.

Teoría de probabilidades vs Estadística

● La teoría de probabilidades es la rama de la matemática relacionada con el análisis de fenómenos aleatorios; esta se desarrolló como un modelo abstracto y sus conclusiones y deducciones están basados en axiomas.

● La estadística se basa en la aplicación de la teoría de probabilidad a problemas reales y sus conclusiones son inferencias basadas en observaciones.

Ramas de la estadística

La estadística se divide en dos ramas:

● Estadística descriptiva● Estadística inferencial

6

Estadística descriptiva

La estadística descriptiva se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos en forma numérica y/o gráfica.

7

Estadística inferencialEsta comprende los métodos y procedimientos para deducir propiedades (hacer inferencias) de una población, a partir de una pequeña parte de la misma (muestra). Se usa para modelar patrones en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden dividirse en los siguientes temas:

●estimación de parámetros●prueba de hipótesis (respuestas a preguntas si/no)●pronósticos de futuras observaciones●descripciones de asociación (correlación)●modelamiento de relaciones entre variables (análisis de regresión)

8

Estadística descriptiva vs. Estadística inferencial

La diferencia entre la estadística descriptiva y la estadística inferencial es que la primera intenta resumir los datos de forma cuantitativa mientras que la segunda se usa para sustentar afirmaciones, tomar decisiones y obtener conclusiones sobre la población que está representada por los datos recopilados (muestra).

Definiciones

Se quiere estudiar una población. Sin embargo por razones prácticas se analiza una muestra de la población. Los datos se coleccionan mediante un muestreo o experimento. Las observaciones de la muestra aleatoria se usan para calcular ciertas características de la muestra llamadas estadísticas.

(ver las definiciones en la siguiente diapositiva)

Población

La población es el conjunto de elementos de referencia sobre el que se realizan todas las observaciones. La población es la colección de toda la información que caracteriza un fenómeno.

El tamaño de la población puede ser grande o pequeño, finito o infinito.

Como en general, toda la población no se puede observar, debe hacerse un análisis a partir de un subconjunto de las observaciones provenientes de la población que sean de ayuda para tomar decisiones sobre esta, la llamada muestra.

Muestra estadística (o aleatoria): es un subconjunto representativo de individuos de la población

Muestreo: es la técnica por la cual se selecciona una muestra aleatoria a partir de una población

Para que las inferencias sean válidas, la muestra debe ser representativa de la población (de este modo se debe tener cuidado de no introducir sesgos durante la fase de muestreo); por lo tanto es conveniente seleccionar una muestra aleatoria como el resultado de un mecanismo aleatorio.

Muestra estadística (o aleatoria)

Una estadística es el resultado de aplicar una función a una muestra aleatoria. Como es posible obtener muchas muestra aleatorias de una población, el valor de la estadística cambiará de muestra a muestra, esto es la estadística en sí es una variable aleatoria.

De notaremos en forma general una estadística (entendida como variable aleatoria) por el símbolo mientras que una realización de dicha variable aleatoria se denotará mediante .

Estadística

Tipos de muestreo

Distribución de muestreo

Puesto que una estadística es una variable aleatoria, esta tiene una FDP, la cual llamaremos la distribución de muestreo de la estadística.

16

Bootstrap: método para la estimación de las distribuciones de muestreo

Como veremos en las siguientes diapositivas, buena parte de la estadística inferencial convencional se apoya en la suposición que las variables estudiadas se distribuyen de acuerdo con una FDP normal. Bajo este supuesto, es posible determinar la distribución muestral de diferentes estadísticos que utilizamos en la estimación de parámetros poblacionales y en el contraste de hipótesis acerca de tales parámetros.

17

Bootstrap: método para la estimación de las distribuciones de muestreo

El método bootstrap, el cual tiene sus raíces en las técnicas de simulación de Monte Carlo, provee un enfoque probabilístico que evita hacer dicho tipo de suposición de normalidad y estima la distribución muestral a partir de la información suministrada por la muestra misma.

Este método de remuestreo no paramétrico fue propuesto por Bradley Efron en 1979.

18

19

20

Bootstrap: método para la estimación de las distribuciones de muestreo

La idea central de este método es simple; dada una muestra aleatoria con n observaciones dicha muestra es tratada como si fuera toda la población y de ésta extraeremos B muestras con reemplazo.

21

● La estimación de la FDP de muestreo de un estadístico será mucho mejor entre mayor sea la muestra. Incluso con muestras pequeñas entre 10 y 20 obsercaciones el método puede ofrecer resultados correctos, juzgándose inadecuados para muestras de tamaño inferior a 5.

22

● Estos métodos han llamado la atención de la comunidad estadística a partir del final de la década de los 1980's, debido a la introducción del computador personal, y hoy en día ha llegado a considerarse una herramienta general para el trabajo estadístico.

23

Bootstrap: método para la estimación de las distribuciones de muestreo

Para cada remuestreo se calculará el valor del estimador y luego con este se estimará la distribución de muestreo.

Tal y como los estudios teóricos han demostrado, este enfoque proporciona una buena aproximación de la distribución de los estimadores, lo cual permitirá describir algunas de sus propiedades muestrales, así como el cálculo de intervalos de confianza y la realización de contrastes de hipótesis.

24

Bootstrap con MATLAB

● bootci - Bootstrap confidence intervals.● bootstrp - Bootstrap statistics.● jackknife - Jackknife statistics.● randsample - Random sample, with or

without replacement●

● http://en.wikipedia.org/wiki/Bootstrapping_(statistics)

25

26

27

Selección de estimadores

Eventualmente podrían tenerse varias opciones para el estimador puntual de un parámetro. Por ejemplo, si se desea estimar la media de una población, pueden considerarse como estimadores puntuales la media muestral, la mediana muestral o quizás el promedio de las observaciones más grande y más pequeña. Para decidir cuál es el mejor estimador puntual para un parámetro en particular, es necesario examinar las propiedades estadísticas de estos y desarrollar algunos criterios para comparar estimadores.

28

Propiedades de los estimadores

29

Varianza y error cuadrático medio de un estimador puntual

30

Método de la máxima verosimilitud(maximum likelihood method)

31

Censoring

32

Distribuciones de muestreo

33

Distribución de muestreo de medias

34

FDP chi-cuadrado

35

FDP chi-cuadrado

36

FDP chi-cuadrado

37

Gosset era un empleado de la destilería Guinness. Guiness había prohibido que sus trabajadores publicaran sus conocimientos, ya que anteriormente otro investigador de Guinness había publicado un artículo que contenía secretos industriales de la destilería. Esto significaba que Gosset no podía publicar su trabajo usando su propio nombre. De ahí el uso de su pseudónimo Student en sus publicaciones, para evitar que su empleador lo detectara. Por tanto, su logro más famoso se conoce ahora como la FDP t de Student (que fue descubierta en 1908), de otra manera hubiera sido la FDP t de Gosset.

William Sealy Gosset (1876 – 1937), químico y matemático inglés

FDP t de Student

38

FDP t de Student

df = ∞ es la FDP normal estándar

39

Distribución F