Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

36
1 Estadística Inferencial Ing. Isabel Escudero Marzo 2016 CURSO-TALLER ESTADISTICA APLICADA CON R Y RSTUDIO PARA LA INVESTIGACION BIOMETRICA

Transcript of Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

Page 1: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

1

Estadística Inferencial Ing. Isabel Escudero

Marzo 2016

CURSO-TALLER ESTADISTICA APLICADA CON

R Y RSTUDIO PARA LA INVESTIGACION

BIOMETRICA

Page 2: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

2

¿Qué es estadística Inferencial?

Es aquella que apoyándose en el cálculo de

probabilidades y a partir de datos muestrales, efectúa

estimaciones, decisiones, predicciones u otras

generalizaciones sobre un conjunto mayor de datos.

Page 3: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

3

Objetivos del tema

Conocer:

Estimación puntual e Intervalos de confianza

Contraste de hipótesis

Algunas Aplicaciones

Page 4: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

4

Estimación puntual e Intervalos de confianza

Estimación

En inferencia estadística se llama estimación al conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra.

Por ejemplo: una estimación de la media de una determinada característica de una población de tamaño N podría ser la media de esa misma característica para una muestra de tamaño n.

Page 5: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

Estimación puntual e Intervalos de confianza

5

PARAMETRO

ESTIMADOR

PUNTUAL

INTERVALO

Page 6: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

Insesgado: Un estimador es insesgado cuando la media de su

distribución muestral asociada coincide con la media de la población. Esto

ocurre, por ejemplo, con el estimador 𝑋 , ya que 𝜇𝑋 = 𝜇

De varianza mínima: La variabilidad de un estimador viene determinada

por el cuadrado de su desviación estándar. En el caso del estimador 𝑋 , su

desviación estándar es 𝜎𝑋 =𝜎

𝑛, también llamada error estándar de 𝜇. En

el caso del error estándar de p, 𝜎𝑝 =𝑝(1−𝑝)

𝑛

Observer que cuanto mayor sea el tamaño de la muestra n, menor será la

variabilidad del estimador 𝑋 y de p, por tanto, mejor serán nuestras

estimaciones.

6

¿Qué propiedades debe cumplir todo buen

estimador?

Page 7: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

7

Estimación puntual e Intervalos de confianza

MEDIDAS MUESTRA

ESTADISTICO

POBLACION

PARAMETRO

Media 𝑋 µ

Varianza 𝑠2 𝜎2

Desviación

estándar

𝑠 𝜎

Proporción 𝑝 𝜋

Page 8: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

8

Estimación puntual e Intervalos de confianza

Estimación Puntual

Estadístico calculado a partir de la información obtenida de la muestra 𝑋 y se usa para estimar el parámetro poblacional.

Estimación en Intervalos de Confianza

Conjunto de valores obtenidos a partir de los datos muestrales, en el que hay una determinada probabilidad de que se encuentre el parámetro. A esta probabilidad se la conoce como el nivel de confianza.

Page 9: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

9

Estimación puntual e Intervalos de confianza

Ejemplo: Supóngase que una empresa de receptores de radio quiere estimar la edad promedio de las personas que compran un stereo.

¿Qué debería hacer?

1. Tomar una muestra aleatoria de 50 compradores recientes

2. Determinar la edad de cada uno de los compradores de la muestra

3. Calculan la edad promedio

La media de la muestra es una estimación puntual del la media poblacional

Page 10: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

10

Estimación puntual e Intervalos de confianza

Ejemplo: En una determinada región el ingreso anual medio de los trabajadores de la construcción es 65.000 dólares. El intervalo de esta estimación puede ser de 61.000 a 69.000 dólares.

0.475 0.475 0.025 0.025

-1.96 1.96

Page 11: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

11

Estimación puntual e Intervalos de confianza

68%

95%

99.%

En donde:

95% es el nivel de confianza y

𝛼 es el nivel de significancia (1 − 0.95)/2

Page 12: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

12

Intervalos de confianza

Para la media muestras grandes y pequeñas

Intervalos de confianza

Muestras grandes Muestras pequeñas Proporciones

𝑥 ± 𝑍𝛼2

𝜎

𝑛 𝑥 ± 𝑡𝛼

2

𝑠

𝑛

𝑥 ± 𝑍𝛼2

𝑝(1 − 𝑝)

𝑛

DONDE

𝑥 = media muestral

σ = desviación estándar poblacional

p = proporción del éxito

𝑍𝛼2 =Distribución Normal

n = tamaño de la muestra

𝛼 = nivel de significancia (1-

Page 13: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

13

Estimación puntual e Intervalos de confianza

Valores de z según el % del intervalo de confianza.

Por ejemplo:

Para un intervalo de confianza del 90% el valor de z es 1.64

Para un intervalo de confianza del 95% el valor de z es 1.96

Para un intervalo de confianza del 99% el valor de z es 2.58

Page 14: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

Ejemplos

1. En una muestra de tabletas de aspirinas el peso en gramos fue:1.19,

1.23, 1.18, 1.21, 1.27, 1.17, 1.15, 1.14, 1.19, 1.2. Suponiendo normalidad

para la distribución de los pesos, determinar un intervalo al 80% de

confianza para la media.

2. En un estudio de prevalencia de factores de riesgo en una cohorte de

412 mujeres mayores de 15 años en la Región Metropolitana, se

encontró que el 17.6% eran hipertensas. Determinar un intervalo de 95%

de confianza para la proporción de mujeres hipertensas en la Región

Metropolitana.

14

Page 15: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

Ejemplos

3. Los siguientes datos son los puntajes obtenidos para 45 perros de una

escala de precisión al capturar un objeto (mayor puntaje significa mayor

precisión). Halle un intervalo al 95% de confiabilidad para la media.

15

2 5 6 8 8 9 9 10 11

11 11 13 13 14 14 14 14 14

14 15 15 16 16 16 16 16 16

16 16 17 17 17 18 18 18 19

19 19 19 19 19 19 19 20 20

Page 16: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

Contraste de hipótesis

16

Page 17: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

17

Conocer el proceso para contrastar hipótesis y su relación con el método científico.

Diferenciar entre hipótesis nula y alternativa

Nivel de significación

Significación

Toma de decisiones, tipos de error y cuantificación del error.

Objetivos del tema

Page 18: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

¿Qué es una hipótesis?

Una afirmación o suposición sobre la población, principalmente

acerca del valor de un parámetro :

Valor de la Media de la Población μ

Valor de la Varianza de la Población σ2

Valor de la Proporción poblacional p en una Bernoulli

18

Page 19: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

Tema 7: Contrastes de hipótesis 19 Bioestadística. U. Málaga.

1) Población X: peso paquetes de cereal, en gramos.

El peso medio de los paquetes de cereal es de 500

gramos. (μ=500)

2) Población con distribución Bernoulli X: si un hogar

tiene o no problemas para llegar a fin de mes.

El porcentaje de hogares con problemas para llegar a fin

de mes es del 45% (p=0,45)

Ejemplos de hipótesis sobre parámetros:

Page 20: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

Es un procedimiento, basado en la evidencia que nos

proporciona la muestra y en una prueba o test estadístico,

usado para tomar una decisión acerca de la hipótesis. Se

trata de determinar la validez o no validez de esa hipótesis.

Si esa hipótesis se puede aceptar (no rechazar) o rechazar

como válida.

Esta hipótesis se llama hipótesis nula H0 y se contrasta frente

a una hipótesis alternativa H1.

Tema 7: Contrastes de hipótesis 20 Bioestadística. U. Málaga.

¿Qué es un contraste de hipótesis?

Page 21: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

21

Hipótesis nula Ho

Es la que contrastamos, es la más simple de las dos hipótesis.

Siempre hay una igualdad:

= , ,

Los datos pueden refutarla.

No debería ser rechazada sin una gran evidencia en contra. Supondremos que es cierta a no ser que se pruebe lo contrario.

Hipótesis Alternativa H1

Es lo opuesto de la H0

No hay igualdad: suele haber , > , <

Los datos pueden mostrar evidencia a favor.

No debería ser aceptada sin una gran evidencia a favor.

Page 22: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

22

Tipos de error al contrastar hipótesis

Decisión

Realidad

No Rechazar H0

(Aceptar H0)

Rechazar H0

(Aceptar H1)

H0 cierta

Correcto Error de tipo I

Probabilidad

= P(Error tipo I)

= P(Rechazar H0/ H0 cierta)

H0 falsa

Error de tipo II

Probabilidad β

= P(Error tipo II)

= P(Aceptar H0/ H0

falsa)

Correcto

Probabilidad 1- β →potencia

del contraste

= P(Rechazar H0/ H0

falsa)

Page 23: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

Analogía con un juicio: Se juzga a un individuo por la presunta comisión de un delito

H0: Hipótesis nula

Acusado inocente

H1: Hipótesis alternativa

Acusado culpable

Los datos pueden refutarla La que se acepta si las pruebas no indican lo contrario Rechazarla por error tiene graves consecuencias

Riesgos al tomar decisiones

No debería ser aceptada sin una gran evidencia a favor. Rechazarla por error tiene consecuencias consideradas menos graves que la anterior

Page 24: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

Tipos de hipótesis Bilaterales: H1: μ500 ó H1: p0,45

Unilaterales: H1: μ>500 ó H1: μ<500 H1: p>0,45 ó H1: p<0,45

:H

:H

1

00,45p

0,45p

, , , ,

:H

:H

1

0500

500

Peso medio paquetes de cereales

Porcentaje de hogares que no llegan a fin de mes

, , , ,

Bilateral

Bilateral Unilateral

, , > ,< ,

, , > ,< ,

Unilateral

Page 25: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

25

Paso 1: Establecer la hipótesis nula y la alternativa Ho y H1

Paso 2: Fijar el nivel de significancia α

Paso 3: Identificar el estadístico de prueba y su distribución de probabilidad

(Normal, t Student, Chi Cuadrado, F Snedecor)

Paso 4: Establecer una regla de decisión (identificar las regiones de rechazo y de

aceptación de Ho)

Paso 5: Tomar una decisión respecto a la Ho

Aceptar (No rechazar) la hipótesis nula Rechazar la hipótesis nula y aceptar la

alternativa

Procedimiento

Page 26: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

26

¿Quién es H0?

Problema: ¿El colesterol medio para la dieta mediterránea es 6 mmol/l?

Solución:

Traducir a lenguaje estadístico:

Establecer su opuesto:

Seleccionar la hipótesis nula

6

6

6:0 H

Page 27: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

27

Región crítica y nivel de significación

Región crítica

Valores ‘improbables’ si...

Es conocida antes de realizar el experimento: resultados experimentales que refutarían H0

Nivel de significación:

Número pequeño: 1% , 5%

Fijado de antemano por el investigador

Es la probabilidad de rechazar H0 cuando es cierta

No rechazo H0

Reg. Crit. Reg. Crit.

=5%

H0: =70

Page 28: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

28

Contrastes: unilateral y bilateral La posición de la región crítica depende de la hipótesis alternativa

Unilateral Unilateral

Bilateral

H1: <70 H1: >70

H1: 70

Page 29: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

¿Que es el valor de p?

29

Es la probabilidad que tendría una región crítica que comenzase exactamente en el valor del estadístico obtenido de la muestra. Es la probabilidad de tener una muestra que discrepe aún más que la nuestra de H0. Es la probabilidad de que por puro azar obtengamos una muestra “más extraña” que la obtenida. p es conocido después de realizar el experimento aleatorio

Page 30: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

30

Significación: p

H0: =70

Page 31: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

31

Significación: p

72X

No se rechaza H0: =70

H0: =70

Page 32: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

32

Significación: p

72X

No se rechaza H0: =70

El contraste es no significativo cuando p>

P

P

Page 33: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

33

Significación : p

85X

Se rechaza H0: =70 Se acepta H1: >70

Page 34: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

34

Significación : p

P

P

85X

Se rechaza H0: =40 Se acepta H1: >40

El contraste es estadísticamente significativo cuando p< Es decir, si el resultado experimental discrepa más de “lo tolerado” a priori.

Page 35: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

35

Resumen: , p y criterio de rechazo

Sobre

Es número pequeño, preelegido al diseñar el experimento

Conocido sabemos todo sobre la región crítica

Sobre p

Es conocido tras realizar el experimento

Conocido p sabemos todo sobre el resultado del experimento

Sobre el criterio de rechazo

Contraste significativo = p menor que

Page 36: Taller Estadistica Aplicada con Estudios para la Investigación Biométrica

36

Conclusiones

Las hipótesis no se plantean después de observar los datos.

En ciencia, las hipótesis nula y alternativa no tienen el mismo papel:

H0 : Hipótesis científicamente más simple.

H1 : El peso de la prueba recae en ella.

α debe ser pequeño

Rechazar una hipótesis consiste en observar si p<α

Rechazar una hipótesis no prueba que sea falsa. Podemos cometer error de tipo I

No rechazar una hipótesis no prueba que sea cierta. Podemos cometer error de tipo II

Si decidimos rechazar una hipótesis debemos mostrar la probabilidad de equivocarnos.