muestreo 2 [Modo de compatibilidad] · 2012. 2. 2. · 17/11/2011 1 Muestreo Análisis de datos y...

26
17/11/2011 1 Muestreo Análisis de datos y gestión veterinaria Análisis de datos y gestión veterinaria Departamento de Producción Animal – Facultad de Veterinaria Universidad de Córdoba Córdoba, 16 de Noviembre de 2011 Población y muestra Población. Conjunto completo de individuos sobre el que estamos interesados en obtener conclusiones. Predecir los resultados electorales en España

Transcript of muestreo 2 [Modo de compatibilidad] · 2012. 2. 2. · 17/11/2011 1 Muestreo Análisis de datos y...

  • 17/11/2011

    1

    Muestreo

    Análisis de datos y gestión veterinariaAnálisis de datos y gestión veterinaria

    Departamento de Producción Animal – Facultad de Veterinaria

    Universidad de Córdoba

    Córdoba, 16 de Noviembre de 2011

    Población y muestra

    Población. Conjunto completo de individuos sobre el que estamos interesados en obtener conclusiones.

    Predecir los resultados

    electorales en España

  • 17/11/2011

    2

    Población y muestra

    Población. Conjunto completo de votantes.

    Predecir los resultados

    electorales en EspañaN = ??

    ?? = millones de votantes

    Población y muestra

    Muestra. Subconjunto de los valores poblacionales observados.

    N = ???? = millones de votantes

    n = 10.000votantes

    n = 10.000votantes

  • 17/11/2011

    3

    Población y muestra

    N = ???? = millones de votantes

    calculamos estadísticos, como la edad media de los votantes de la

    muestra

    n = 10.000votantes

    los estadísticos se utilizan como estimadores

    de los parámetros de

    la población, como la edad media de los votantes de la

    población

    Inferencias.Generalizaciones apartir de la muestra ala población.

    N = ???? = millones de votantes

    n = 10.000votantes

    Población y muestra

    ?¿?¿?¿ 35,5 años ??¿?¿?

    Los estadísticosson calculados y conocidos

    Los parámetros son los que realmente se

    quieren conocer

    ¿Se puede confiar en que losestadísticos sean similares alos parámetros?

    35,5 años

  • 17/11/2011

    4

    Población y muestra

    Los parámetros no son verificables (si lo fueran, notrabajaríamos con muestras).

    ¿Se puede confiar en que losestadísticos sean similares alos parámetros?

    Si, siempre que la muestrarepresente a la población

    Población y muestra

    Si, siempre que la muestrarepresente a la población

    N = 12 vacas

  • 17/11/2011

    5

    Población y muestra

    Si, siempre que la muestrarepresente a la población

    N = 12 vacas n = 6vacas

    La muestra representa a la población si lascaracterísticas de la población se repiten en la muestra.

    Población y muestra

    La muestra representa a la población si lascaracterísticas de la población se repiten en la muestra.

    N = ???? = millones de votantes

    n = 10.000votantes

    ¿Si no sabemos cómo es la población, ni siquiera su tamaño?

    La representatividad se basa en la forma enque la muestra es seleccionada (los mejoresmétodos son los que se basan en el uso planeadodel azar)

    La representatividad se basa en el tamaño dela muestra (en principio, mayores tamañosmejoran la representatividad)

  • 17/11/2011

    6

    Muestreo aleatorio simple

    5.000 papeletas marcadas con 1

    Población (N):

    5.000 papeletas marcadas con 0

    Muestreo aleatorio simple

    Se le da la urna y se le informa que contiene un número determinado de papeletas con ceros y unos. Se le pide que estime sus proporciones

    Agita la urna (garantizamos la aleatoriedad)

    Saca 1.000 papeletassin reposición (n)

  • 17/11/2011

    7

    Muestreo aleatorio simple

    Dado que todos los elementos de la urna tenían la misma probabilidad de ser seleccionados, el muestreo es aleatorio, por tanto:

    % unos en la muestra = % unos en la urna + error aleatorio

    Si el muestreo es aleatorio:

    Estimador = Parámetro + Error aleatorio

    Muestreo aleatorio simple

    521 unos en la muestra = 500 + 21

    Si el muestreo es aleatorio:

    Estimador = Parámetro + Error aleatorio

    491 unos en la muestra = 500 - 9

    507 unos en la muestra = 500 + 7

  • 17/11/2011

    8

    Distribución en el muestreo de la media muestral

    6 papeletas marcadas con:2, 4, 6, 6, 7 y 8

    Población (N):

    µ = 5,5

    Agitamos la urna…

    Sacamos 4 papeletas (n)

    2, 4, 6, 6

    media = 4,5

    Media = µ + error aleatorio4,5 = 5,5 -1

    Distribución en el muestreo de la media muestral

    Repetimos…

  • 17/11/2011

    9

    Agitamos la urna…

    Sacamos 4 papeletas (n)

    Distribución en el muestreo de la media muestral

    2, 4, 6, 8

    media = 5,0

    Media = µ + error aleatorio4,5 = 5,5 -1

    5,0 = 5,5 - 0,5Repetimos…

    Distribución en el muestreo de la media muestral

    Agitamos la urna…

    Sacamos 4 papeletas (n)

    2, 6, 7, 8

    media = 5,75

    Media = µ + error aleatorio4,5 = 5,5 -1

    5,0 = 5,5 - 0,55,75 = 5,5 + 0,25

  • 17/11/2011

    10

    Distribución en el muestreo de la media muestral

    …Si hay 6 papeletas….…y se extraen sin reposición

    4…¿cuántas muestras se

    pueden extraer?

    La variable “sacamos 4papeletas de la urna”es una variable aleatoriacomo las estudiadas entemas anteriores (cadaextracción es una variablealeatoria).

    La distribución de probabilidades de los posibles valores quepuede tomar el estadístico (en este caso, la media) a lo largo detodas las posibles muestras con el mismo número deobservaciones (se denomina distribución muestral) sirve paraestimar el error aleatorio a través del error estándar (yproporciona la base para la inferencia).

    Distribución en el muestreo de la media muestralMuestra Media muestral

    2, 4, 6, 6 4,502, 4, 6, 7 4,752, 4, 6, 8 5,002, 4, 6, 7 4,752, 4, 6, 8 5,002, 4, 7, 8 5,252, 6, 6, 7 5,252, 6, 6, 8 5,502, 6, 7, 8 5,752, 6, 7, 8 5,754, 6, 6, 7 5,754, 6, 6, 8 6,004, 6, 7, 8 6,254, 6, 7, 8 6,256, 6, 7, 8 6,75

    Todas las muestras tienen la misma

    probabilidad de ser seleccionadas (1/15)

  • 17/11/2011

    11

    Distribución en el muestreo de la media muestral

    Muestra Media muestral2, 4, 6, 6 4,502, 4, 6, 7 4,752, 4, 6, 8 5,002, 4, 6, 7 4,752, 4, 6, 8 5,002, 4, 7, 8 5,252, 6, 6, 7 5,252, 6, 6, 8 5,502, 6, 7, 8 5,752, 6, 7, 8 5,754, 6, 6, 7 5,754, 6, 6, 8 6,004, 6, 7, 8 6,254, 6, 7, 8 6,256, 6, 7, 8 6,75

    Todas las muestras tienen la misma

    probabilidad de ser seleccionadas (1/15)

    La distribución muestral de la media (función de probabilidad):

    Px(4,50) = 1/15 Px(6,25) = 2/15Px(4,75) = 2/15 Px(6,75) = 1/15Px(5,00) = 2/15Px(5,25) = 2/15Px(5,50) = 1/15Px(5,75) = 3/15Px(6,00) = 1/15

    Distribución en el muestreo de la media muestral

    Px(4,50) = 1/15 Px(6,25) = 2/15 Px(5,00) = 2/15Px(5,25) = 2/15 Px(4,75) = 2/15 Px(6,75) = 1/15Px(5,50) = 1/15 Px(5,75) = 3/15 Px(6,00) = 1/15

    Px(x)

    3/15

    2/15

    1/15

    0 4,5 5,5 6,5 7,5

    El valor esperado de la media muestral es:

    Por tanto, el valor esperado de la media muestral es lamedia poblacional

    1 2 1( ) ( ) (4,5) (4,75) ... (6,75) 5,5

    15 15 15E X xPx x

    = = + + + =

  • 17/11/2011

    12

    Distribución en el muestreo de la media muestral

    Sacamos 4 papeletas (n)

    X2 X3 X4X1Se trata de 4 variables aleatorias,cuya esperanza es:

    Por tanto, la suma de las 4 variables aleatorias será:

    siendo n=41

    n

    i x

    i

    E X nµ=

    =

    ( ) ( ) ( ) ( )1 2 3 4 xE X E X E X E X µ= = = =

    La media muestral esperada será:

    ( )1

    1 n xi x

    i

    nE X E X

    n n

    µµ

    =

    = = =

    Distribución en el muestreo de la media muestral

    Px(x)

    3/15

    2/15

    1/15

    0 4,5 5,5 6,5 7,5

    La distribución de la media muestral está centrada en la media poblacional.

    Por el teorema central del límite, sabemos además que sigue una distribución normal

  • 17/11/2011

    13

    Distribución en el muestreo de la media muestral

    Sacamos 4 papeletas (n)

    Media = µ + error aleatorio4,5 = 5,5 -1

    5,0 = 5,5 - 0,55,75 = 5,5 + 0,25

    ………

    Cuando el número de muestras se hace muy grande, el promedio de las medias muestrales tiende a la media

    poblacional (µ)

    Distribución en el muestreo de la media muestral

    Dado que todos los elementos de la urna tenían lamisma probabilidad de ser seleccionados, el muestreoes aleatorio, por tanto:

    % unos en la muestra = % unos en la urna + error aleatorio

    Si el muestreo es aleatorio:

    Estimador = Parámetro + Error aleatorio

  • 17/11/2011

    14

    Distribución en el muestreo de la media muestral

    521 unos en la muestra = 500 + 21

    Si el muestreo es aleatorio:

    Estimador = Parámetro + Error aleatorio

    491 unos en la muestra = 500 - 9

    507 unos en la muestra = 500 + 7

    Distribución en el muestreo de la media muestral

    521 unos en la muestra = 500 + 21

    El error aleatorio cambia con cada extracción

    491 unos en la muestra = 500 - 9

    507 unos en la muestra = 500 + 7

    No es posible conocer cuánto medirá en unaextracción particular

    Es posible calcular su tamaño probable (error estándar)

  • 17/11/2011

    15

    Distribución en el muestreo de la media muestral

    Px(x)

    3/15

    2/15

    1/15

    0 4,5 5,5 6,5 7,5

    Es posible calcular su tamaño probable (error estándar)

    Distribución en el muestreo de la media muestral

    6 papeletas marcadas con:2, 4, 6, 6, 7 y 8

    Población (N):

    µ = 5,5

    Sacamos 4 papeletas (n)

    15 combinaciones Sacamos 5 papeletas (n)

    6 combinaciones

  • 17/11/2011

    16

    Distribución en el muestreo de la media muestral

    Sacamos 5 papeletas (n)

    6 combinaciones

    Muestra Media muestral2, 4, 6, 6, 8 5,02, 4, 6, 6, 7 5,22, 4, 6, 7, 8 5,42, 4, 6, 7, 8 5,42, 6, 6, 7, 8 5,84, 6, 6, 7, 8 6,2

    Todas las muestras tienen la misma

    probabilidad de ser seleccionadas (1/6)

    La distribución muestral de la media (función de probabilidad):

    Px(5,0) = 1/6Px(5,2) = 1/6Px(5,4) = 1/3Px(5,8) = 1/6Px(6,2) = 1/6

    Distribución en el muestreo de la media muestral

    Px(x)

    2/6

    1/6

    0 4,5 5,5 6,5 7,5

    Es posible calcular su tamaño probable (error estándar)

    Px(5,0) = 1/6 Px(5,2) = 1/6 Px(5,4) = 1/3Px(5,8) = 1/6 Px(6,2) = 1/6

  • 17/11/2011

    17

    Distribución en el muestreo de la media muestral

    Px(x)

    2/6

    1/6

    0 4,5 5,5 6,5 7,5

    Ambas distribuciones de la media muestral se centran en la media poblacional.Si n se incrementa, la varianza muestral disminuye.La varianza muestral determina el error aleatorio, y sirve para calcular su tamaño probable.

    Error estándar.Indica el tamaño probable del error aleatorio.

    xEEn

    σ=

    Distribución en el muestreo de la media muestral

    Px(x)

    2/6

    1/6

    0 4,5 5,5 6,5 7,5

    Ambas distribuciones de la media muestral se centran en la media poblacional.

    Si n se incrementa, la varianza muestral disminuye.

    La varianza muestral determina el error aleatorio, y sirve para calcular su tamaño probable.

    Error estándar.Indica el tamaño probable del error aleatorio.

    xEEn

    σ=

  • 17/11/2011

    18

    Distribución en el muestreo de la media muestral

    Siempre que el muestreo sea aleatorio:

    Mientras mayor sea n, menor será el error aleatorio.

    Si n respecto a N es muy pequeño, se puede asumirque los valores individuales de la muestra se distribuyenindependientemente unos de otros.

    P.e. Muestra de 1.000 votantes sobre el censo total devotantes en las elecciones presidenciales españolas (Nentorno a 30 millones).

    Probabilidad primera extracción = 1/30 millones

    Probabilidad segunda extracción = 1/(30 millones – 1)

    Probabilidad 999 extracción = 1/(30 millones – 999)

    El error cometido al asumir independencia es muy pequeño,por lo que

    xEEn

    σ=

    Distribución en el muestreo de la media muestral

    Siempre que el muestreo sea aleatorio:

    Mientras mayor sea n, menor será el error aleatorio.

    Si n respecto a N no es muy pequeño, no se puede asumirque los valores individuales de la muestra se distribuyenindependientemente unos de otros.

    P.e. Muestra de 4 sobres sobre 6 sobres.

    Probabilidad primera extracción = 1/6

    Probabilidad segunda extracción = 1/(6-1)

    Probabilidad cuarta extracción = 1/(6-3)

    El error cometido al asumir independencia es muy grande,por lo que se aplica el factor de corrección porpoblación finita (N – n)/(N – 1):

    ·1

    x N nEENn

    σ −=

  • 17/11/2011

    19

    Distribución en el muestreo de la media muestral

    Si la distribución de la población es normal:

    Sigue una distribución normal estándar

    Si la distribución de la población no es normal pero n esgrande, Z se considera que sigue una distribución normalestándar por el teorema central del límite.

    x

    x

    XZ

    µσ−

    =

    Distribución en el muestreo de la media muestral

    La tasa de abortos en una cooperativa lechera sigue unadistribución normal con media 12,2% y desviación típica 3,6%. Setoma una muestra aleatoria de 9 explotaciones. ¿Cuál es laprobabilidad de que la media muestral sea menor del10%?

    µx = 12,2 σx = 3,6 n = 9

    x

    x

    XZ

    µσ−

    =

    ( ) 10 1010 x x xx x x

    XP X P P Z

    µ µ µσ σ σ

    − − −< = < =

  • 17/11/2011

    20

    Distribución en el muestreo de una proporción muestral

    Se le da la urna y se le informa que contiene un númerodeterminado de papeletas con ceros y unos. Se le pideque estime sus proporciones

    Agita la urna (garantizamos la aleatoriedad)

    Saca 1.000 papeletassin reposición (n)

    Distribución en el muestreo de una proporción muestral

    Si en la urna hay 5.000 papeletas con ceros y 5.000papeletas con unos:

    Px(1)=0,5

    En la muestra (1.000), el número esperado de

    unos será:

    np = 1.000 0,5 = 5000

    La proporción esperada será:

    (np)/n = (1.000 0,5)/1.000 = 0,5

    Sea X el número de éxitos en n observaciones, donde la probabilidad de éxito es p.

    ( ) (1 )Var X np p= −( )E X np=ˆ xX

    pn

    =

    ˆ( )

    (1 )ˆ( )

    x

    x

    E p p

    p pEE p

    n

    =

    −=

    (1 )ˆ( ) ·

    1

    ˆ

    ˆ( )

    x

    x

    x

    p p N nEE p

    n N

    p pZ

    EE p

    − −=

    −=

  • 17/11/2011

    21

    Distribución en el muestreo de una proporción muestral

    Tras una epidemia de lengua azul en Córdoba, se estima que el30% de las explotaciones resulta insegura. Se toma una muestrade 250 explotaciones para determinar la proporción de las queresultan inseguras. Hallar la probabilidad de que laproporción en la muestra esté entre el 25% y el 30%.

    p = 0,30 n = 250

    (1 )ˆ( )x

    p pEE p

    n

    −=

    ˆ

    ˆ( )

    x

    x

    p pZ

    EE p

    −=

    ( )ˆ ˆ ˆ

    ˆ ˆ

    ˆ0,25 0,35ˆ0,25 0,35

    0, 25 0,35

    x

    x

    p p p

    p p

    p pp pP p P

    p pP Z

    σ σ σ

    σ σ

    −− −< < = < < =

    − −= <

  • 17/11/2011

    22

    chi-cuadrado

    f(chi-cuadrado)

    0 4 8 12 16 20 24

    0

    0,04

    0,08

    0,12

    0,16

    Distribución en el muestreo de la varianza muestral

    2

    ( 1)nχ −(n - 1) = grados de libertad

    ( )2( 1) 1nE nχ − = − ( )2( 1) 2( 1)nVar nχ − = −

    2

    Distribución en el muestreo de la varianza muestral

    2

    ( 1)nχ −(n - 1) = grados de libertad

    ( )2( 1) 1nE nχ − = − ( )2( 1) 2( 1)nVar nχ − = −

    chi-cuadrado

    f(chi-cuadrado)

    0 10 20 30 40

    0

    0,02

    0,04

    0,06

    0,08

    0,12

    10χ

  • 17/11/2011

    23

    Distribución en el muestreo de la varianza muestral

    Es la distribución de la suma de loscuadrados de variables aleatoriasnormales estándar independientes

    2

    υχ

    Si la distribución poblacional es normal, entonces:

    sigue una distribución 2

    ( 1)nχ −

    ( ) 22

    1 ·x

    x

    n s

    σ−

    Distribución en el muestreo de la varianza muestral

    Cuando una fábrica de piensos funciona adecuadamente, el pesode los sacos de 50 kg sigue una distribución normal condesviación típica 3,6. Se toma una muestra aleatoria de 4 sacos.¿Qué probabilidad hay de que la varianza sea superior a30?.

    n = 4 σx = 3,6 σx2 = 12,96

    ( )

    ( )

    22

    2 2

    2 2

    3 3

    ( 1) 30( 1)30

    30·36,94

    12,96

    x

    x

    x x

    n s nP s P

    P P

    σ σ

    χ χ

    − −> = > =

    = > = >

    ( ) 22

    1 ·x

    x

    n s

    σ− 2

    ( 1)nχ −

    ( )( )

    ( )

    2

    3

    2

    3

    2

    6,25 0,10

    7,81 0,05

    0,05 30 0,10x

    P

    P

    P s

    χ

    χ

    > =

    > =

    < >

  • 17/11/2011

    24

    Muestreo aleatorio simple

    La inferencia basada en la media muestral es robustadebido a que si la distribución de la población de la queextrae la muestra se desvía de la normal, el error cometidoen el cálculo de probabilidades es pequeño.

    La inferencia basada en la varianza muestral es muysensible a las desviaciones de la distribución de lapoblación respecto a la normal, por lo que el error cometidoen el cálculo de probabilidades es grande.

    Sesgo

    Estimador = Parámetro + Error aleatorio + Sesgo

  • 17/11/2011

    25

    Sesgo

    Estimador = Parámetro + Error aleatorio + Sesgo

    Sesgo. Distorsión causada por la selección de lamuestra, que potencia o excluye cierto tipo deresultados.

    Sesgo

    Sesgo. Distorsión causada por la selección de lamuestra, que potencia o excluye cierto tipo deresultados.

    - El sesgo se controla aleatorizando el muestreo.

    - Es difícil de detectar.

    - Si se detecta, tampoco se “puede” corregir.

    - Cualquier tipo de selección provoca sesgo.

  • 17/11/2011

    26

    Sesgo

    Por ejemplo. Para estudiar la opinión de los españolessobre la ley del aborto, hacemos una encuesta a 100.000españoles.

    Los encuestadores preguntan a la salida de misa en lapuerta de las iglesias.

    La muestra es seleccionada aleatoriamente a partir dellistín telefónico.

    Los encuestadores preguntan a padres y madres en lapuerta de los colegios.

    Sesgo

    Ejemplos de sesgo.

    Los indecisos.

    Sesgo de respuesta.

    Sesgo de no respuesta.

    Sesgo del hogar.

    Sesgo del entrevistador.