ESTADISTICA APLICADA A LA INVESTIGACIÓN liliana.recchioni@gmail.com Capítulo 2: Introducción a la...

Post on 24-Jan-2016

216 views 2 download

Transcript of ESTADISTICA APLICADA A LA INVESTIGACIÓN liliana.recchioni@gmail.com Capítulo 2: Introducción a la...

ESTADISTICA APLICADA A LA INVESTIGACIÓN

liliana.recchioni@gmail.com

Capítulo 2: Introducción a la estadística inferencial.

Universidad Nacional de La Rioja Departamento de Ciencias y Tecnologías

Aplicadas a la Producción, Ambiente y Urbanismo

1.Probabilidad • Un evento es algo que ha ocurrido, va a ocurrir o

puede ser que ocurra. (que mañana llueva, que salga una cruz al tirar una moneda, que un hogar tenga más de 2 hijos, que un bebé pese menos de 1500gramos al nacer, etc.)

• Podemos considerar a la probabilidad como una medida de la posibilidad de ocurrencia de un evento.

Ejemplo 1:

• Experimento : lanzar un dado.

• Variable aleatoria: cara superior

• Evento: Cara par

• Probabilidad a calcular: P(cara par)

Ejemplo 2:

• Experimento : Medir la edad de un alumno.

• Variable aleatoria: edad

• Evento: que sea menor a 20 años.

• Probabilidad a calcular: P(y<20.)

Enfoques para el cálculo.

Definición clásica:• si un experimento puede producir n resultados

diferentes, mutuamente excluyentes y equiprobables, entonces la probabilidad:

• Cálculo factible para el experimento del dado.

posibles casos de número

favorables casos de númerop

Definición frecuencial:

En una tabla de frecuencia, la probabilidad se estima con la frecuencia relativa:

Siempre y cuando el n sea grande.

Definición subjetiva:

Depende del investigador o profesional.

frn

fp ˆ

Distribución de Probabilidad.

• Indica todos los resultados probables de un experimento, así como la probabilidad de ocurrencias de estos resultados.

• Es similar a una distribución de frecuencia relativa, pero en vez de describir el pasado, dice qué tan probable es que ocurra un evento.

2. Función de Distribución de Probabilidad. Variable Discreta.

• Se abstrae en una forma funcional la metodología necesaria para calcular la probabilidad que se presenta en la tabla de distribución de frecuencia.

• Para variables discretas PUEDO calcular la probabilidad en un valor de la variable.

Una variable aleatoria se puede definir, como una característica no predecible con certeza, sólo en términos de probabilidad.

Una variable aleatoria discreta toma valores discretos. Cantidad de asistencias en el mes, cantidad de hijos, cantidad de acciones…

X P(x)

1 1/6

2 1/6

3 1/6

4 1/6

5 1/6

6 1/6

1

Si se lanza un dado la probabilidad de que salga una determinada cara es:

Qué tipo de definición se utiliza?

X fi P(x)

0 150 0,15

1 250 0,25

2 400 0,40

3 100 0,10

4 50 0,05

Más de 5 50 0,01

1000 1

Si se mide la cantidad de hijos de mujeres que asisten al hospital:

Qué tipo de definición se utiliza?

3. Función de densidad para variable continua. Para una variable continua, peso, edad, habilidad, etc., sólo es posible calcular la probabilidad en un área determinada de su campo de variación.

La función de densidad es la función que describe la curva.

Una forma de ver cuál es la función de densidad de una variable de manera aproximada es observando el histograma.

La función de densidad es el límite del histograma para n grande e intervalos infinitesimales.

Distribución NormalGráficamente es una curva acampanada y simétrica con respecto a la media:

-5,00 -2,50 0,00 2,50 5,00

Variable

0,00

0,10

0,20

0,30

0,40

Den

sida

d

Función de densidad normal

Parámetros de la distribución Normal

• Media: nos dice en dónde está centrada la distribución. Si lo modificamos, podemos "mover" la curva sobre el eje horizontal.

• Desviación Estándar: nos dice qué tan "ancha" o "angosta" es la distribución en su base.

Parámetros de la distribución Normal

-5,00 -2,50 0,00 2,50 5,00

Variable

0,00

0,15

0,30

0,45

0,60D

ensi

dad

N(0;1)

N(2;0,5)

N(2;1)

Función de densidad normal

Hay infinitas normales… según la variable que se estudie…

Características:

Entonces, existen muchas distribuciones Normales, una por cada combinación de valores de media y varianza.Propiedades.

– Es simétrica con respecto a su media– El área bajo la curva vale 1.

ninformació la de 99% el posee se valores los Entre

ninformació la de 95% el posee se valores los Entre

ninformació la de 68% el posee se valores los Entre

3

2

a b y

-5,00 -2,50 0,00 2,50 5,00

Variable

0,00

0,10

0,20

0,30

0,40

0,50N

orm

al(0

,1)

Función de densidad normal

Normal(0,1): p(evento)=0,6827

Normal (0,1) . Normal estándard

Distribución Normal Estándar

Existe una distribución normal estándar que permite estandarizar todas las variables normales para llevarlas a una misma escala o unidad de medida.• Es aquella distribución Normal con Media = 0 y Desv. Estándar = 1.• A la variable aleatoria que sigue esta distribución se le llama Z.

Estandarización o Normalización

• Cualquier variable aleatoria y que se distribuye Normal(µ,σ) se puede transformar en una variable aleatoria Z que sigue la distribución Normal Estándar Normal(0,1):

-y=Z

Distribución Normal Estándar

La tabla da el valor de z que acumula una probabilidad p

p

-5,00 -2,50 0,00 2,50 5,00

Variable

0,00

0,10

0,20

0,30

0,40

0,50

Nor

mal

(0,1

)

Función de densidad normal

Normal(0,1): p(evento)=0,3085

P(z<-0,5)

-1,96 1,96

Buscar en la tabla de la distribución normal la probabilidad acumulada para -1,96 y 1,96

Ejemplo:• Si y =edad tiene una distribución normal con

• Entre qué valores se encuentra el 95% central de los datos?

10y 30

6,493010*96,1y10

30y96,1

4,103010*96,1y10

30y96,1

yz

:sexpresione siguientes las de y despejamos luego

El 95 % central de las personas tienen entre 10 y 49 años. ?

Cálculo empírico:

Si tomo la presión arterial mínima en 1000 pacientes puedo estudiar su distribución.

Realizo un histograma y veo la forma.

Tomo la media aritmética como estimación de µ y el S como estimación de .

Luego con media ± S tengo el 68% de los datos.

No importan los cálculos, lo que importa es saber que cada característica que se mide cuantitativa continua PUEDE tener una distribución normal.Como saberlo?

Pregunta:

• Qué implica que una variable se distribuya normalmente?

• Es posible que el peso al nacer se distribuya normalmente.

• Tiene el ingreso una distribución normal? Porqué?.

Distribuciones muestrales.

• La distribución de la media muestral.• La distribución de t de Student.

(existen otras, por ejemplo: chi cuadrado y F de Snédecor)

Cuando se muestrea una población surgen estadísticos. Estos tienen un comportamiento que se estudia analizando su distribución, ya que son variables aleatorias

Para estudiar o generar la distribución de cada uno, se deberían sacar muchas muestras de la población y hacer una distribución de frecuencias y realizar un histograma. Este se aproximaría a la distribución de cada uno de ellos.

Población

Muestra de n elementos

De la muestra puedo obtener estadísticos que tienen una distribución:

Media muestral

S

t

La distribución del estadístico está relacionada con la distribución de la cual proviene la muestra. Para estudiarlas podríamos sacar muchas muestras y ver su histograma…..

Ejemplo de distribución de la media aritmética.

• Supongamos la siguiente población:• 1 2 3 4 , esta población tiene media y sigma:

μ=2,50 σ2=1,25 σ= 1,118.

Veamos su histograma….

0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0

y

0,00

0,13

0,25

0,38

0,50

frecu

enci

a re

lativ

a

Distribución de frecuencia de y

Estudiemos la distribución de la media aritmética

cuando el tamaño de muestra es n=2.

Primero sacaremos todas las muestras posibles de tamaño 2 de la población.

Luego veremos su histograma y calcularemos su media y su desviación estándar.

y

Muestra     Media

1 1 1 1

2 1 2 1,5

3 1 3 2

4 1 4 2,5

5 2 1 1,5

6 2 2 2

7 2 3 2,5

8 2 4 3

9 3 1 2

10 3 2 2,5

11 3 3 3

12 3 4 3,5

13 4 1 2,5

14 4 2 3

15 4 3 3,5

16 4 4 4

Estadística descriptivaVariable n μ σ2 =Var(n)media 16 2,50 0,63

Se observa que la forma es bastante simétrica y campanular, acercándose a una normal.

La media de esta nueva variable es igual a la media de la población de donde se sacó la muestra, 2,50 y la variancia es 0,63 = 1,25 / 2.

0 1 2 3 4 5

media

0,00

0,11

0,23

0,34

0,46

frecu

enci

a re

lativ

a

Distribución de frecuencia de la media

0 1 2 3 4 5

media

0,00

0,11

0,23

0,34

0,46

frecu

enci

a re

lativ

a

Distribución de frecuencia de la media

0 1 2 3 4 5

y

0,00

0,13

0,25

0,38

0,50

frecu

enci

a re

lativ

a

Distribución de frecuencia de y

La distribución de la media.

Si y tiene una distribución normal con y ~ N La media muestral tiene una distribución normal con media y desvío estándar .

Donde n es el tamaño de la muestra.Si no es normal que hacer??Sólo asegúrese de sacar una muestra mayor de 30 elementos, entonces será aproximadamente normal.

y

n

y

),(

muestras. de variación medias, las de variaciónestándar error

sujetos. entre variación estándar desvío

n

Luego, es posible estandarizar la media muestral, es tdecir Transformarla en otra escala.

Entonces la media está más concentrada alrededor de que la variable original.

)1,0(N

n

yz

La distribución t de student.

Si y es normal y el desvío de la población no es conocido, luego t tiene una distribución con n-1 grados de libertad, para n menor que 30

1

nt

n

Sy

t

La distribución t de Student, es simétrica y está centrada en 0. Los grados de libertad están asociados al denominador del S.

Los grados de libertad caracterizan a la distribución.

Si n es mayor que 30, la distribución se aproxima a la NORMAL. ES DECIR SE USA UNA NORMAL.

(1)

La distribución t se encuentra tabulada para diferentes grados de libertad y para distintos niveles de probabilidad.

Debemos saber que una variable continua se puede distribuir

normalmente.

Que a partir de una muestra puedo calcular estadísticos, por ejemplo la

media, la t, la F, el CHI.

Que estos estadísticos tienen una distribución determinada: por ejemplo

la media, la t, la F… etc.

Inferencia estadística.

• Respondemos a la pregunta ¿Cuál es el valor del parámetro poblacional desconocido?

• Esta estimación puede ser:– Puntual: calculamos un solo valor, a partir de la

muestra, y lo usamos para estimar el parámetro poblacional.

– de Intervalo: calculamos dos valores, a partir de la muestra, y usamos el intervalo entre ellos, como los valores estimados del parámetro.

Estimaciones.

• La estimación puntual de un parámetro desconocido consiste en el cálculo de un único valor numérico que sea una buena aproximación de la realidad. Un estimador puntual por sí solo es inadecuado.

• Se trata de buscar un rango de valores entre los que posiblemente se encuentre la cantidad que se estima: una estimación por intervalo.

Estimación Puntual.

• Para estimar puntualmente un parámetro uso:

S

y

Son estimaciones puntuales porque se da un solo valor posible del parámetro.

Estimación por intervalos de confianza.• La mayor desventaja de los estimadores puntuales es que

la estimación puntual calculada de la muestra no dice nada por sí sola, del grado de incertidumbre de tal estimación, o sea, sobre qué tan probable es que la estimación esté cerca del parámetro y de qué tan cerca esté.

• Los estimadores puntuales brindan una información incompleta si no están acompañadas del grado de incertidumbre de la estimación puntual obtenida.

• La manera más frecuente de expresar tal incertidumbre, consiste en construir un intervalo dentro del cual se esperaría, con alta probabilidad , encontrar el valor del parámetro. Tal intervalo se conoce con el nombre de INTERVALO DE CONFIANZA

Nivel de confianza.• El nivel de confianza (1- α) se interpreta como

la probabilidad del intervalo de haber acertado en la estimación del parámetro poblacional.

• El complemento del nivel de confianza se llama nivel de significancia (α) y se interpreta como la probabilidad de cometer error en la estimación.

);.(212 n

Sty

n

Sty

Intervalo de confianza (LI;LS)

Fórmula

-0,02

De 100 intervalos posibles, 5 no encerrarán al parámetro con un nivel de confianza del 95%.

Ejemplo:Descriptivos

9.1693 .10575

8.9616

9.3771

9.1141

8.8000

6.095

2.46879

5.00

15.2

10.20

4.40

.287 .105

-1.053 .209

Media

Límite inferior

Límite superior

Intervalo de confianzapara la media al 95%

Media recortada al 5%

Mediana

Varianza

Desv. típ.

Mínimo

Máximo

Rango

Amplitud intercuartil

Asimetría

Curtosis

edadEstadístico Error típ.

Analizar->Estadísticos descriptivos ->Explorar

La estimación de la edad promedio es de 9,16 años IC del 95% (8.96;9.38)

Interpretación:• Tengo un 95% de confianza que el intervalo

encierre a • De la misma manera teniendo, en cuenta la

distribución del estadístico que me sirve para estimar al parámetro o la estadística asociado e él, puedo estimar intervalos para s, p entre otros.

Qué podemos hacer hasta ahora?

• Resumir en una tabla o gráfico información cuantitativa.

• Resumir en una tabla o gráfico información cualitativa y cruzar variables.

• Estimar puntualmente un parámetro.• Estimar por intervalos de confianza un parámetro.• PRECAUCIONES: Si la muestra es chica ver si la

variable se distribuye aproximadamente normal.• FACILIDADES: spss hace los cálculos.

Prueba de HipótesisEn una prueba de hipótesis se postula una aseveración con respecto a uno o más parámetros en la Hipótesis NULA.

Se mantiene cierta esa hipótesis mientras se hace la prueba, y se la rechaza si se encuentra evidencias en la MUESTRA para ello.

Si se la rechaza se acepta la hipótesis ALTERNATIVA, que mantiene lo contrario de la Nula. Se habrá probado esta última hipótesis.

Lo que se quiere probar se establece en la alternativa.

Prueba de Hipótesis para la media poblacional. • Trata de responder a la pregunta: ¿es el

parámetro poblacional igual a cierto valor específico?

• Se compone de cinco partes:– Hipótesis Nula– Hipótesis Alternativa– Región de Rechazo– Estadística de Prueba– Conclusión

Prueba de hipótesis para 1. Hipótesis Nula (H0):

• Afirma el valor conocido del parámetro:

• μ0 es el valor supuesto del parámetro poblacional.

0)H 0

Ejemplo: Ho) el promedio de edad es igual a 9

2. Hipótesis Alternativa (H1)

• Es la hipótesis que propone el investigador y la única que se puede probar.

• Se contradice lo que afirma la Hipótesis Nula. • Sólo se prueba cuando hay suficientes

evidencias en la muestra.• Se prueba si se rechaza la hipótesis nula.

0)H 1

La hipótesis alternativa indica que el promedio poblacional es distinto al que se postuló en la hipótesis nula.

Ejemplo: H1) el promedio de edad es distinto de 9

3. Región de Rechazo:

La región de rechazo es aquella región que contiene a todos los valores del estadístico muestral que nos llevan a rechazar la hipótesis nula

El tamaño de esa región se define en término de probabilidad que se identifica con el valor alfa α y puede valer 0,05 o 0,01.

Si vale 0,01 habrá menos valores que me lleven a rechazar la hipótesis. En medicina suele usarse 0,01.

Ejemplo: alfa es 5%

4. Estadística de Prueba.

Se utiliza un estadístico construido a partir del estimador (se transforma el estimador) para tomar una decisión sobre la veracidad de la Hipótesis Nula.

Mientras se hace la prueba se supone cierta la Ho entonces rechazo si el valor es muy extremo. Pensaré que la muestra no proviene de una población con ese parámetro establecido en la Ho.

Ejemplo: t

En esta prueba para la media, se estandariza o tipifica el valor de para ubicarlo en la distribución Normal Estándar:

y

n

S-y

t

Ejemplo:si se desea probar que la edad media de los alumnos medidos en las escuelas es de 9 años, deberé calcular con los datos muestrales un valor de t.

601,1t

545

47,2916,9

5. Conclusión

Si el valor de t calculada CAE dentro de la región de rechazo, SE RECHAZA la hipótesis nula (H0).

Esto significa que lo más probable es que la hipótesis alternativa sea cierta.

Ejemplo: Nuestra t=1,601 cae dentro o fuera? Como saberlo? Para eso debemos comparar el valor p de la prueba con el alfa.

Criterio del valor p (sig.)

• SI esa p < alfa implica RECHAZO la hipótesis nula, es decir que pruebo la alternativa.

• SI es mayor NO RECHAZO, me quedo con la nula.

• Entonces en las pruebas estadísticas miraré el valor de p..

• Si p es menor alfa rechazo, sino no rechazo Si p es menor alfa rechazo, sino no rechazo la nulala nula.

• Siempre puedo cometer un error, pero puedo controlar sólo un tipo de error.

En SPSSAnalizar -> comparar medias-> Prueba T para una muestraAnalizar -> comparar medias-> Prueba T para una muestra

Ejemplo:En el problema de mediciones de alumnos, el investigador quiere probar si la edad promedio difiere de 9 años con una significatividad del 5%.

Uso del SPSS

El valor p de la prueba aparece en Sig.(bilateral) 0.110. Aquí se indica la significatividad de la prueba.

Si “Sig.” es mayor que 0,05 NO RECHAZO.Si “Sig.” Es menor que 0,05 RECHAZO

Ejercicio:

Se desea probar que la estatura media de los alumnos medidos en las escuelas es de 130cm.Usar alfa=0,05

Analizar-> comparar medias ->Prueba t para una muestra

p<0,05 luego rechazo. La media es distinta de 130cm.

Ejemplo:Probemos si el promedio del peso de los alumnos es igual a 33 kgs. Alfa 0,05

Luego como el p >0,05. No rechazo. El peso promedio es 33kilos La estimación es de 33.12 .