Pruebas de Hipotesis Con R Commander

22
ALGUNOS PROCEDIMIENTOS DE PRUEBAS DE HIPOTESIS USO DEL PAQUETE R-R COMMANDER POBLACIONES NORMALES. Para realizar pruebas de hipótesis acerca de la media o de la diferencia entre medias cuando los tamaños de las muestras son pequeños, es necesario el supuesto de normalidad en las muestras. Supongamos que es una muestra aleatoria de una población normal con media y varianza , y que es otra muestra aleatoria de otra población normal con media y varianza , ambas muestras independientes entre sí. De la teoría de distribuciones muestrales sabemos que si es conocida entonces Si es desconocida, entonces . Si es un valor particular para , Tres hipótesis puedes ser planteadas respecto a Si es conocida entonces el estadístico de prueba y la Región Crítica para un valor dado de son: y R.C.= Si es desconocida entonces el estadístico de prueba y la Región Crítica para un valor dado de son: y R.C.= , donde Ejemplo 1: Se tomó una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se les registró: Valor de la matrícula (VMATRI), Estrato Socioeconómico (ESTRATO), Número de horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertene (FAC), si trabajaba (TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Una parte de los datos se muestra a continuación. Observe que en este caso no se sabe nada acerca de la distribución de las variables. Suponga que se desea probar si el valor de la matrícula promedio real de los estudiantes en dicha comunidad es superior a los 640.000 pesos con base en esta muestra aleatoria, con un nivel de significancia de . Las hipótesis a probar son . Para decidir que estadístico de prueba utilizar se debe realizar una prueba de Normalidad de las observaciones de la variable, la prueba más utilizada es la prueba de Shapiro Wilk.

Transcript of Pruebas de Hipotesis Con R Commander

Page 1: Pruebas de Hipotesis Con R Commander

ALGUNOS PROCEDIMIENTOS DE PRUEBAS DE HIPOTESIS USO DEL PAQUETE R-R COMMANDER

POBLACIONES NORMALES. Para realizar pruebas de hipótesis acerca de la media o de la diferencia entre medias cuando los tamaños de las muestras son pequeños, es necesario el supuesto de normalidad en las muestras. Supongamos que es una muestra aleatoria de una población normal con media y varianza , y que es otra muestra aleatoria de otra población normal con media y varianza , ambas muestras independientes entre sí. De la teoría de distribuciones muestrales sabemos que si es conocida entonces

Si es desconocida, entonces .

Si es un valor particular para , Tres hipótesis puedes ser planteadas respecto a

Si es conocida entonces el estadístico de prueba y la Región Crítica para un valor dado de son:

y R.C.=

Si es desconocida entonces el estadístico de prueba y la Región Crítica para un valor dado de

son:

y R.C.= , donde

Ejemplo 1: Se tomó una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se les registró: Valor de la matrícula (VMATRI), Estrato Socioeconómico (ESTRATO), Número de horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertene (FAC), si trabajaba (TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Una parte de los datos se muestra a continuación. Observe que en este caso no se sabe nada acerca de la distribución de las variables. Suponga que se desea probar si el valor de la matrícula promedio real de los estudiantes en dicha comunidad es superior a los 640.000 pesos con base en esta muestra aleatoria, con un nivel de significancia de . Las hipótesis a probar son . Para decidir que estadístico de prueba utilizar se debe realizar una prueba de Normalidad de las observaciones de la variable, la prueba más utilizada es la prueba de Shapiro Wilk.

Page 2: Pruebas de Hipotesis Con R Commander

: el valor de la matricula se distribuye normalmente : el valor de la matricula no se distribuye normalmente Para realizar la prueba de normalidad usando R commander se procede de la siguiente forma:

Después de seleccionar el test de Shapiro Wilk aparece la siguiente ventana:

Seleccionamos la variable VMATRI y le damos aceptar y se obtiene un valor P de 0.4841, como se muestra a continuación con este valor P se decide aceptar la hipótesis nula de normalidad

Page 3: Pruebas de Hipotesis Con R Commander

Como los datos se distribuyen normalmente y la varianza poblacional es desconocida entonces el estadístico de prueba es:

El procedimiento para realizar una prueba t para una media se muestra en la siguiente gráfica:

Page 4: Pruebas de Hipotesis Con R Commander

El en cuadro de opciones, se selecciona la variable de Interés (X: Valor de la matricula), el valor de

Además podemos indicar el cálculo de un Intervalo de Confianza al 95% para .

Los resultados obtenidos son los siguientes:

Page 5: Pruebas de Hipotesis Con R Commander

Como el Valor P es mayor que , No tenemos suficiente evidencia para rechazar Ho, es decir, no hay evidencia muestral suficiente para sugerir que el valor de la matrícula promedio real de un estudiante en dicha comunidad es superior a los 640.000 pesos, con un nivel de significancia de . Para Diferencia de Medias. Si lo que se desea es comparar el comportamiento promedio de una misma característica en dos poblaciones diferentes, cuando los tamaños de muestra son pequeños, no podemos usar el Teorema Central del Límite para construir un Estadístico de Prueba adecuado. De nuevo, supongamos que es una muestra aleatoria de una población normal con media y varianza y que es otra muestra aleatoria de otra población normal con media y varianza , ambas muestras independientes entre sí. Un estimador insesgado para , es , pero ¿Cuál es la distribución Muestral de ? Consideremos dos casos: Caso I: ,

Bajo el supuesto de Normalidad, y . Y como ambas variables son

independientes entre si, y entonces . Además:

, entonces:

Caso II:

Page 6: Pruebas de Hipotesis Con R Commander

Bajo el supuesto de normalidad en las muestras aleatorias se puede demostrar que:

La demostración de este hecho es un poco más elaborada y por eso no se presentará aquí. Las hipótesis a probar son entonces: Para probar si las varianzas de ambas muestras son iguales o diferentes, aunque sean desconocidas, podemos realizar una prueba de hipótesis para igualdad de Varianzas:

Estadístico de Prueba: dado.

Si la hipótesis Nula es rechazada, se concluye que las varianzas poblacionales no son iguales. En caso contrario podemos asumir que las varianzas poblacionales son iguales. Las hipótesis de interés a ser probadas son:

donde es un valor particular.

Usualmente se toma como cero y entonces hablamos de una prueba de Igualdad de Medias. Caso I: , El estadístico de prueba es: .

La región crítica es similar al caso de una muestra aleatoria: , dado. El valor P de esta prueba se calcula como . Caso II: .El estadístico de Prueba es:

La región crítica es similar al caso anterior:: , dado. El valor P de esta prueba se calcula como . Ejemplo 2: Se tomó una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se les registró: Valor de la matrícula (VMATRI), Estrato Socioeconómico (ESTRATO), Número de horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertene (FAC), si trabajaba (TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Observe que en este caso no se sabe nada acerca de la distribución de las variables. Suponga que se desea probar si el valor de la matrícula promedio real de los estudiantes que trabajan es superior al promedio de los que no trabajan con base en esta muestra aleatoria. Si definimos:

Page 7: Pruebas de Hipotesis Con R Commander

: el valor de la matricula promedio de los estudiantes que trabajan

: el valor de la matricula promedio de los estudiantes que no trabajan

: vs Para elegir el estadístico de prueba primero debemos verificar si las dos muestras aleatorias provienen de poblaciones normales, es decir, : el valor de la matricula de los que trabajan se distribuye normalmente : el valor de la matricula de los que trabajan no se distribuye normalmente Para realizar la prueba de normalidad usando R commander se procede de la siguiente forma: En la ventana superior llamada R Scrip se digita: shapiro.test(Datos$VMATRI[Datos$TRAB=="SI"]), luego se le da ejecutar y se obtiene:

Page 8: Pruebas de Hipotesis Con R Commander

Como se obtiene un valor P de 0.3668, con este valor P se decide aceptar la hipótesis nula de normalidad. Ahora realizamos la prueba de hipótesis de normalidad para los que no trabajan : el valor de la matricula de los que no trabajan se distribuye normalmente : el valor de la matricula de los que no trabajan no se distribuye normalmente Para realizar la prueba de normalidad usando R commander se procede de la siguiente forma: En la ventana superior llamada R Scrip se digita: shapiro.test(Datos$VMATRI[Datos$TRAB=="NO"]), luego se le da ejecutar y se obtiene:

Page 9: Pruebas de Hipotesis Con R Commander

Como se obtiene un valor P de 0.4578, con este valor P se decide aceptar la hipótesis nula de normalidad. Luego como las dos muestras aleatorias son normales y las varianzas poblacionales son desconocidas, se debe probar si las varianzas son iguales o no. Para verificar si las varianzas son iguales se debe realizar la siguiente prueba de hipótesis:

: vs : Para realizar está prueba de hipótesis en R commander se procede de la siguiente manera:

Al seleccionar test F para dos varianzas aparece la siguiente ventana

En esta ventana seleccionamos la variable VMATRI y en grupos seleccionamos la variable TRAB, y le damos aceptar, obteniéndose:

Page 10: Pruebas de Hipotesis Con R Commander

Como el valor P es menor que , se acepta la hipótesis nula, es decir hay evidencia muestral suficiente para sugerir que las varianzas son iguales. Luego retomando la hipótesis que deseamos probar es:

: vs Como las dos muestras aleatorias provienen de poblaciones normales con varianzas desconocidas pero iguales, el estadístico de prueba es:

Page 11: Pruebas de Hipotesis Con R Commander

Usando el R commander realizamos los siguientes pasos:

Después de seleccionar el Test t para muestras independientes aparece la siguiente ventana:

En ésta ventana seleccionamos la variable VMATRI y el grupo TRAB, y luego hacemos clic en opciones y se abre la siguiente ventana:

Page 12: Pruebas de Hipotesis Con R Commander

Luego seleccionamos Diferencia NO - SI < 0, y en suponer que las varianzas son iguales seleccionar Sí, y se obtiene:

Page 13: Pruebas de Hipotesis Con R Commander

Como el valor P es mayor que , no se rechaza la hipótesis nula, es decir, no hay evidencia muestral suficiente para sugerir que el valor de la matricula promedio de los estudiantes que trabajan es superior al valor de la matricula de los estudiantes que no trabajan, con un nivel de significancia de 0.05. POBLACIONES NO NORMALES

Para todos los casos suponemos que es una muestra aleatoria de una población con media y varianza , y que es otra muestra aleatoria de otra población con media

y varianza , ambas muestras independientes entre si. Pruebas de Hipótesis para Medias. Sea una muestra aleatoria de una de una población con media y varianza . Si el tamaño de la muestra es grande y es conocida, el Teorema Central del Límite garantiza que

, y de esta manera un Intervalo de confianza aproximado al

para es de la forma:

, donde .

Si es desconocida, esta es estimada usando la varianza Muestral: y un

Intervalo de Confianza aproximado al para es de la forma: .

Si es un valor particular para , podemos establecer tres hipótesis alternativas respecto al valor real de :

Estadístico de prueba .

Usando R commander se pueden calcular y para ser usados en la inferencia respecto a la media de la población. Cabe Anotar que R commander asume que las poblaciones involucradas SON NORMALES independiente del tamaño de la muestra. Si las poblaciones no son normales, para realizar pruebas de hipótesis para la Media con muestras grandes, debe hacerse manualmente. Similarmente pasa para la diferencia de medias de dos poblaciones con muestras grandes. Ejemplo 3: Se tomó una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se les registró: Valor de la matrícula (VMATRI), Estrato Socioeconómico (ESTRATO), Número de horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertene (FAC), si trabajaba (TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Observe que en este caso no se sabe nada acerca de la distribución de las variables. Suponga que se desea probar si el número de horas semanales promedio real que los estudiantes de dicha universidad dedican a estudiar es inferior a 32 horas, con base en esta muestra aleatoria, use un . Las hipótesis a probar son vs . Primero debemos verificar si el número de horas dedicado a estudiar se distribuye normalmente, para ello se realiza la siguiente prueba de hipótesis:

Page 14: Pruebas de Hipotesis Con R Commander

: el número de horas dedicado a estudiar se distribuye normalmente : el número de horas dedicado a estudiar no se distribuye normalmente Usando el R commander se obtiene:

Como el valor P es menor que , se rechaza la hipótesis nula, es decir, el número de horas dedicado a estudiar no se distribuye normalmente. Como la variable, el número de horas dedicado a estudiar no se distribuye normalmente, la prueba de hipótesis sobre la media no se puede realizar en R commander, pero se puede utilizar el R commander para realizar algunos cálculos como la media y la desviación estándar muestrales, obteniéndose: numSummary(Datos[,"HORAS"], statistics=c("mean", "sd"), quantiles=c(0,.25,.5,.75,1)) mean sd n 29.971 7.091858 1000 Como la muestra aleatoria no proviene de una población normal, , y la varianza poblacional es desconocida, se debe usar como estadístico de prueba:

Al reemplazar los valores se obtiene: . Valor P= la cual es aproximadamente igual a cero, como el valor P es menor que

, se rechaza la hipótesis nula, es decir, hay evidencia muestral suficiente para sugerir que el número de horas semanales promedio real que los estudiantes de dicha universidad dedican a estudiar es inferior a 32 horas, con un nivel de significancia de 0.05.

Page 15: Pruebas de Hipotesis Con R Commander

Ejemplo 4: Se tomó una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se les registró: Valor de la matrícula (VMATRI), Estrato Socioeconómico (ESTRATO), Número de horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertenece (FAC), si trabajaba (TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Observe que en este caso no se sabe nada acerca de la distribución de las variables. Suponga que se desea probar si la media del promedio de los estudiantes que trabajan es superior a la media del promedio de los estudiantes que no trabajan, con base en esta muestra aleatoria, use un . Definamos

: la media del promedio de los estudiantes que trabajan

: la media del promedio de los estudiantes que no trabajan Las hipótesis a probar son vs . Primero debemos verificar si el promedio de los estudiantes que trabajan se distribuye normalmente, para ello se realiza la siguiente prueba de hipótesis: : el promedio de los estudiantes que trabajan se distribuye normalmente : el promedio de los estudiantes que trabajan no se distribuye normalmente Usando el R commander se obtiene:

Como el valor P es menor que , se rechaza la hipótesis nula, es decir, hay evidencia muestral suficiente para decir que, el promedio de los estudiantes que trabajan no se distribuye normalmente, con .

Page 16: Pruebas de Hipotesis Con R Commander

Verifiquemos si el promedio de los estudiantes que no trabajan se distribuye normalmente, para ello se realiza la siguiente prueba de hipótesis: : el promedio de los estudiantes que no trabajan se distribuye normalmente : el promedio de los estudiantes que no trabajan no se distribuye normalmente Usando el R commander se obtiene:

Como el valor P es menor que , se rechaza la hipótesis nula, es decir, hay evidencia muestral suficiente para decir que, el promedio de los estudiantes que no trabajan no se distribuye normalmente, con . Como las dos muestras aleatorias no se distribuyen normalmente, la prueba de hipótesis sobre las medias no se puede realizar en R commander, pero se puede utilizar el R commander para realizar algunos cálculos como la media y la desviación estándar muestrales, de cada una de las muestras, obteniéndose: numSummary(Datos[,"PROM"], groups=Datos$TRAB, statistics=c("mean", "sd"), quantiles=c(0,.25,.5,.75,1)) mean sd n NO 3.402473 0.4121154 647 SI 3.408782 0.3958692 353 Como las muestras aleatorias no provienen de poblaciones normales, ,

, y las varianzas poblacionales son desconocidas, se debe usar como estadístico de prueba:

Page 17: Pruebas de Hipotesis Con R Commander

Al reemplazar los valores se obtiene: . Valor P= , como el valor P es mayor que , no se rechaza la hipótesis nula, es decir, no hay evidencia muestral suficiente para sugerir que, la media del promedio de los estudiantes que trabajan es superior a la media del promedio de los estudiantes que no trabajan, con un nivel de significancia de 0.05. Ejemplo 6. Se tomó una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se les registró: Valor de la matrícula (VMATRI), Estrato Socioeconómico (ESTRATO), Número de horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertenece (FAC), si trabajaba (TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Observe que en este caso no se sabe nada acerca de la distribución de las variables. Suponga que se desea probar si la proporción de estudiantes que no trabajan es superior a 0.6, con base en esta muestra aleatoria, use un . Sea P: la probabilidad de un un estudiante seleccionado al azar trabaje.

vs Como , se puede usar el teorema del límite central, el estadístico de prueba es:

Usando el R commander se procede de la siguiente manera:

Luego aparece la siguiente ventana:

Page 18: Pruebas de Hipotesis Con R Commander

Se selecciona la variable y se eligen las opciones, obteniéndose:

En opciones selecciono un test de cola derecha , y que utilice la aproximación normal, y luego se obtiene:

Page 19: Pruebas de Hipotesis Con R Commander

Como el valor P es 0.001343, menor que , se rechaza la hipótesis nula, es decir, hay evidencia muestral suficiente para sugerir que la proporción de estudiantes que no trabajan es superior a 0.6. Ejemplo 7. Se tomó una muestra aleatoria de 1000 estudiantes de una universidad a los cuales se les registró: Valor de la matrícula (VMATRI), Estrato Socioeconómico (ESTRATO), Número de horas dedicadas semanalmente a estudiar (HORAS), Facultad a la cual pertenece (FAC), si trabajaba (TRAB, SI o NO) y el Promedio obtenido en el semestre anterior (PROM). Observe que en este caso no se sabe nada acerca de la distribución de las variables. Suponga que se desea probar si los estudiantes que dedican más de 20 horas al estudio, la proporción de estudiantes que no trabajan es diferente a la proporción de estudiantes que trabajan, con base en esta muestra aleatoria, use un . Sea Número de estudiantes que No trabajan en la muestra y sea Número de estudiantes que trabajan en la muestra. Suponga que y , donde y , son las proporciones de estudiantes en la universidad que dedican más de 20 horas al estudio que No trabajan y Trabajan respectivamente, y son los tamaños de muestra respectivos. e son variables aleatorias Estadísticamente Independientes. Las hipótesis que se desea contrastar son: . El estadístico de Prueba en este caso es:

.

Como y son desconocidos, no podemos evaluar directamente este estadístico de prueba. Dos alternativas pueden ser propuestas para resolver este problema.

1. Cambiar y por sus estimadores de máxima verosimilitud: y . Así el estadístico de prueba será:

Page 20: Pruebas de Hipotesis Con R Commander

2. Bajo la hipótesis nula, sabemos que y son iguales. Al reemplazar a y por el valor común , el estadístico de prueba será:

Como también es desconocido puede ser estimado por usando un promedio ponderado

. Así, el estadístico de Prueba será:

Para aplicar el procedimiento en R commander primero debemos crear una variable categórica que indique si el estudiante dedica más de 20 horas al estudio. En la opción Datos creamos la variable MAYOR: Para realizar esta re codificación realizamos los siguientes pasos: Datos—Modificar variable de conjunto de datos activo—Recodificar variables…

“ Parte de la Base de Datos de los 1000 estudiantes encuestados con la variable re codificada”

Page 21: Pruebas de Hipotesis Con R Commander
Page 22: Pruebas de Hipotesis Con R Commander

Los resultados obtenidos son los siguientes:

Tanto el Valor P de la Prueba como el Intervalo de Confianza para indica que las proporciones no son diferentes. Es decir no hay evidencia muestral suficiente para sugerir que de los estudiantes que dedican más de 20 horas al estudio, la proporción de estudiantes que no trabajan es diferente a la proporción de estudiantes que trabajan.