Tutorial09:Inferenciasobredospoblaciones. Índice · 2017-04-20 · De lo contrario, R aplica una...

43
PostData Curso de Introducción a la Estadística Tutorial 09: Inferencia sobre dos poblaciones. Atención: Este documento pdf lleva adjuntos algunos de los ficheros de datos necesarios. Y está pensado para trabajar con él directamente en tu ordenador. Al usarlo en la pantalla, si es necesario, puedes aumentar alguna de las figuras para ver los detalles. Antes de imprimirlo, piensa si es necesario. Los árboles y nosotros te lo agradeceremos. Fecha: 20 de abril de 2017. Si este fichero tiene más de un año, puede resultar obsoleto. Busca si existe una versión más reciente. Índice 1. Diferencia de proporciones en dos poblaciones. 1 2. Diferencia de medias en dos poblaciones, muestras grandes. 4 3. Cociente de varianzas en dos poblaciones normales. Distribución F de Fisher- Snedecor. 9 4. Diferencia de medias en dos poblaciones, muestras pequeñas. 13 5. Datos en bruto con R. 22 6. Ejercicios adicionales y soluciones. 28 PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA. 43 Introducción. Este tutorial contiene la parte práctica del Capítulo 9 del libro. Como hemos dicho en la introduc- ción de ese capítulo, las ideas básicas (intervalos de confianza y contrastes) resultan ya conocidas, y aquí de lo que se trata es de aplicarlas al caso en el que estudiamos una misma variable aleatoria en dos poblaciones independientes. Las operaciones necesarias, en la práctica, son muy parecidas a las que hemos visto en anteriores capítulos y tutoriales para el caso de una población. Para usar el ordenador en estos problemas sólo necesitamos, en principio, ser capaces de resolver problemas de probabilidad (directos e inversos) en las distribuciones correspondientes: la normal Z , la t de Student, la χ 2 y, como novedad de este capítulo, la F de Fisher. Cualquiera de las herramientas con las que nos hemos familiarizado podría ser suficiente para este trabajo: R, por supuesto, o GeoGebra, Wolfram Alpha, incluso Calc permita calcular los valores de cualquiera de esas distri- buciones. Pero, como ya sabe el lector, algunas herramientas son mucho más cómodas y fiables que otras. En este tutorial se incluye, en la Tabla 1 (pág. 43), una colección de plantillas de R que, junto con los de los anteriores tutoriales, cubren todos los casos que aparecen en las Tablas del Apéndice B del libro. Ilustraremos el uso de cada una de estas plantillas con un ejemplo detallado y aprovecharemos algunos de esos ejemplos para abordar el uso de otras herramientas, como la Calculadora de Probabilidades de GeoGebra. 1. Diferencia de proporciones en dos poblaciones. Ver la Sección 9.1 del libro (pág. 297). 1

Transcript of Tutorial09:Inferenciasobredospoblaciones. Índice · 2017-04-20 · De lo contrario, R aplica una...

PostData Curso de Introduccioacuten a la Estadiacutestica

Tutorial 09 Inferencia sobre dos poblaciones

Atencioacuten

Este documento pdf lleva adjuntos algunos de los ficheros de datos necesarios Y estaacute pensadopara trabajar con eacutel directamente en tu ordenador Al usarlo en la pantalla si es necesariopuedes aumentar alguna de las figuras para ver los detalles Antes de imprimirlo piensa sies necesario Los aacuterboles y nosotros te lo agradeceremos

Fecha 20 de abril de 2017 Si este fichero tiene maacutes de un antildeo puede resultar obsoleto Buscasi existe una versioacuten maacutes reciente

Iacutendice

1 Diferencia de proporciones en dos poblaciones 1

2 Diferencia de medias en dos poblaciones muestras grandes 4

3 Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor 9

4 Diferencia de medias en dos poblaciones muestras pequentildeas 13

5 Datos en bruto con R 22

6 Ejercicios adicionales y soluciones 28

PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA 43

Introduccioacuten

Este tutorial contiene la parte praacutectica del Capiacutetulo 9 del libro Como hemos dicho en la introduc-cioacuten de ese capiacutetulo las ideas baacutesicas (intervalos de confianza y contrastes) resultan ya conocidasy aquiacute de lo que se trata es de aplicarlas al caso en el que estudiamos una misma variable aleatoriaen dos poblaciones independientes Las operaciones necesarias en la praacutectica son muy parecidasa las que hemos visto en anteriores capiacutetulos y tutoriales para el caso de una poblacioacuten Para usarel ordenador en estos problemas soacutelo necesitamos en principio ser capaces de resolver problemasde probabilidad (directos e inversos) en las distribuciones correspondientes la normal Z la t deStudent la χ2 y como novedad de este capiacutetulo la F de Fisher Cualquiera de las herramientascon las que nos hemos familiarizado podriacutea ser suficiente para este trabajo R por supuesto oGeoGebra Wolfram Alpha incluso Calc permita calcular los valores de cualquiera de esas distri-buciones Pero como ya sabe el lector algunas herramientas son mucho maacutes coacutemodas y fiables queotras En este tutorial se incluye en la Tabla 1 (paacuteg 43) una coleccioacuten de plantillas de R quejunto con los de los anteriores tutoriales cubren todos los casos que aparecen en las Tablas delApeacutendice B del libro Ilustraremos el uso de cada una de estas plantillas con un ejemplo detalladoy aprovecharemos algunos de esos ejemplos para abordar el uso de otras herramientas como laCalculadora de Probabilidades de GeoGebra

1 Diferencia de proporciones en dos poblaciones

Ver la Seccioacuten 91 del libro (paacuteg 297)

1

Usando la plantilla de R

Vamos a usar las plantillas de R de la la Tabla 1 para obtener los resultados que aparecen enel Ejemplo 911 del libro (paacuteg 303) Recordemos que en ese ejemplo se trata de contrastar lahipoacutetesis nula

H0 = p1 = p2

Y que para ello se han obtenido dos muestras independientes de tamantildeos n1 = 456 y n2 = 512 enlas que los respectivos nuacutemeros de ldquoeacutexitosrdquo eran 139 y 184 con lo que las proporciones muestralesde eacutexitos son

p1 =139

456asymp 03048 p2 =

184

512asymp 03594

mientras que las proporciones de ldquofracasosrdquo son

q1 asymp 06952 q2 asymp 06406

El caacutelculo del p-valor de este contraste se obtiene muy faacutecilmente con el fichero plantilla

de la la Tabla 1 Incluimos aquiacute soacutelo la parte inicial del fichero en la que hemos introducido losdatos de este ejemplo Fiacutejate especialmente en que las proporciones muestrales se introducen comococientes no mediante el nuacutemero de eacutexitos Esto se ha hecho asiacute por si en alguacuten caso el enunciadodel problema contiene directamente la proporcioacuten sin mencionar expliacutecitamente el nuacutemero de eacutexitos

PRIMERA MUESTRA Numero de elementos(n1 = 456)

[1] 456

proporcion muestral(pMuestral1 = 139456)

[1] 030482

SEGUNDA MUESTRA Numero de elementos(n2 = 512)

[1] 512

proporcion muestral(pMuestral2 = 184512)

[1] 035938

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateralTipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

El final del fichero plantilla contiene las instrucciones que producen los resultados del contraste(no incluimos la regioacuten de rechazo porque no la vamos a usar)

2

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 00723854663297254

Estadistico

[1] -17967

Como puede verse el p-valor coincide con lo que aparece en ese ejemplo

Usando la funcioacuten proptest

Esta funcioacuten que ya conocimos en el Tutorial08 sirve tambieacuten para este tipo de contrastes Parael Ejemplo 911 del libro que acabamos de calcular el comando a ejecutar seriacutea

proptest(c(139 184) c(456 512) correct=FALSEalternative=twosided conflevel=095)

2-sample test for equality of proportions without continuity correction data c(139 184) out of c(456 512) X-squared = 323 df = 1 p-value = 0072 alternative hypothesis twosided 95 percent confidence interval -01138167 00047159 sample estimates prop 1 prop 2 030482 035938

Como ves

Se introducen dos vectores conteniendo cada uno de ellos respectivamente los eacutexitos y lostamantildeos muestrales iexclCuidado con este formato

La hipoacutetesis alternativa se indica como en otros casos eligiendo entre less para Ha = p1 ltp2 greater para Ha = p1 gt p2 y twosided para Ha = p1 6= p2

Es necesario incluir la opcioacuten correct=FALSE si queremos obtener el mismo resultado quecon la plantilla De lo contrario R aplica una correccioacuten de continuidad para mejorar laaproximacioacuten de la binomial por la normal

Por uacuteltimo como producto secundario del contraste bilateral obtenemos un intervalo deconfianza para p1 minus p2 al nivel de confianza que hayamos indicado

Vamos a usar ese intervalo de confianza como excusa para proponerte un ejercicio

Ejercicio 1

1 Usa el fichero plantilla de R de la Tabla 1 (paacuteg 43) para obtener este mismo intervalo deconfianza

2 Haz lo mismo usando la pestantildea Estadiacutesticas de la Calculadora de Probabilidades de Geo-Gebra La opcioacuten que tienes que usar tiene un nombre poco claro se llama Z estimadadiferencia de proporciones Luego usa el comando

IntervaloProporcionesZ[ ltProporcioacuten (muestra 1)gt ltTamantildeo (muestra 1)gtltProporcioacuten (muestra 2)gt ltTamantildeo (muestra 2)gt ltNivelgt ]

3

para hacer la misma cuenta directamente

3 En Wolfram Alpha puedes teclear two proportion confidence interval para llegar a unainterfaz web en la que hacer este tipo de caacutelculos

2 Diferencia de medias en dos poblaciones muestras gran-des

Para ilustrar este tipo de situaciones vamos a usar un ejemplo relacionado con el que abriacutea elCapiacutetulo 7 del libro

Los dos laboratorios han seguido trabajando y ahora tenemos dos tratamientos de segunda gene-racioacuten para aliviar la depresioacuten en los canguros el Saltaplus Extraforte y el Pildoriacuten con GinsengPara establecer cuaacutel de los dos tratamientos es superior los hemos usado para tratar a los cangu-ros deprimidos de dos muestras independientes midiendo la altura media de sus saltos en metrosLlamando micro1 a la altura media (en metros) de los canguros tratados con Saltaplus y micro2 a la alturamedia de los tratados con Pildoriacuten queremos contrastar la hipoacutetesis (alternativa)

Ha = micro1 lt micro2

que sostiene que la nueva versioacuten de Pildoriacuten es mejor que el Saltaplus renovado Los datos mues-trales son estos (la muestra 1 corresponde a Saltaplus la 2 a Pildoriacuten)

n1 = 245

X1 = 273

s1 = 04

n2 = 252

X2 = 281

s2 = 03

Como las dos muestras son grandes para hacer este contraste podemos usar la plantilla

Incluimos los datos del problema en las primeras liacuteneas de este fichero como se muestra aquiacuteFiacutejate en que hemos usado descomentaacutendolas las liacuteneas de s1 y s2

PRIMERA MUESTRA Numero de elementos

(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 252)

[1] 252

4

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Los resultados de la ejecucioacuten del fichero son (de nuevo excluimos la regioacuten de rechazo)

pValor(Estadistico TipoContraste)

[1] El p-Valor es 000591772613290591

Estadistico

[1] -2517

Con ese p-valor rechazariacuteamos la hipoacutetesis nula de forma que no hay base experimental para creerque los canguros tratados con Saltaplus saltan maacutes que los tratados con Pildoriacuten

Vamos a aprovechar este ejemplo para explorar otras herramientas con las que puedes hacer estetipo de contrastes y los intervalos de confianza asociados

Ejercicio 2

1 Usa el fichero plantilla de R

de la la Tabla 1 (paacuteg 43) para obtener un intervalo de confianza al 95 para la diferenciamicro1 minus micro2

2 Haz lo mismo con la Calculadora de Probabilidades de GeoGebra En este caso debes usarZ estimada diferencia de medias Tambieacuten puedes hacerlo directamente con el comando

IntervaloMediasZ[ ltMedia (muestra 1)gt ltσ1gt ltTamantildeo (muestra 1)gt ltMedia (muestra 2)gtltσ2gt ltTamantildeo (muestra 2)gt ltNivelgt ]

3 Volviendo al contraste de hipoacutetesis en Wolfram Alpha puedes teclear hypothesis test forthe difference between two means para llegar a una interfaz web con la que hacer con-trastes de diferencias de medias usando Z Si usas confidence interval for the differencebetween two means podraacutes calcular intervalos de confianza para micro1 minus micro2 usando Z

4 Usa cualquiera de estos meacutetodos (auacuten mejor varios de ellos) para comprobar las cuentas delEjemplo 921 del libro (paacuteg 307) A pesar de que en ese ejemplo disponemos de los datos setrata de que uses los valores n1 n2 X1 X2 s1 s2 que aparecen en el texto del ejemplo Maacutesadelante en el tutorial volveremos sobre el caacutelculo a partir de los datos en bruto

Soluciones en la paacutegina 29

5

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

iquestY el caso de datos en bruto Advertencia sobre dataframes

No hemos incluido ficheros plantilla para el caso de datos en bruto iquestPor queacute Bueno una posi-bilidad seriacutea cargar los datos de cada una de las muestras desde un fichero csv uno para cadamuestra Pero eso resultariacutea muy forzado y artificioso La praacutectica habitual (y recomendable) enestadiacutestica es usar para esto un uacutenico fichero con dos columnas Cada fila de ese fichero correspondea una observacioacuten Una de las columnas contiene los valores de la variable X La otra es un factorF con dos niveles que identifica a cuaacutel de las poblaciones pertenece esa observacioacuten Por ejemploel comienzo del fichero podriacutea tener un aspecto similar al de esta tabla

X F735 A823 A775 B

La primera columna contiene los valores de X mientras que la segunda permite conocer a cuaacutelde las dos poblaciones pertenece ese valor (en este ejemplo identificadas respectivamente por losniveles A y B del factor F ) La estructura de datos natural para trabajar con este tipo de ficherosen R es el data frame del que hemos hablado por primera vez en el Tutorial04 Y para gestionarde forma adecuada un dataframe que contenga un fichero como el que estamos describiendo espreciso usar factores de R de los que hemos hablado en la Seccioacuten 4 del Tutorial08 (paacuteg 15) Porotra parte en el Capiacutetulo 11 al hablar del Anova unifactorial nos vamos a encontrar con unageneralizacioacuten natural de los problemas que estamos tratando en este capiacutetulo Asiacute que podemosposponer parte de la discusioacuten sobre la mejor forma de gestionar esos datos hasta ese capiacutetulo Perono es menos cierto que R incluye algunas funciones interesantes para trabajar con datos en brutoespeciacuteficamente dedicadas a los problemas de este capiacutetulo los de dos poblaciones Por eso vamos aincluir en la Seccioacuten 5 de este tutorial (paacuteg 22) la discusioacuten de esas funciones Advertencia el lectorque no haya practicado el uso de dataframes en los tutoriales anteriores tendraacute algunos problemaspara entender el coacutedigo que se usa con esa funciones En cualquier caso recuerda que usando uneditor de texto (como el Bloc de Notas) y una hoja de caacutelculo como Calc) puedes manipular losficheros y en la mayoriacutea de los casos extraer asiacute la informacioacuten necesaria

21 El caso de datos emparejados

El caso de datos emparejados se describe en la Seccioacuten 922 del libro (paacuteg 314) En este apartadosoacutelo queremos destacar que como hemos dicho alliacute no hay nada nuevo en realidad en esa situacioacutenporque en realidad se trata de un contraste en una uacutenica poblacioacuten como los que hemos aprendidoa realizar en el Capiacutetulo 7 y en el tutorial que lo acompantildea Para evidenciar esto vamos a realizarlos caacutelculos necesarios para el Ejemplo 923 del libro y usaremos una plantilla del Tutorial07Concretamente la plantilla titulada

Tut07-Contraste-Media-UsandoT-DatosEnBrutoR

en la que uacutenicamente es necesario hacer una pequentildea modificacioacuten para acomodar el hecho de queahora tenemos datos antes y despueacutes del tratamiento El coacutedigo de esa plantilla con los datosnecesarios aparece a continuacioacuten Fiacutejate en que hemos antildeadido dos liacuteneas al bloque inicial paradefinir los vectores antes y despues y que los hemos usado para obtener los valores del vector Ydel libro mediante

(muestra = despues - antes)

En particular ten en cuenta que lo que en libro se denomina Y en el coacutedigo seraacute xbar El restode las adaptaciones del coacutedigo deberiacutean resultar evidentes Revisa el coacutedigo cotejando los valoresque se obtienen con los que aparecen en el libro

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-07

6

Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos

CASO sigma desconocida muestra pequentildea nlt30

rm(list = ls())

antes = c(180 248 233 328 124 249 244 254 259 390)despues = c(331 233 265 216 162 315 214 401 242 291)

Una posibilidad es que tengas la muestra como un vector

(muestra = despues - antes)

[1] 151 -015 032 -112 038 066 -030 147 -017 -099

Si lees la muestra de un fichero csv

1 Recuerda seleccionar el directorio de trabajo

2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc

muestra = readtable(file= header= sep= dec=)[ 1]

Valor a contrastar de la media (aparece en la hipotesis nula)

(mu0 = 0)

[1] 0

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0

(TipoContraste = 1)

[1] 1

Nivel de significacion

(nSig = 095)

[1] 095

NO CAMBIES NADA DE AQUIacute PARA ABAJO

7

(alfa = 1 - nSig)

[1] 005

Numero de elementos en la muestra

(n = length(muestra))

[1] 10

Grados de libertad

(k = n - 1)

[1] 9

Media muestral

(xbar = mean(muestra))

[1] 0161

Cuasidesviacion tipica muestral

(s = sd(muestra))

[1] 089691

Calculo del estadistico del contraste

(Estadistico = (xbar - mu0) (ssqrt(n)))

[1] 056764

Funcion para el calculo del p-valor

pValor = function(EstadCon tipoCon)if(tipoCon == 1)

(pV = 1 - pt(EstadCon df=k ))if(tipoCon == 2)

(pV = pt(EstadCon df=k ))if(tipoCon == 3)

pV = 2 (1 - pt(abs(EstadCon) df=k ))return(paste0(El p-Valor es pV collapse=))

Funcion para el calculo del liacutemite de la regioacuten de rechazo

RegionRechazo = function(alfa tipoCon)if(tipoCon == 1)

(regionRech = paste(mayores que qt(1 - alfa df=k)))

8

if(tipoCon == 2)

(regionRech = paste(menores que qt(alfa df=k)))

if(tipoCon == 3)

(regionRech = paste(mas alejados del origen que qt(1 - (alfa2) df=k)))

regionRech = paste0(La region de rechazo la forman los valores del Estadistico

regionRech collapse=)return(regionRech)

Y ahora se aplican ambas funciones para mostrar los resultados

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0292078879999332

paste0(El valor del estadiacutestico es Estadistico collapse = )

[1] El valor del estadiacutestico es 056764281922141

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624

3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor

Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 305) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten

Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador

31 La distribucioacuten F de Fisher

En R

Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad

P (F138 gt 3)

hariacuteamos

1 - pf(3 df1=13 df2=8)

[1] 0062372

o tambieacuten

9

pf(3 df1=13 df2=8 lowertail=FALSE)

[1] 0062372

Y para calcular el valor K tal que

P (F79 lt K) = 0975

hariacuteamos

qf(0975 df1=7 df2=9)

[1] 4197

iexclEs muy importante recordar que no podemos cambiar el orden de los valores de df1y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas

En GeoGebra

Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema

P (1 lt F129 lt 2)

basta con ejecutar

DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]

y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente figura que ilustra ese mismo caacutelculo de la probabi-lidad

Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 35

10

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modificaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

iexclTen en cuenta que la probabilidad se ha traducido en percentiles

Y finalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de confianza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de confianza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 582) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 43)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacuteficapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el fichero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de significacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten afirmar que las varianzas sean iguales

Y un intervalo de confianza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de confianza es usando la plantillaque aparece al final de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconfianza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31s2 = 45

los tamantildeos de las muestrasn1 = 59n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para confirmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasRTut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 321 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica confirmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Media muestral(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten deWelch

17

Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera figura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta figura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modificarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 299) En particular eso significa que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las figuras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de confianza para la diferencia de medias con R

Vamos a calcular intervalos de confianza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos ficherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10n2 = 10 Medias muestralesbarX1 = 942barX2 = 977 Cuasidesviaciones tipicas muestraless1 = 2098s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12n2 = 12 Medias muestralesbarX1 = 1914barX2 = 2344 Cuasidesviaciones tipicas muestraless1 = 04216s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Usando la plantilla de R

Vamos a usar las plantillas de R de la la Tabla 1 para obtener los resultados que aparecen enel Ejemplo 911 del libro (paacuteg 303) Recordemos que en ese ejemplo se trata de contrastar lahipoacutetesis nula

H0 = p1 = p2

Y que para ello se han obtenido dos muestras independientes de tamantildeos n1 = 456 y n2 = 512 enlas que los respectivos nuacutemeros de ldquoeacutexitosrdquo eran 139 y 184 con lo que las proporciones muestralesde eacutexitos son

p1 =139

456asymp 03048 p2 =

184

512asymp 03594

mientras que las proporciones de ldquofracasosrdquo son

q1 asymp 06952 q2 asymp 06406

El caacutelculo del p-valor de este contraste se obtiene muy faacutecilmente con el fichero plantilla

de la la Tabla 1 Incluimos aquiacute soacutelo la parte inicial del fichero en la que hemos introducido losdatos de este ejemplo Fiacutejate especialmente en que las proporciones muestrales se introducen comococientes no mediante el nuacutemero de eacutexitos Esto se ha hecho asiacute por si en alguacuten caso el enunciadodel problema contiene directamente la proporcioacuten sin mencionar expliacutecitamente el nuacutemero de eacutexitos

PRIMERA MUESTRA Numero de elementos(n1 = 456)

[1] 456

proporcion muestral(pMuestral1 = 139456)

[1] 030482

SEGUNDA MUESTRA Numero de elementos(n2 = 512)

[1] 512

proporcion muestral(pMuestral2 = 184512)

[1] 035938

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateralTipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

El final del fichero plantilla contiene las instrucciones que producen los resultados del contraste(no incluimos la regioacuten de rechazo porque no la vamos a usar)

2

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 00723854663297254

Estadistico

[1] -17967

Como puede verse el p-valor coincide con lo que aparece en ese ejemplo

Usando la funcioacuten proptest

Esta funcioacuten que ya conocimos en el Tutorial08 sirve tambieacuten para este tipo de contrastes Parael Ejemplo 911 del libro que acabamos de calcular el comando a ejecutar seriacutea

proptest(c(139 184) c(456 512) correct=FALSEalternative=twosided conflevel=095)

2-sample test for equality of proportions without continuity correction data c(139 184) out of c(456 512) X-squared = 323 df = 1 p-value = 0072 alternative hypothesis twosided 95 percent confidence interval -01138167 00047159 sample estimates prop 1 prop 2 030482 035938

Como ves

Se introducen dos vectores conteniendo cada uno de ellos respectivamente los eacutexitos y lostamantildeos muestrales iexclCuidado con este formato

La hipoacutetesis alternativa se indica como en otros casos eligiendo entre less para Ha = p1 ltp2 greater para Ha = p1 gt p2 y twosided para Ha = p1 6= p2

Es necesario incluir la opcioacuten correct=FALSE si queremos obtener el mismo resultado quecon la plantilla De lo contrario R aplica una correccioacuten de continuidad para mejorar laaproximacioacuten de la binomial por la normal

Por uacuteltimo como producto secundario del contraste bilateral obtenemos un intervalo deconfianza para p1 minus p2 al nivel de confianza que hayamos indicado

Vamos a usar ese intervalo de confianza como excusa para proponerte un ejercicio

Ejercicio 1

1 Usa el fichero plantilla de R de la Tabla 1 (paacuteg 43) para obtener este mismo intervalo deconfianza

2 Haz lo mismo usando la pestantildea Estadiacutesticas de la Calculadora de Probabilidades de Geo-Gebra La opcioacuten que tienes que usar tiene un nombre poco claro se llama Z estimadadiferencia de proporciones Luego usa el comando

IntervaloProporcionesZ[ ltProporcioacuten (muestra 1)gt ltTamantildeo (muestra 1)gtltProporcioacuten (muestra 2)gt ltTamantildeo (muestra 2)gt ltNivelgt ]

3

para hacer la misma cuenta directamente

3 En Wolfram Alpha puedes teclear two proportion confidence interval para llegar a unainterfaz web en la que hacer este tipo de caacutelculos

2 Diferencia de medias en dos poblaciones muestras gran-des

Para ilustrar este tipo de situaciones vamos a usar un ejemplo relacionado con el que abriacutea elCapiacutetulo 7 del libro

Los dos laboratorios han seguido trabajando y ahora tenemos dos tratamientos de segunda gene-racioacuten para aliviar la depresioacuten en los canguros el Saltaplus Extraforte y el Pildoriacuten con GinsengPara establecer cuaacutel de los dos tratamientos es superior los hemos usado para tratar a los cangu-ros deprimidos de dos muestras independientes midiendo la altura media de sus saltos en metrosLlamando micro1 a la altura media (en metros) de los canguros tratados con Saltaplus y micro2 a la alturamedia de los tratados con Pildoriacuten queremos contrastar la hipoacutetesis (alternativa)

Ha = micro1 lt micro2

que sostiene que la nueva versioacuten de Pildoriacuten es mejor que el Saltaplus renovado Los datos mues-trales son estos (la muestra 1 corresponde a Saltaplus la 2 a Pildoriacuten)

n1 = 245

X1 = 273

s1 = 04

n2 = 252

X2 = 281

s2 = 03

Como las dos muestras son grandes para hacer este contraste podemos usar la plantilla

Incluimos los datos del problema en las primeras liacuteneas de este fichero como se muestra aquiacuteFiacutejate en que hemos usado descomentaacutendolas las liacuteneas de s1 y s2

PRIMERA MUESTRA Numero de elementos

(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 252)

[1] 252

4

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Los resultados de la ejecucioacuten del fichero son (de nuevo excluimos la regioacuten de rechazo)

pValor(Estadistico TipoContraste)

[1] El p-Valor es 000591772613290591

Estadistico

[1] -2517

Con ese p-valor rechazariacuteamos la hipoacutetesis nula de forma que no hay base experimental para creerque los canguros tratados con Saltaplus saltan maacutes que los tratados con Pildoriacuten

Vamos a aprovechar este ejemplo para explorar otras herramientas con las que puedes hacer estetipo de contrastes y los intervalos de confianza asociados

Ejercicio 2

1 Usa el fichero plantilla de R

de la la Tabla 1 (paacuteg 43) para obtener un intervalo de confianza al 95 para la diferenciamicro1 minus micro2

2 Haz lo mismo con la Calculadora de Probabilidades de GeoGebra En este caso debes usarZ estimada diferencia de medias Tambieacuten puedes hacerlo directamente con el comando

IntervaloMediasZ[ ltMedia (muestra 1)gt ltσ1gt ltTamantildeo (muestra 1)gt ltMedia (muestra 2)gtltσ2gt ltTamantildeo (muestra 2)gt ltNivelgt ]

3 Volviendo al contraste de hipoacutetesis en Wolfram Alpha puedes teclear hypothesis test forthe difference between two means para llegar a una interfaz web con la que hacer con-trastes de diferencias de medias usando Z Si usas confidence interval for the differencebetween two means podraacutes calcular intervalos de confianza para micro1 minus micro2 usando Z

4 Usa cualquiera de estos meacutetodos (auacuten mejor varios de ellos) para comprobar las cuentas delEjemplo 921 del libro (paacuteg 307) A pesar de que en ese ejemplo disponemos de los datos setrata de que uses los valores n1 n2 X1 X2 s1 s2 que aparecen en el texto del ejemplo Maacutesadelante en el tutorial volveremos sobre el caacutelculo a partir de los datos en bruto

Soluciones en la paacutegina 29

5

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

iquestY el caso de datos en bruto Advertencia sobre dataframes

No hemos incluido ficheros plantilla para el caso de datos en bruto iquestPor queacute Bueno una posi-bilidad seriacutea cargar los datos de cada una de las muestras desde un fichero csv uno para cadamuestra Pero eso resultariacutea muy forzado y artificioso La praacutectica habitual (y recomendable) enestadiacutestica es usar para esto un uacutenico fichero con dos columnas Cada fila de ese fichero correspondea una observacioacuten Una de las columnas contiene los valores de la variable X La otra es un factorF con dos niveles que identifica a cuaacutel de las poblaciones pertenece esa observacioacuten Por ejemploel comienzo del fichero podriacutea tener un aspecto similar al de esta tabla

X F735 A823 A775 B

La primera columna contiene los valores de X mientras que la segunda permite conocer a cuaacutelde las dos poblaciones pertenece ese valor (en este ejemplo identificadas respectivamente por losniveles A y B del factor F ) La estructura de datos natural para trabajar con este tipo de ficherosen R es el data frame del que hemos hablado por primera vez en el Tutorial04 Y para gestionarde forma adecuada un dataframe que contenga un fichero como el que estamos describiendo espreciso usar factores de R de los que hemos hablado en la Seccioacuten 4 del Tutorial08 (paacuteg 15) Porotra parte en el Capiacutetulo 11 al hablar del Anova unifactorial nos vamos a encontrar con unageneralizacioacuten natural de los problemas que estamos tratando en este capiacutetulo Asiacute que podemosposponer parte de la discusioacuten sobre la mejor forma de gestionar esos datos hasta ese capiacutetulo Perono es menos cierto que R incluye algunas funciones interesantes para trabajar con datos en brutoespeciacuteficamente dedicadas a los problemas de este capiacutetulo los de dos poblaciones Por eso vamos aincluir en la Seccioacuten 5 de este tutorial (paacuteg 22) la discusioacuten de esas funciones Advertencia el lectorque no haya practicado el uso de dataframes en los tutoriales anteriores tendraacute algunos problemaspara entender el coacutedigo que se usa con esa funciones En cualquier caso recuerda que usando uneditor de texto (como el Bloc de Notas) y una hoja de caacutelculo como Calc) puedes manipular losficheros y en la mayoriacutea de los casos extraer asiacute la informacioacuten necesaria

21 El caso de datos emparejados

El caso de datos emparejados se describe en la Seccioacuten 922 del libro (paacuteg 314) En este apartadosoacutelo queremos destacar que como hemos dicho alliacute no hay nada nuevo en realidad en esa situacioacutenporque en realidad se trata de un contraste en una uacutenica poblacioacuten como los que hemos aprendidoa realizar en el Capiacutetulo 7 y en el tutorial que lo acompantildea Para evidenciar esto vamos a realizarlos caacutelculos necesarios para el Ejemplo 923 del libro y usaremos una plantilla del Tutorial07Concretamente la plantilla titulada

Tut07-Contraste-Media-UsandoT-DatosEnBrutoR

en la que uacutenicamente es necesario hacer una pequentildea modificacioacuten para acomodar el hecho de queahora tenemos datos antes y despueacutes del tratamiento El coacutedigo de esa plantilla con los datosnecesarios aparece a continuacioacuten Fiacutejate en que hemos antildeadido dos liacuteneas al bloque inicial paradefinir los vectores antes y despues y que los hemos usado para obtener los valores del vector Ydel libro mediante

(muestra = despues - antes)

En particular ten en cuenta que lo que en libro se denomina Y en el coacutedigo seraacute xbar El restode las adaptaciones del coacutedigo deberiacutean resultar evidentes Revisa el coacutedigo cotejando los valoresque se obtienen con los que aparecen en el libro

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-07

6

Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos

CASO sigma desconocida muestra pequentildea nlt30

rm(list = ls())

antes = c(180 248 233 328 124 249 244 254 259 390)despues = c(331 233 265 216 162 315 214 401 242 291)

Una posibilidad es que tengas la muestra como un vector

(muestra = despues - antes)

[1] 151 -015 032 -112 038 066 -030 147 -017 -099

Si lees la muestra de un fichero csv

1 Recuerda seleccionar el directorio de trabajo

2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc

muestra = readtable(file= header= sep= dec=)[ 1]

Valor a contrastar de la media (aparece en la hipotesis nula)

(mu0 = 0)

[1] 0

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0

(TipoContraste = 1)

[1] 1

Nivel de significacion

(nSig = 095)

[1] 095

NO CAMBIES NADA DE AQUIacute PARA ABAJO

7

(alfa = 1 - nSig)

[1] 005

Numero de elementos en la muestra

(n = length(muestra))

[1] 10

Grados de libertad

(k = n - 1)

[1] 9

Media muestral

(xbar = mean(muestra))

[1] 0161

Cuasidesviacion tipica muestral

(s = sd(muestra))

[1] 089691

Calculo del estadistico del contraste

(Estadistico = (xbar - mu0) (ssqrt(n)))

[1] 056764

Funcion para el calculo del p-valor

pValor = function(EstadCon tipoCon)if(tipoCon == 1)

(pV = 1 - pt(EstadCon df=k ))if(tipoCon == 2)

(pV = pt(EstadCon df=k ))if(tipoCon == 3)

pV = 2 (1 - pt(abs(EstadCon) df=k ))return(paste0(El p-Valor es pV collapse=))

Funcion para el calculo del liacutemite de la regioacuten de rechazo

RegionRechazo = function(alfa tipoCon)if(tipoCon == 1)

(regionRech = paste(mayores que qt(1 - alfa df=k)))

8

if(tipoCon == 2)

(regionRech = paste(menores que qt(alfa df=k)))

if(tipoCon == 3)

(regionRech = paste(mas alejados del origen que qt(1 - (alfa2) df=k)))

regionRech = paste0(La region de rechazo la forman los valores del Estadistico

regionRech collapse=)return(regionRech)

Y ahora se aplican ambas funciones para mostrar los resultados

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0292078879999332

paste0(El valor del estadiacutestico es Estadistico collapse = )

[1] El valor del estadiacutestico es 056764281922141

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624

3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor

Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 305) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten

Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador

31 La distribucioacuten F de Fisher

En R

Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad

P (F138 gt 3)

hariacuteamos

1 - pf(3 df1=13 df2=8)

[1] 0062372

o tambieacuten

9

pf(3 df1=13 df2=8 lowertail=FALSE)

[1] 0062372

Y para calcular el valor K tal que

P (F79 lt K) = 0975

hariacuteamos

qf(0975 df1=7 df2=9)

[1] 4197

iexclEs muy importante recordar que no podemos cambiar el orden de los valores de df1y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas

En GeoGebra

Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema

P (1 lt F129 lt 2)

basta con ejecutar

DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]

y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente figura que ilustra ese mismo caacutelculo de la probabi-lidad

Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 35

10

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modificaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

iexclTen en cuenta que la probabilidad se ha traducido en percentiles

Y finalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de confianza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de confianza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 582) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 43)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacuteficapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el fichero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de significacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten afirmar que las varianzas sean iguales

Y un intervalo de confianza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de confianza es usando la plantillaque aparece al final de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconfianza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31s2 = 45

los tamantildeos de las muestrasn1 = 59n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para confirmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasRTut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 321 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica confirmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Media muestral(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten deWelch

17

Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera figura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta figura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modificarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 299) En particular eso significa que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las figuras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de confianza para la diferencia de medias con R

Vamos a calcular intervalos de confianza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos ficherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10n2 = 10 Medias muestralesbarX1 = 942barX2 = 977 Cuasidesviaciones tipicas muestraless1 = 2098s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12n2 = 12 Medias muestralesbarX1 = 1914barX2 = 2344 Cuasidesviaciones tipicas muestraless1 = 04216s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 00723854663297254

Estadistico

[1] -17967

Como puede verse el p-valor coincide con lo que aparece en ese ejemplo

Usando la funcioacuten proptest

Esta funcioacuten que ya conocimos en el Tutorial08 sirve tambieacuten para este tipo de contrastes Parael Ejemplo 911 del libro que acabamos de calcular el comando a ejecutar seriacutea

proptest(c(139 184) c(456 512) correct=FALSEalternative=twosided conflevel=095)

2-sample test for equality of proportions without continuity correction data c(139 184) out of c(456 512) X-squared = 323 df = 1 p-value = 0072 alternative hypothesis twosided 95 percent confidence interval -01138167 00047159 sample estimates prop 1 prop 2 030482 035938

Como ves

Se introducen dos vectores conteniendo cada uno de ellos respectivamente los eacutexitos y lostamantildeos muestrales iexclCuidado con este formato

La hipoacutetesis alternativa se indica como en otros casos eligiendo entre less para Ha = p1 ltp2 greater para Ha = p1 gt p2 y twosided para Ha = p1 6= p2

Es necesario incluir la opcioacuten correct=FALSE si queremos obtener el mismo resultado quecon la plantilla De lo contrario R aplica una correccioacuten de continuidad para mejorar laaproximacioacuten de la binomial por la normal

Por uacuteltimo como producto secundario del contraste bilateral obtenemos un intervalo deconfianza para p1 minus p2 al nivel de confianza que hayamos indicado

Vamos a usar ese intervalo de confianza como excusa para proponerte un ejercicio

Ejercicio 1

1 Usa el fichero plantilla de R de la Tabla 1 (paacuteg 43) para obtener este mismo intervalo deconfianza

2 Haz lo mismo usando la pestantildea Estadiacutesticas de la Calculadora de Probabilidades de Geo-Gebra La opcioacuten que tienes que usar tiene un nombre poco claro se llama Z estimadadiferencia de proporciones Luego usa el comando

IntervaloProporcionesZ[ ltProporcioacuten (muestra 1)gt ltTamantildeo (muestra 1)gtltProporcioacuten (muestra 2)gt ltTamantildeo (muestra 2)gt ltNivelgt ]

3

para hacer la misma cuenta directamente

3 En Wolfram Alpha puedes teclear two proportion confidence interval para llegar a unainterfaz web en la que hacer este tipo de caacutelculos

2 Diferencia de medias en dos poblaciones muestras gran-des

Para ilustrar este tipo de situaciones vamos a usar un ejemplo relacionado con el que abriacutea elCapiacutetulo 7 del libro

Los dos laboratorios han seguido trabajando y ahora tenemos dos tratamientos de segunda gene-racioacuten para aliviar la depresioacuten en los canguros el Saltaplus Extraforte y el Pildoriacuten con GinsengPara establecer cuaacutel de los dos tratamientos es superior los hemos usado para tratar a los cangu-ros deprimidos de dos muestras independientes midiendo la altura media de sus saltos en metrosLlamando micro1 a la altura media (en metros) de los canguros tratados con Saltaplus y micro2 a la alturamedia de los tratados con Pildoriacuten queremos contrastar la hipoacutetesis (alternativa)

Ha = micro1 lt micro2

que sostiene que la nueva versioacuten de Pildoriacuten es mejor que el Saltaplus renovado Los datos mues-trales son estos (la muestra 1 corresponde a Saltaplus la 2 a Pildoriacuten)

n1 = 245

X1 = 273

s1 = 04

n2 = 252

X2 = 281

s2 = 03

Como las dos muestras son grandes para hacer este contraste podemos usar la plantilla

Incluimos los datos del problema en las primeras liacuteneas de este fichero como se muestra aquiacuteFiacutejate en que hemos usado descomentaacutendolas las liacuteneas de s1 y s2

PRIMERA MUESTRA Numero de elementos

(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 252)

[1] 252

4

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Los resultados de la ejecucioacuten del fichero son (de nuevo excluimos la regioacuten de rechazo)

pValor(Estadistico TipoContraste)

[1] El p-Valor es 000591772613290591

Estadistico

[1] -2517

Con ese p-valor rechazariacuteamos la hipoacutetesis nula de forma que no hay base experimental para creerque los canguros tratados con Saltaplus saltan maacutes que los tratados con Pildoriacuten

Vamos a aprovechar este ejemplo para explorar otras herramientas con las que puedes hacer estetipo de contrastes y los intervalos de confianza asociados

Ejercicio 2

1 Usa el fichero plantilla de R

de la la Tabla 1 (paacuteg 43) para obtener un intervalo de confianza al 95 para la diferenciamicro1 minus micro2

2 Haz lo mismo con la Calculadora de Probabilidades de GeoGebra En este caso debes usarZ estimada diferencia de medias Tambieacuten puedes hacerlo directamente con el comando

IntervaloMediasZ[ ltMedia (muestra 1)gt ltσ1gt ltTamantildeo (muestra 1)gt ltMedia (muestra 2)gtltσ2gt ltTamantildeo (muestra 2)gt ltNivelgt ]

3 Volviendo al contraste de hipoacutetesis en Wolfram Alpha puedes teclear hypothesis test forthe difference between two means para llegar a una interfaz web con la que hacer con-trastes de diferencias de medias usando Z Si usas confidence interval for the differencebetween two means podraacutes calcular intervalos de confianza para micro1 minus micro2 usando Z

4 Usa cualquiera de estos meacutetodos (auacuten mejor varios de ellos) para comprobar las cuentas delEjemplo 921 del libro (paacuteg 307) A pesar de que en ese ejemplo disponemos de los datos setrata de que uses los valores n1 n2 X1 X2 s1 s2 que aparecen en el texto del ejemplo Maacutesadelante en el tutorial volveremos sobre el caacutelculo a partir de los datos en bruto

Soluciones en la paacutegina 29

5

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

iquestY el caso de datos en bruto Advertencia sobre dataframes

No hemos incluido ficheros plantilla para el caso de datos en bruto iquestPor queacute Bueno una posi-bilidad seriacutea cargar los datos de cada una de las muestras desde un fichero csv uno para cadamuestra Pero eso resultariacutea muy forzado y artificioso La praacutectica habitual (y recomendable) enestadiacutestica es usar para esto un uacutenico fichero con dos columnas Cada fila de ese fichero correspondea una observacioacuten Una de las columnas contiene los valores de la variable X La otra es un factorF con dos niveles que identifica a cuaacutel de las poblaciones pertenece esa observacioacuten Por ejemploel comienzo del fichero podriacutea tener un aspecto similar al de esta tabla

X F735 A823 A775 B

La primera columna contiene los valores de X mientras que la segunda permite conocer a cuaacutelde las dos poblaciones pertenece ese valor (en este ejemplo identificadas respectivamente por losniveles A y B del factor F ) La estructura de datos natural para trabajar con este tipo de ficherosen R es el data frame del que hemos hablado por primera vez en el Tutorial04 Y para gestionarde forma adecuada un dataframe que contenga un fichero como el que estamos describiendo espreciso usar factores de R de los que hemos hablado en la Seccioacuten 4 del Tutorial08 (paacuteg 15) Porotra parte en el Capiacutetulo 11 al hablar del Anova unifactorial nos vamos a encontrar con unageneralizacioacuten natural de los problemas que estamos tratando en este capiacutetulo Asiacute que podemosposponer parte de la discusioacuten sobre la mejor forma de gestionar esos datos hasta ese capiacutetulo Perono es menos cierto que R incluye algunas funciones interesantes para trabajar con datos en brutoespeciacuteficamente dedicadas a los problemas de este capiacutetulo los de dos poblaciones Por eso vamos aincluir en la Seccioacuten 5 de este tutorial (paacuteg 22) la discusioacuten de esas funciones Advertencia el lectorque no haya practicado el uso de dataframes en los tutoriales anteriores tendraacute algunos problemaspara entender el coacutedigo que se usa con esa funciones En cualquier caso recuerda que usando uneditor de texto (como el Bloc de Notas) y una hoja de caacutelculo como Calc) puedes manipular losficheros y en la mayoriacutea de los casos extraer asiacute la informacioacuten necesaria

21 El caso de datos emparejados

El caso de datos emparejados se describe en la Seccioacuten 922 del libro (paacuteg 314) En este apartadosoacutelo queremos destacar que como hemos dicho alliacute no hay nada nuevo en realidad en esa situacioacutenporque en realidad se trata de un contraste en una uacutenica poblacioacuten como los que hemos aprendidoa realizar en el Capiacutetulo 7 y en el tutorial que lo acompantildea Para evidenciar esto vamos a realizarlos caacutelculos necesarios para el Ejemplo 923 del libro y usaremos una plantilla del Tutorial07Concretamente la plantilla titulada

Tut07-Contraste-Media-UsandoT-DatosEnBrutoR

en la que uacutenicamente es necesario hacer una pequentildea modificacioacuten para acomodar el hecho de queahora tenemos datos antes y despueacutes del tratamiento El coacutedigo de esa plantilla con los datosnecesarios aparece a continuacioacuten Fiacutejate en que hemos antildeadido dos liacuteneas al bloque inicial paradefinir los vectores antes y despues y que los hemos usado para obtener los valores del vector Ydel libro mediante

(muestra = despues - antes)

En particular ten en cuenta que lo que en libro se denomina Y en el coacutedigo seraacute xbar El restode las adaptaciones del coacutedigo deberiacutean resultar evidentes Revisa el coacutedigo cotejando los valoresque se obtienen con los que aparecen en el libro

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-07

6

Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos

CASO sigma desconocida muestra pequentildea nlt30

rm(list = ls())

antes = c(180 248 233 328 124 249 244 254 259 390)despues = c(331 233 265 216 162 315 214 401 242 291)

Una posibilidad es que tengas la muestra como un vector

(muestra = despues - antes)

[1] 151 -015 032 -112 038 066 -030 147 -017 -099

Si lees la muestra de un fichero csv

1 Recuerda seleccionar el directorio de trabajo

2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc

muestra = readtable(file= header= sep= dec=)[ 1]

Valor a contrastar de la media (aparece en la hipotesis nula)

(mu0 = 0)

[1] 0

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0

(TipoContraste = 1)

[1] 1

Nivel de significacion

(nSig = 095)

[1] 095

NO CAMBIES NADA DE AQUIacute PARA ABAJO

7

(alfa = 1 - nSig)

[1] 005

Numero de elementos en la muestra

(n = length(muestra))

[1] 10

Grados de libertad

(k = n - 1)

[1] 9

Media muestral

(xbar = mean(muestra))

[1] 0161

Cuasidesviacion tipica muestral

(s = sd(muestra))

[1] 089691

Calculo del estadistico del contraste

(Estadistico = (xbar - mu0) (ssqrt(n)))

[1] 056764

Funcion para el calculo del p-valor

pValor = function(EstadCon tipoCon)if(tipoCon == 1)

(pV = 1 - pt(EstadCon df=k ))if(tipoCon == 2)

(pV = pt(EstadCon df=k ))if(tipoCon == 3)

pV = 2 (1 - pt(abs(EstadCon) df=k ))return(paste0(El p-Valor es pV collapse=))

Funcion para el calculo del liacutemite de la regioacuten de rechazo

RegionRechazo = function(alfa tipoCon)if(tipoCon == 1)

(regionRech = paste(mayores que qt(1 - alfa df=k)))

8

if(tipoCon == 2)

(regionRech = paste(menores que qt(alfa df=k)))

if(tipoCon == 3)

(regionRech = paste(mas alejados del origen que qt(1 - (alfa2) df=k)))

regionRech = paste0(La region de rechazo la forman los valores del Estadistico

regionRech collapse=)return(regionRech)

Y ahora se aplican ambas funciones para mostrar los resultados

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0292078879999332

paste0(El valor del estadiacutestico es Estadistico collapse = )

[1] El valor del estadiacutestico es 056764281922141

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624

3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor

Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 305) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten

Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador

31 La distribucioacuten F de Fisher

En R

Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad

P (F138 gt 3)

hariacuteamos

1 - pf(3 df1=13 df2=8)

[1] 0062372

o tambieacuten

9

pf(3 df1=13 df2=8 lowertail=FALSE)

[1] 0062372

Y para calcular el valor K tal que

P (F79 lt K) = 0975

hariacuteamos

qf(0975 df1=7 df2=9)

[1] 4197

iexclEs muy importante recordar que no podemos cambiar el orden de los valores de df1y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas

En GeoGebra

Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema

P (1 lt F129 lt 2)

basta con ejecutar

DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]

y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente figura que ilustra ese mismo caacutelculo de la probabi-lidad

Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 35

10

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modificaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

iexclTen en cuenta que la probabilidad se ha traducido en percentiles

Y finalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de confianza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de confianza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 582) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 43)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacuteficapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el fichero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de significacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten afirmar que las varianzas sean iguales

Y un intervalo de confianza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de confianza es usando la plantillaque aparece al final de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconfianza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31s2 = 45

los tamantildeos de las muestrasn1 = 59n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para confirmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasRTut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 321 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica confirmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Media muestral(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten deWelch

17

Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera figura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta figura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modificarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 299) En particular eso significa que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las figuras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de confianza para la diferencia de medias con R

Vamos a calcular intervalos de confianza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos ficherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10n2 = 10 Medias muestralesbarX1 = 942barX2 = 977 Cuasidesviaciones tipicas muestraless1 = 2098s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12n2 = 12 Medias muestralesbarX1 = 1914barX2 = 2344 Cuasidesviaciones tipicas muestraless1 = 04216s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

para hacer la misma cuenta directamente

3 En Wolfram Alpha puedes teclear two proportion confidence interval para llegar a unainterfaz web en la que hacer este tipo de caacutelculos

2 Diferencia de medias en dos poblaciones muestras gran-des

Para ilustrar este tipo de situaciones vamos a usar un ejemplo relacionado con el que abriacutea elCapiacutetulo 7 del libro

Los dos laboratorios han seguido trabajando y ahora tenemos dos tratamientos de segunda gene-racioacuten para aliviar la depresioacuten en los canguros el Saltaplus Extraforte y el Pildoriacuten con GinsengPara establecer cuaacutel de los dos tratamientos es superior los hemos usado para tratar a los cangu-ros deprimidos de dos muestras independientes midiendo la altura media de sus saltos en metrosLlamando micro1 a la altura media (en metros) de los canguros tratados con Saltaplus y micro2 a la alturamedia de los tratados con Pildoriacuten queremos contrastar la hipoacutetesis (alternativa)

Ha = micro1 lt micro2

que sostiene que la nueva versioacuten de Pildoriacuten es mejor que el Saltaplus renovado Los datos mues-trales son estos (la muestra 1 corresponde a Saltaplus la 2 a Pildoriacuten)

n1 = 245

X1 = 273

s1 = 04

n2 = 252

X2 = 281

s2 = 03

Como las dos muestras son grandes para hacer este contraste podemos usar la plantilla

Incluimos los datos del problema en las primeras liacuteneas de este fichero como se muestra aquiacuteFiacutejate en que hemos usado descomentaacutendolas las liacuteneas de s1 y s2

PRIMERA MUESTRA Numero de elementos

(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 252)

[1] 252

4

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Los resultados de la ejecucioacuten del fichero son (de nuevo excluimos la regioacuten de rechazo)

pValor(Estadistico TipoContraste)

[1] El p-Valor es 000591772613290591

Estadistico

[1] -2517

Con ese p-valor rechazariacuteamos la hipoacutetesis nula de forma que no hay base experimental para creerque los canguros tratados con Saltaplus saltan maacutes que los tratados con Pildoriacuten

Vamos a aprovechar este ejemplo para explorar otras herramientas con las que puedes hacer estetipo de contrastes y los intervalos de confianza asociados

Ejercicio 2

1 Usa el fichero plantilla de R

de la la Tabla 1 (paacuteg 43) para obtener un intervalo de confianza al 95 para la diferenciamicro1 minus micro2

2 Haz lo mismo con la Calculadora de Probabilidades de GeoGebra En este caso debes usarZ estimada diferencia de medias Tambieacuten puedes hacerlo directamente con el comando

IntervaloMediasZ[ ltMedia (muestra 1)gt ltσ1gt ltTamantildeo (muestra 1)gt ltMedia (muestra 2)gtltσ2gt ltTamantildeo (muestra 2)gt ltNivelgt ]

3 Volviendo al contraste de hipoacutetesis en Wolfram Alpha puedes teclear hypothesis test forthe difference between two means para llegar a una interfaz web con la que hacer con-trastes de diferencias de medias usando Z Si usas confidence interval for the differencebetween two means podraacutes calcular intervalos de confianza para micro1 minus micro2 usando Z

4 Usa cualquiera de estos meacutetodos (auacuten mejor varios de ellos) para comprobar las cuentas delEjemplo 921 del libro (paacuteg 307) A pesar de que en ese ejemplo disponemos de los datos setrata de que uses los valores n1 n2 X1 X2 s1 s2 que aparecen en el texto del ejemplo Maacutesadelante en el tutorial volveremos sobre el caacutelculo a partir de los datos en bruto

Soluciones en la paacutegina 29

5

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

iquestY el caso de datos en bruto Advertencia sobre dataframes

No hemos incluido ficheros plantilla para el caso de datos en bruto iquestPor queacute Bueno una posi-bilidad seriacutea cargar los datos de cada una de las muestras desde un fichero csv uno para cadamuestra Pero eso resultariacutea muy forzado y artificioso La praacutectica habitual (y recomendable) enestadiacutestica es usar para esto un uacutenico fichero con dos columnas Cada fila de ese fichero correspondea una observacioacuten Una de las columnas contiene los valores de la variable X La otra es un factorF con dos niveles que identifica a cuaacutel de las poblaciones pertenece esa observacioacuten Por ejemploel comienzo del fichero podriacutea tener un aspecto similar al de esta tabla

X F735 A823 A775 B

La primera columna contiene los valores de X mientras que la segunda permite conocer a cuaacutelde las dos poblaciones pertenece ese valor (en este ejemplo identificadas respectivamente por losniveles A y B del factor F ) La estructura de datos natural para trabajar con este tipo de ficherosen R es el data frame del que hemos hablado por primera vez en el Tutorial04 Y para gestionarde forma adecuada un dataframe que contenga un fichero como el que estamos describiendo espreciso usar factores de R de los que hemos hablado en la Seccioacuten 4 del Tutorial08 (paacuteg 15) Porotra parte en el Capiacutetulo 11 al hablar del Anova unifactorial nos vamos a encontrar con unageneralizacioacuten natural de los problemas que estamos tratando en este capiacutetulo Asiacute que podemosposponer parte de la discusioacuten sobre la mejor forma de gestionar esos datos hasta ese capiacutetulo Perono es menos cierto que R incluye algunas funciones interesantes para trabajar con datos en brutoespeciacuteficamente dedicadas a los problemas de este capiacutetulo los de dos poblaciones Por eso vamos aincluir en la Seccioacuten 5 de este tutorial (paacuteg 22) la discusioacuten de esas funciones Advertencia el lectorque no haya practicado el uso de dataframes en los tutoriales anteriores tendraacute algunos problemaspara entender el coacutedigo que se usa con esa funciones En cualquier caso recuerda que usando uneditor de texto (como el Bloc de Notas) y una hoja de caacutelculo como Calc) puedes manipular losficheros y en la mayoriacutea de los casos extraer asiacute la informacioacuten necesaria

21 El caso de datos emparejados

El caso de datos emparejados se describe en la Seccioacuten 922 del libro (paacuteg 314) En este apartadosoacutelo queremos destacar que como hemos dicho alliacute no hay nada nuevo en realidad en esa situacioacutenporque en realidad se trata de un contraste en una uacutenica poblacioacuten como los que hemos aprendidoa realizar en el Capiacutetulo 7 y en el tutorial que lo acompantildea Para evidenciar esto vamos a realizarlos caacutelculos necesarios para el Ejemplo 923 del libro y usaremos una plantilla del Tutorial07Concretamente la plantilla titulada

Tut07-Contraste-Media-UsandoT-DatosEnBrutoR

en la que uacutenicamente es necesario hacer una pequentildea modificacioacuten para acomodar el hecho de queahora tenemos datos antes y despueacutes del tratamiento El coacutedigo de esa plantilla con los datosnecesarios aparece a continuacioacuten Fiacutejate en que hemos antildeadido dos liacuteneas al bloque inicial paradefinir los vectores antes y despues y que los hemos usado para obtener los valores del vector Ydel libro mediante

(muestra = despues - antes)

En particular ten en cuenta que lo que en libro se denomina Y en el coacutedigo seraacute xbar El restode las adaptaciones del coacutedigo deberiacutean resultar evidentes Revisa el coacutedigo cotejando los valoresque se obtienen con los que aparecen en el libro

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-07

6

Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos

CASO sigma desconocida muestra pequentildea nlt30

rm(list = ls())

antes = c(180 248 233 328 124 249 244 254 259 390)despues = c(331 233 265 216 162 315 214 401 242 291)

Una posibilidad es que tengas la muestra como un vector

(muestra = despues - antes)

[1] 151 -015 032 -112 038 066 -030 147 -017 -099

Si lees la muestra de un fichero csv

1 Recuerda seleccionar el directorio de trabajo

2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc

muestra = readtable(file= header= sep= dec=)[ 1]

Valor a contrastar de la media (aparece en la hipotesis nula)

(mu0 = 0)

[1] 0

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0

(TipoContraste = 1)

[1] 1

Nivel de significacion

(nSig = 095)

[1] 095

NO CAMBIES NADA DE AQUIacute PARA ABAJO

7

(alfa = 1 - nSig)

[1] 005

Numero de elementos en la muestra

(n = length(muestra))

[1] 10

Grados de libertad

(k = n - 1)

[1] 9

Media muestral

(xbar = mean(muestra))

[1] 0161

Cuasidesviacion tipica muestral

(s = sd(muestra))

[1] 089691

Calculo del estadistico del contraste

(Estadistico = (xbar - mu0) (ssqrt(n)))

[1] 056764

Funcion para el calculo del p-valor

pValor = function(EstadCon tipoCon)if(tipoCon == 1)

(pV = 1 - pt(EstadCon df=k ))if(tipoCon == 2)

(pV = pt(EstadCon df=k ))if(tipoCon == 3)

pV = 2 (1 - pt(abs(EstadCon) df=k ))return(paste0(El p-Valor es pV collapse=))

Funcion para el calculo del liacutemite de la regioacuten de rechazo

RegionRechazo = function(alfa tipoCon)if(tipoCon == 1)

(regionRech = paste(mayores que qt(1 - alfa df=k)))

8

if(tipoCon == 2)

(regionRech = paste(menores que qt(alfa df=k)))

if(tipoCon == 3)

(regionRech = paste(mas alejados del origen que qt(1 - (alfa2) df=k)))

regionRech = paste0(La region de rechazo la forman los valores del Estadistico

regionRech collapse=)return(regionRech)

Y ahora se aplican ambas funciones para mostrar los resultados

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0292078879999332

paste0(El valor del estadiacutestico es Estadistico collapse = )

[1] El valor del estadiacutestico es 056764281922141

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624

3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor

Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 305) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten

Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador

31 La distribucioacuten F de Fisher

En R

Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad

P (F138 gt 3)

hariacuteamos

1 - pf(3 df1=13 df2=8)

[1] 0062372

o tambieacuten

9

pf(3 df1=13 df2=8 lowertail=FALSE)

[1] 0062372

Y para calcular el valor K tal que

P (F79 lt K) = 0975

hariacuteamos

qf(0975 df1=7 df2=9)

[1] 4197

iexclEs muy importante recordar que no podemos cambiar el orden de los valores de df1y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas

En GeoGebra

Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema

P (1 lt F129 lt 2)

basta con ejecutar

DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]

y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente figura que ilustra ese mismo caacutelculo de la probabi-lidad

Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 35

10

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modificaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

iexclTen en cuenta que la probabilidad se ha traducido en percentiles

Y finalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de confianza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de confianza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 582) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 43)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacuteficapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el fichero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de significacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten afirmar que las varianzas sean iguales

Y un intervalo de confianza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de confianza es usando la plantillaque aparece al final de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconfianza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31s2 = 45

los tamantildeos de las muestrasn1 = 59n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para confirmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasRTut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 321 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica confirmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Media muestral(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten deWelch

17

Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera figura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta figura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modificarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 299) En particular eso significa que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las figuras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de confianza para la diferencia de medias con R

Vamos a calcular intervalos de confianza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos ficherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10n2 = 10 Medias muestralesbarX1 = 942barX2 = 977 Cuasidesviaciones tipicas muestraless1 = 2098s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12n2 = 12 Medias muestralesbarX1 = 1914barX2 = 2344 Cuasidesviaciones tipicas muestraless1 = 04216s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

Los resultados de la ejecucioacuten del fichero son (de nuevo excluimos la regioacuten de rechazo)

pValor(Estadistico TipoContraste)

[1] El p-Valor es 000591772613290591

Estadistico

[1] -2517

Con ese p-valor rechazariacuteamos la hipoacutetesis nula de forma que no hay base experimental para creerque los canguros tratados con Saltaplus saltan maacutes que los tratados con Pildoriacuten

Vamos a aprovechar este ejemplo para explorar otras herramientas con las que puedes hacer estetipo de contrastes y los intervalos de confianza asociados

Ejercicio 2

1 Usa el fichero plantilla de R

de la la Tabla 1 (paacuteg 43) para obtener un intervalo de confianza al 95 para la diferenciamicro1 minus micro2

2 Haz lo mismo con la Calculadora de Probabilidades de GeoGebra En este caso debes usarZ estimada diferencia de medias Tambieacuten puedes hacerlo directamente con el comando

IntervaloMediasZ[ ltMedia (muestra 1)gt ltσ1gt ltTamantildeo (muestra 1)gt ltMedia (muestra 2)gtltσ2gt ltTamantildeo (muestra 2)gt ltNivelgt ]

3 Volviendo al contraste de hipoacutetesis en Wolfram Alpha puedes teclear hypothesis test forthe difference between two means para llegar a una interfaz web con la que hacer con-trastes de diferencias de medias usando Z Si usas confidence interval for the differencebetween two means podraacutes calcular intervalos de confianza para micro1 minus micro2 usando Z

4 Usa cualquiera de estos meacutetodos (auacuten mejor varios de ellos) para comprobar las cuentas delEjemplo 921 del libro (paacuteg 307) A pesar de que en ese ejemplo disponemos de los datos setrata de que uses los valores n1 n2 X1 X2 s1 s2 que aparecen en el texto del ejemplo Maacutesadelante en el tutorial volveremos sobre el caacutelculo a partir de los datos en bruto

Soluciones en la paacutegina 29

5

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

iquestY el caso de datos en bruto Advertencia sobre dataframes

No hemos incluido ficheros plantilla para el caso de datos en bruto iquestPor queacute Bueno una posi-bilidad seriacutea cargar los datos de cada una de las muestras desde un fichero csv uno para cadamuestra Pero eso resultariacutea muy forzado y artificioso La praacutectica habitual (y recomendable) enestadiacutestica es usar para esto un uacutenico fichero con dos columnas Cada fila de ese fichero correspondea una observacioacuten Una de las columnas contiene los valores de la variable X La otra es un factorF con dos niveles que identifica a cuaacutel de las poblaciones pertenece esa observacioacuten Por ejemploel comienzo del fichero podriacutea tener un aspecto similar al de esta tabla

X F735 A823 A775 B

La primera columna contiene los valores de X mientras que la segunda permite conocer a cuaacutelde las dos poblaciones pertenece ese valor (en este ejemplo identificadas respectivamente por losniveles A y B del factor F ) La estructura de datos natural para trabajar con este tipo de ficherosen R es el data frame del que hemos hablado por primera vez en el Tutorial04 Y para gestionarde forma adecuada un dataframe que contenga un fichero como el que estamos describiendo espreciso usar factores de R de los que hemos hablado en la Seccioacuten 4 del Tutorial08 (paacuteg 15) Porotra parte en el Capiacutetulo 11 al hablar del Anova unifactorial nos vamos a encontrar con unageneralizacioacuten natural de los problemas que estamos tratando en este capiacutetulo Asiacute que podemosposponer parte de la discusioacuten sobre la mejor forma de gestionar esos datos hasta ese capiacutetulo Perono es menos cierto que R incluye algunas funciones interesantes para trabajar con datos en brutoespeciacuteficamente dedicadas a los problemas de este capiacutetulo los de dos poblaciones Por eso vamos aincluir en la Seccioacuten 5 de este tutorial (paacuteg 22) la discusioacuten de esas funciones Advertencia el lectorque no haya practicado el uso de dataframes en los tutoriales anteriores tendraacute algunos problemaspara entender el coacutedigo que se usa con esa funciones En cualquier caso recuerda que usando uneditor de texto (como el Bloc de Notas) y una hoja de caacutelculo como Calc) puedes manipular losficheros y en la mayoriacutea de los casos extraer asiacute la informacioacuten necesaria

21 El caso de datos emparejados

El caso de datos emparejados se describe en la Seccioacuten 922 del libro (paacuteg 314) En este apartadosoacutelo queremos destacar que como hemos dicho alliacute no hay nada nuevo en realidad en esa situacioacutenporque en realidad se trata de un contraste en una uacutenica poblacioacuten como los que hemos aprendidoa realizar en el Capiacutetulo 7 y en el tutorial que lo acompantildea Para evidenciar esto vamos a realizarlos caacutelculos necesarios para el Ejemplo 923 del libro y usaremos una plantilla del Tutorial07Concretamente la plantilla titulada

Tut07-Contraste-Media-UsandoT-DatosEnBrutoR

en la que uacutenicamente es necesario hacer una pequentildea modificacioacuten para acomodar el hecho de queahora tenemos datos antes y despueacutes del tratamiento El coacutedigo de esa plantilla con los datosnecesarios aparece a continuacioacuten Fiacutejate en que hemos antildeadido dos liacuteneas al bloque inicial paradefinir los vectores antes y despues y que los hemos usado para obtener los valores del vector Ydel libro mediante

(muestra = despues - antes)

En particular ten en cuenta que lo que en libro se denomina Y en el coacutedigo seraacute xbar El restode las adaptaciones del coacutedigo deberiacutean resultar evidentes Revisa el coacutedigo cotejando los valoresque se obtienen con los que aparecen en el libro

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-07

6

Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos

CASO sigma desconocida muestra pequentildea nlt30

rm(list = ls())

antes = c(180 248 233 328 124 249 244 254 259 390)despues = c(331 233 265 216 162 315 214 401 242 291)

Una posibilidad es que tengas la muestra como un vector

(muestra = despues - antes)

[1] 151 -015 032 -112 038 066 -030 147 -017 -099

Si lees la muestra de un fichero csv

1 Recuerda seleccionar el directorio de trabajo

2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc

muestra = readtable(file= header= sep= dec=)[ 1]

Valor a contrastar de la media (aparece en la hipotesis nula)

(mu0 = 0)

[1] 0

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0

(TipoContraste = 1)

[1] 1

Nivel de significacion

(nSig = 095)

[1] 095

NO CAMBIES NADA DE AQUIacute PARA ABAJO

7

(alfa = 1 - nSig)

[1] 005

Numero de elementos en la muestra

(n = length(muestra))

[1] 10

Grados de libertad

(k = n - 1)

[1] 9

Media muestral

(xbar = mean(muestra))

[1] 0161

Cuasidesviacion tipica muestral

(s = sd(muestra))

[1] 089691

Calculo del estadistico del contraste

(Estadistico = (xbar - mu0) (ssqrt(n)))

[1] 056764

Funcion para el calculo del p-valor

pValor = function(EstadCon tipoCon)if(tipoCon == 1)

(pV = 1 - pt(EstadCon df=k ))if(tipoCon == 2)

(pV = pt(EstadCon df=k ))if(tipoCon == 3)

pV = 2 (1 - pt(abs(EstadCon) df=k ))return(paste0(El p-Valor es pV collapse=))

Funcion para el calculo del liacutemite de la regioacuten de rechazo

RegionRechazo = function(alfa tipoCon)if(tipoCon == 1)

(regionRech = paste(mayores que qt(1 - alfa df=k)))

8

if(tipoCon == 2)

(regionRech = paste(menores que qt(alfa df=k)))

if(tipoCon == 3)

(regionRech = paste(mas alejados del origen que qt(1 - (alfa2) df=k)))

regionRech = paste0(La region de rechazo la forman los valores del Estadistico

regionRech collapse=)return(regionRech)

Y ahora se aplican ambas funciones para mostrar los resultados

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0292078879999332

paste0(El valor del estadiacutestico es Estadistico collapse = )

[1] El valor del estadiacutestico es 056764281922141

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624

3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor

Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 305) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten

Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador

31 La distribucioacuten F de Fisher

En R

Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad

P (F138 gt 3)

hariacuteamos

1 - pf(3 df1=13 df2=8)

[1] 0062372

o tambieacuten

9

pf(3 df1=13 df2=8 lowertail=FALSE)

[1] 0062372

Y para calcular el valor K tal que

P (F79 lt K) = 0975

hariacuteamos

qf(0975 df1=7 df2=9)

[1] 4197

iexclEs muy importante recordar que no podemos cambiar el orden de los valores de df1y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas

En GeoGebra

Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema

P (1 lt F129 lt 2)

basta con ejecutar

DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]

y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente figura que ilustra ese mismo caacutelculo de la probabi-lidad

Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 35

10

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modificaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

iexclTen en cuenta que la probabilidad se ha traducido en percentiles

Y finalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de confianza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de confianza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 582) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 43)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacuteficapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el fichero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de significacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten afirmar que las varianzas sean iguales

Y un intervalo de confianza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de confianza es usando la plantillaque aparece al final de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconfianza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31s2 = 45

los tamantildeos de las muestrasn1 = 59n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para confirmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasRTut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 321 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica confirmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Media muestral(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten deWelch

17

Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera figura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta figura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modificarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 299) En particular eso significa que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las figuras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de confianza para la diferencia de medias con R

Vamos a calcular intervalos de confianza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos ficherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10n2 = 10 Medias muestralesbarX1 = 942barX2 = 977 Cuasidesviaciones tipicas muestraless1 = 2098s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12n2 = 12 Medias muestralesbarX1 = 1914barX2 = 2344 Cuasidesviaciones tipicas muestraless1 = 04216s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

iquestY el caso de datos en bruto Advertencia sobre dataframes

No hemos incluido ficheros plantilla para el caso de datos en bruto iquestPor queacute Bueno una posi-bilidad seriacutea cargar los datos de cada una de las muestras desde un fichero csv uno para cadamuestra Pero eso resultariacutea muy forzado y artificioso La praacutectica habitual (y recomendable) enestadiacutestica es usar para esto un uacutenico fichero con dos columnas Cada fila de ese fichero correspondea una observacioacuten Una de las columnas contiene los valores de la variable X La otra es un factorF con dos niveles que identifica a cuaacutel de las poblaciones pertenece esa observacioacuten Por ejemploel comienzo del fichero podriacutea tener un aspecto similar al de esta tabla

X F735 A823 A775 B

La primera columna contiene los valores de X mientras que la segunda permite conocer a cuaacutelde las dos poblaciones pertenece ese valor (en este ejemplo identificadas respectivamente por losniveles A y B del factor F ) La estructura de datos natural para trabajar con este tipo de ficherosen R es el data frame del que hemos hablado por primera vez en el Tutorial04 Y para gestionarde forma adecuada un dataframe que contenga un fichero como el que estamos describiendo espreciso usar factores de R de los que hemos hablado en la Seccioacuten 4 del Tutorial08 (paacuteg 15) Porotra parte en el Capiacutetulo 11 al hablar del Anova unifactorial nos vamos a encontrar con unageneralizacioacuten natural de los problemas que estamos tratando en este capiacutetulo Asiacute que podemosposponer parte de la discusioacuten sobre la mejor forma de gestionar esos datos hasta ese capiacutetulo Perono es menos cierto que R incluye algunas funciones interesantes para trabajar con datos en brutoespeciacuteficamente dedicadas a los problemas de este capiacutetulo los de dos poblaciones Por eso vamos aincluir en la Seccioacuten 5 de este tutorial (paacuteg 22) la discusioacuten de esas funciones Advertencia el lectorque no haya practicado el uso de dataframes en los tutoriales anteriores tendraacute algunos problemaspara entender el coacutedigo que se usa con esa funciones En cualquier caso recuerda que usando uneditor de texto (como el Bloc de Notas) y una hoja de caacutelculo como Calc) puedes manipular losficheros y en la mayoriacutea de los casos extraer asiacute la informacioacuten necesaria

21 El caso de datos emparejados

El caso de datos emparejados se describe en la Seccioacuten 922 del libro (paacuteg 314) En este apartadosoacutelo queremos destacar que como hemos dicho alliacute no hay nada nuevo en realidad en esa situacioacutenporque en realidad se trata de un contraste en una uacutenica poblacioacuten como los que hemos aprendidoa realizar en el Capiacutetulo 7 y en el tutorial que lo acompantildea Para evidenciar esto vamos a realizarlos caacutelculos necesarios para el Ejemplo 923 del libro y usaremos una plantilla del Tutorial07Concretamente la plantilla titulada

Tut07-Contraste-Media-UsandoT-DatosEnBrutoR

en la que uacutenicamente es necesario hacer una pequentildea modificacioacuten para acomodar el hecho de queahora tenemos datos antes y despueacutes del tratamiento El coacutedigo de esa plantilla con los datosnecesarios aparece a continuacioacuten Fiacutejate en que hemos antildeadido dos liacuteneas al bloque inicial paradefinir los vectores antes y despues y que los hemos usado para obtener los valores del vector Ydel libro mediante

(muestra = despues - antes)

En particular ten en cuenta que lo que en libro se denomina Y en el coacutedigo seraacute xbar El restode las adaptaciones del coacutedigo deberiacutean resultar evidentes Revisa el coacutedigo cotejando los valoresque se obtienen con los que aparecen en el libro

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-07

6

Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos

CASO sigma desconocida muestra pequentildea nlt30

rm(list = ls())

antes = c(180 248 233 328 124 249 244 254 259 390)despues = c(331 233 265 216 162 315 214 401 242 291)

Una posibilidad es que tengas la muestra como un vector

(muestra = despues - antes)

[1] 151 -015 032 -112 038 066 -030 147 -017 -099

Si lees la muestra de un fichero csv

1 Recuerda seleccionar el directorio de trabajo

2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc

muestra = readtable(file= header= sep= dec=)[ 1]

Valor a contrastar de la media (aparece en la hipotesis nula)

(mu0 = 0)

[1] 0

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0

(TipoContraste = 1)

[1] 1

Nivel de significacion

(nSig = 095)

[1] 095

NO CAMBIES NADA DE AQUIacute PARA ABAJO

7

(alfa = 1 - nSig)

[1] 005

Numero de elementos en la muestra

(n = length(muestra))

[1] 10

Grados de libertad

(k = n - 1)

[1] 9

Media muestral

(xbar = mean(muestra))

[1] 0161

Cuasidesviacion tipica muestral

(s = sd(muestra))

[1] 089691

Calculo del estadistico del contraste

(Estadistico = (xbar - mu0) (ssqrt(n)))

[1] 056764

Funcion para el calculo del p-valor

pValor = function(EstadCon tipoCon)if(tipoCon == 1)

(pV = 1 - pt(EstadCon df=k ))if(tipoCon == 2)

(pV = pt(EstadCon df=k ))if(tipoCon == 3)

pV = 2 (1 - pt(abs(EstadCon) df=k ))return(paste0(El p-Valor es pV collapse=))

Funcion para el calculo del liacutemite de la regioacuten de rechazo

RegionRechazo = function(alfa tipoCon)if(tipoCon == 1)

(regionRech = paste(mayores que qt(1 - alfa df=k)))

8

if(tipoCon == 2)

(regionRech = paste(menores que qt(alfa df=k)))

if(tipoCon == 3)

(regionRech = paste(mas alejados del origen que qt(1 - (alfa2) df=k)))

regionRech = paste0(La region de rechazo la forman los valores del Estadistico

regionRech collapse=)return(regionRech)

Y ahora se aplican ambas funciones para mostrar los resultados

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0292078879999332

paste0(El valor del estadiacutestico es Estadistico collapse = )

[1] El valor del estadiacutestico es 056764281922141

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624

3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor

Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 305) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten

Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador

31 La distribucioacuten F de Fisher

En R

Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad

P (F138 gt 3)

hariacuteamos

1 - pf(3 df1=13 df2=8)

[1] 0062372

o tambieacuten

9

pf(3 df1=13 df2=8 lowertail=FALSE)

[1] 0062372

Y para calcular el valor K tal que

P (F79 lt K) = 0975

hariacuteamos

qf(0975 df1=7 df2=9)

[1] 4197

iexclEs muy importante recordar que no podemos cambiar el orden de los valores de df1y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas

En GeoGebra

Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema

P (1 lt F129 lt 2)

basta con ejecutar

DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]

y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente figura que ilustra ese mismo caacutelculo de la probabi-lidad

Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 35

10

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modificaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

iexclTen en cuenta que la probabilidad se ha traducido en percentiles

Y finalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de confianza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de confianza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 582) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 43)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacuteficapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el fichero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de significacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten afirmar que las varianzas sean iguales

Y un intervalo de confianza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de confianza es usando la plantillaque aparece al final de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconfianza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31s2 = 45

los tamantildeos de las muestrasn1 = 59n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para confirmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasRTut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 321 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica confirmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Media muestral(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten deWelch

17

Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera figura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta figura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modificarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 299) En particular eso significa que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las figuras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de confianza para la diferencia de medias con R

Vamos a calcular intervalos de confianza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos ficherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10n2 = 10 Medias muestralesbarX1 = 942barX2 = 977 Cuasidesviaciones tipicas muestraless1 = 2098s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12n2 = 12 Medias muestralesbarX1 = 1914barX2 = 2344 Cuasidesviaciones tipicas muestraless1 = 04216s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos

CASO sigma desconocida muestra pequentildea nlt30

rm(list = ls())

antes = c(180 248 233 328 124 249 244 254 259 390)despues = c(331 233 265 216 162 315 214 401 242 291)

Una posibilidad es que tengas la muestra como un vector

(muestra = despues - antes)

[1] 151 -015 032 -112 038 066 -030 147 -017 -099

Si lees la muestra de un fichero csv

1 Recuerda seleccionar el directorio de trabajo

2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc

muestra = readtable(file= header= sep= dec=)[ 1]

Valor a contrastar de la media (aparece en la hipotesis nula)

(mu0 = 0)

[1] 0

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0

(TipoContraste = 1)

[1] 1

Nivel de significacion

(nSig = 095)

[1] 095

NO CAMBIES NADA DE AQUIacute PARA ABAJO

7

(alfa = 1 - nSig)

[1] 005

Numero de elementos en la muestra

(n = length(muestra))

[1] 10

Grados de libertad

(k = n - 1)

[1] 9

Media muestral

(xbar = mean(muestra))

[1] 0161

Cuasidesviacion tipica muestral

(s = sd(muestra))

[1] 089691

Calculo del estadistico del contraste

(Estadistico = (xbar - mu0) (ssqrt(n)))

[1] 056764

Funcion para el calculo del p-valor

pValor = function(EstadCon tipoCon)if(tipoCon == 1)

(pV = 1 - pt(EstadCon df=k ))if(tipoCon == 2)

(pV = pt(EstadCon df=k ))if(tipoCon == 3)

pV = 2 (1 - pt(abs(EstadCon) df=k ))return(paste0(El p-Valor es pV collapse=))

Funcion para el calculo del liacutemite de la regioacuten de rechazo

RegionRechazo = function(alfa tipoCon)if(tipoCon == 1)

(regionRech = paste(mayores que qt(1 - alfa df=k)))

8

if(tipoCon == 2)

(regionRech = paste(menores que qt(alfa df=k)))

if(tipoCon == 3)

(regionRech = paste(mas alejados del origen que qt(1 - (alfa2) df=k)))

regionRech = paste0(La region de rechazo la forman los valores del Estadistico

regionRech collapse=)return(regionRech)

Y ahora se aplican ambas funciones para mostrar los resultados

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0292078879999332

paste0(El valor del estadiacutestico es Estadistico collapse = )

[1] El valor del estadiacutestico es 056764281922141

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624

3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor

Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 305) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten

Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador

31 La distribucioacuten F de Fisher

En R

Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad

P (F138 gt 3)

hariacuteamos

1 - pf(3 df1=13 df2=8)

[1] 0062372

o tambieacuten

9

pf(3 df1=13 df2=8 lowertail=FALSE)

[1] 0062372

Y para calcular el valor K tal que

P (F79 lt K) = 0975

hariacuteamos

qf(0975 df1=7 df2=9)

[1] 4197

iexclEs muy importante recordar que no podemos cambiar el orden de los valores de df1y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas

En GeoGebra

Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema

P (1 lt F129 lt 2)

basta con ejecutar

DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]

y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente figura que ilustra ese mismo caacutelculo de la probabi-lidad

Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 35

10

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modificaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

iexclTen en cuenta que la probabilidad se ha traducido en percentiles

Y finalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de confianza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de confianza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 582) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 43)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacuteficapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el fichero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de significacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten afirmar que las varianzas sean iguales

Y un intervalo de confianza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de confianza es usando la plantillaque aparece al final de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconfianza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31s2 = 45

los tamantildeos de las muestrasn1 = 59n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para confirmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasRTut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 321 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica confirmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Media muestral(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten deWelch

17

Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera figura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta figura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modificarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 299) En particular eso significa que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las figuras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de confianza para la diferencia de medias con R

Vamos a calcular intervalos de confianza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos ficherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10n2 = 10 Medias muestralesbarX1 = 942barX2 = 977 Cuasidesviaciones tipicas muestraless1 = 2098s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12n2 = 12 Medias muestralesbarX1 = 1914barX2 = 2344 Cuasidesviaciones tipicas muestraless1 = 04216s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

(alfa = 1 - nSig)

[1] 005

Numero de elementos en la muestra

(n = length(muestra))

[1] 10

Grados de libertad

(k = n - 1)

[1] 9

Media muestral

(xbar = mean(muestra))

[1] 0161

Cuasidesviacion tipica muestral

(s = sd(muestra))

[1] 089691

Calculo del estadistico del contraste

(Estadistico = (xbar - mu0) (ssqrt(n)))

[1] 056764

Funcion para el calculo del p-valor

pValor = function(EstadCon tipoCon)if(tipoCon == 1)

(pV = 1 - pt(EstadCon df=k ))if(tipoCon == 2)

(pV = pt(EstadCon df=k ))if(tipoCon == 3)

pV = 2 (1 - pt(abs(EstadCon) df=k ))return(paste0(El p-Valor es pV collapse=))

Funcion para el calculo del liacutemite de la regioacuten de rechazo

RegionRechazo = function(alfa tipoCon)if(tipoCon == 1)

(regionRech = paste(mayores que qt(1 - alfa df=k)))

8

if(tipoCon == 2)

(regionRech = paste(menores que qt(alfa df=k)))

if(tipoCon == 3)

(regionRech = paste(mas alejados del origen que qt(1 - (alfa2) df=k)))

regionRech = paste0(La region de rechazo la forman los valores del Estadistico

regionRech collapse=)return(regionRech)

Y ahora se aplican ambas funciones para mostrar los resultados

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0292078879999332

paste0(El valor del estadiacutestico es Estadistico collapse = )

[1] El valor del estadiacutestico es 056764281922141

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624

3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor

Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 305) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten

Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador

31 La distribucioacuten F de Fisher

En R

Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad

P (F138 gt 3)

hariacuteamos

1 - pf(3 df1=13 df2=8)

[1] 0062372

o tambieacuten

9

pf(3 df1=13 df2=8 lowertail=FALSE)

[1] 0062372

Y para calcular el valor K tal que

P (F79 lt K) = 0975

hariacuteamos

qf(0975 df1=7 df2=9)

[1] 4197

iexclEs muy importante recordar que no podemos cambiar el orden de los valores de df1y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas

En GeoGebra

Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema

P (1 lt F129 lt 2)

basta con ejecutar

DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]

y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente figura que ilustra ese mismo caacutelculo de la probabi-lidad

Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 35

10

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modificaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

iexclTen en cuenta que la probabilidad se ha traducido en percentiles

Y finalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de confianza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de confianza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 582) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 43)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacuteficapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el fichero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de significacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten afirmar que las varianzas sean iguales

Y un intervalo de confianza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de confianza es usando la plantillaque aparece al final de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconfianza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31s2 = 45

los tamantildeos de las muestrasn1 = 59n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para confirmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasRTut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 321 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica confirmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Media muestral(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten deWelch

17

Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera figura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta figura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modificarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 299) En particular eso significa que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las figuras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de confianza para la diferencia de medias con R

Vamos a calcular intervalos de confianza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos ficherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10n2 = 10 Medias muestralesbarX1 = 942barX2 = 977 Cuasidesviaciones tipicas muestraless1 = 2098s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12n2 = 12 Medias muestralesbarX1 = 1914barX2 = 2344 Cuasidesviaciones tipicas muestraless1 = 04216s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

if(tipoCon == 2)

(regionRech = paste(menores que qt(alfa df=k)))

if(tipoCon == 3)

(regionRech = paste(mas alejados del origen que qt(1 - (alfa2) df=k)))

regionRech = paste0(La region de rechazo la forman los valores del Estadistico

regionRech collapse=)return(regionRech)

Y ahora se aplican ambas funciones para mostrar los resultados

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0292078879999332

paste0(El valor del estadiacutestico es Estadistico collapse = )

[1] El valor del estadiacutestico es 056764281922141

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624

3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor

Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 305) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten

Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador

31 La distribucioacuten F de Fisher

En R

Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad

P (F138 gt 3)

hariacuteamos

1 - pf(3 df1=13 df2=8)

[1] 0062372

o tambieacuten

9

pf(3 df1=13 df2=8 lowertail=FALSE)

[1] 0062372

Y para calcular el valor K tal que

P (F79 lt K) = 0975

hariacuteamos

qf(0975 df1=7 df2=9)

[1] 4197

iexclEs muy importante recordar que no podemos cambiar el orden de los valores de df1y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas

En GeoGebra

Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema

P (1 lt F129 lt 2)

basta con ejecutar

DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]

y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente figura que ilustra ese mismo caacutelculo de la probabi-lidad

Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 35

10

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modificaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

iexclTen en cuenta que la probabilidad se ha traducido en percentiles

Y finalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de confianza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de confianza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 582) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 43)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacuteficapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el fichero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de significacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten afirmar que las varianzas sean iguales

Y un intervalo de confianza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de confianza es usando la plantillaque aparece al final de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconfianza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31s2 = 45

los tamantildeos de las muestrasn1 = 59n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para confirmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasRTut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 321 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica confirmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Media muestral(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten deWelch

17

Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera figura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta figura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modificarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 299) En particular eso significa que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las figuras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de confianza para la diferencia de medias con R

Vamos a calcular intervalos de confianza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos ficherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10n2 = 10 Medias muestralesbarX1 = 942barX2 = 977 Cuasidesviaciones tipicas muestraless1 = 2098s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12n2 = 12 Medias muestralesbarX1 = 1914barX2 = 2344 Cuasidesviaciones tipicas muestraless1 = 04216s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

pf(3 df1=13 df2=8 lowertail=FALSE)

[1] 0062372

Y para calcular el valor K tal que

P (F79 lt K) = 0975

hariacuteamos

qf(0975 df1=7 df2=9)

[1] 4197

iexclEs muy importante recordar que no podemos cambiar el orden de los valores de df1y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas

En GeoGebra

Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema

P (1 lt F129 lt 2)

basta con ejecutar

DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]

y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente figura que ilustra ese mismo caacutelculo de la probabi-lidad

Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 35

10

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modificaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

iexclTen en cuenta que la probabilidad se ha traducido en percentiles

Y finalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de confianza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de confianza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 582) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 43)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacuteficapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el fichero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de significacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten afirmar que las varianzas sean iguales

Y un intervalo de confianza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de confianza es usando la plantillaque aparece al final de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconfianza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31s2 = 45

los tamantildeos de las muestrasn1 = 59n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para confirmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasRTut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 321 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica confirmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Media muestral(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten deWelch

17

Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera figura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta figura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modificarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 299) En particular eso significa que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las figuras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de confianza para la diferencia de medias con R

Vamos a calcular intervalos de confianza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos ficherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10n2 = 10 Medias muestralesbarX1 = 942barX2 = 977 Cuasidesviaciones tipicas muestraless1 = 2098s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12n2 = 12 Medias muestralesbarX1 = 1914barX2 = 2344 Cuasidesviaciones tipicas muestraless1 = 04216s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

En Wolfram Alpha y Calc

Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modificaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto

P(X gt 3) for X ~ F(138)

y para un problema inverso por ejemplo para calcular el valor K tal que

P (F1216 lt K) = 0975

usariacuteamos este comando

975th percentile for F(12 16)

iexclTen en cuenta que la probabilidad se ha traducido en percentiles

Y finalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo

32 Contrastes e intervalos de confianza sobre cocientes de varianzas

Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de confianza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es

Ξ =s21s22

y que en la Tabla B4 del libro (paacuteg 582) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste

Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos

A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 43)

Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto

En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacuteficapara este tipo de contrastes

Un ejemplo baacutesico de contrastes de cocientes de varianzas

Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral

Ha = σ21 = σ2

2

Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales

n1 = 59

s1 = 31

n2 = 64

s2 = 45

11

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el fichero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de significacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten afirmar que las varianzas sean iguales

Y un intervalo de confianza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de confianza es usando la plantillaque aparece al final de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconfianza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31s2 = 45

los tamantildeos de las muestrasn1 = 59n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para confirmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasRTut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 321 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica confirmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Media muestral(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten deWelch

17

Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera figura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta figura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modificarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 299) En particular eso significa que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las figuras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de confianza para la diferencia de medias con R

Vamos a calcular intervalos de confianza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos ficherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10n2 = 10 Medias muestralesbarX1 = 942barX2 = 977 Cuasidesviaciones tipicas muestraless1 = 2098s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12n2 = 12 Medias muestralesbarX1 = 1914barX2 = 2344 Cuasidesviaciones tipicas muestraless1 = 04216s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir

PRIMERA MUESTRA Numero de elementos(n1 = 59)

[1] 59

Cuasidesviacion tipica muestral(s1 = 31)

[1] 31

SEGUNDA MUESTRA Numero de elementos(n2 = 64)

[1] 64

Cuasidesviacion tipica muestral(s2 = 45)

[1] 45

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que se obtienen al ejecutar el fichero son

pValor(EstadisticoTipoContraste)

[1] El p-Valor es 000459021398523596

Estadistico

[1] 047457

Asiacute que por ejemplo para un nivel de significacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten afirmar que las varianzas sean iguales

Y un intervalo de confianza

Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de confianza es usando la plantillaque aparece al final de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconfianza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este

12

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31s2 = 45

los tamantildeos de las muestrasn1 = 59n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para confirmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasRTut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 321 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica confirmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Media muestral(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten deWelch

17

Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera figura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta figura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modificarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 299) En particular eso significa que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las figuras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de confianza para la diferencia de medias con R

Vamos a calcular intervalos de confianza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos ficherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10n2 = 10 Medias muestralesbarX1 = 942barX2 = 977 Cuasidesviaciones tipicas muestraless1 = 2098s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12n2 = 12 Medias muestralesbarX1 = 1914barX2 = 2344 Cuasidesviaciones tipicas muestraless1 = 04216s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos

Introducimos los valores de las desviaciones tipicas muestraless1 = 31s2 = 45

los tamantildeos de las muestrasn1 = 59n2 = 64

y el nivel de confianza deseadonc = 095

--- NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos los valor criticos necesarios

(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))

[1] 059935

(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))

[1] 16594

El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))

[1] 028598 079180

Podemos aprovechar este caacutelculo para confirmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95

4 Diferencia de medias en dos poblaciones muestras peque-ntildeas

41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro

Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de

13

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasRTut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 321 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica confirmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Media muestral(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten deWelch

17

Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera figura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta figura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modificarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 299) En particular eso significa que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las figuras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de confianza para la diferencia de medias con R

Vamos a calcular intervalos de confianza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos ficherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10n2 = 10 Medias muestralesbarX1 = 942barX2 = 977 Cuasidesviaciones tipicas muestraless1 = 2098s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12n2 = 12 Medias muestralesbarX1 = 1914barX2 = 2344 Cuasidesviaciones tipicas muestraless1 = 04216s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla

Tut09-Contraste-2Pob-CocienteVarianzasR

para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasRTut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ejemplo 931

Empezamos por este ejemplo que aparece en la paacutegina 321 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 0985618870598065

14

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica confirmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Media muestral(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten deWelch

17

Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera figura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta figura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modificarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 299) En particular eso significa que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las figuras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de confianza para la diferencia de medias con R

Vamos a calcular intervalos de confianza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos ficherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10n2 = 10 Medias muestralesbarX1 = 942barX2 = 977 Cuasidesviaciones tipicas muestraless1 = 2098s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12n2 = 12 Medias muestralesbarX1 = 1914barX2 = 2344 Cuasidesviaciones tipicas muestraless1 = 04216s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Estadistico

[1] 098772

Como puedes ver y salvo la pequentildea discrepancia numeacuterica confirmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste

PRIMERA MUESTRA Numero de elementos(n1 = 10)

[1] 10

Media muestral(xbar1 = 942)

[1] 942

Cuasidesviacion tipica muestral(s1 = 2098)

[1] 2098

SEGUNDA MUESTRA Numero de elementos(n2 = 10)

[1] 10

Media muestral(xbar2 = 977)

[1] 977

Cuasidesviacion tipica muestral(s2 = 2111)

[1] 2111

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000785741251043506

15

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Media muestral(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten deWelch

17

Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera figura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta figura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modificarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 299) En particular eso significa que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las figuras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de confianza para la diferencia de medias con R

Vamos a calcular intervalos de confianza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos ficherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10n2 = 10 Medias muestralesbarX1 = 942barX2 = 977 Cuasidesviaciones tipicas muestraless1 = 2098s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12n2 = 12 Medias muestralesbarX1 = 1914barX2 = 2344 Cuasidesviaciones tipicas muestraless1 = 04216s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Estadistico

[1] -37188

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754

respaldando las conclusiones que hemos obtenido en este ejemplo

Ejemplo 931

Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3

NIVEL DE SIGNIFICACION(nSig = 095)

[1] 095

Y los resultados que obtenemos

Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)

[1] El p-Valor es 000666781125885452

Estadistico

16

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Media muestral(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten deWelch

17

Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera figura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta figura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modificarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 299) En particular eso significa que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las figuras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de confianza para la diferencia de medias con R

Vamos a calcular intervalos de confianza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos ficherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10n2 = 10 Medias muestralesbarX1 = 942barX2 = 977 Cuasidesviaciones tipicas muestraless1 = 2098s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12n2 = 12 Medias muestralesbarX1 = 1914barX2 = 2344 Cuasidesviaciones tipicas muestraless1 = 04216s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

[1] 58709

En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas

Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 1914)

[1] 1914

Cuasidesviacion tipica muestral(s1 = 04216)

[1] 04216

SEGUNDA MUESTRA Numero de elementos(n2 = 12)

[1] 12

Media muestral(xbar2 = 2344)

[1] 2344

Cuasidesviacion tipica muestral(s2 = 01740)

[1] 0174

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 2

Nivel de significacion(nSig = 095)

[1] 095

En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten deWelch

17

Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera figura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta figura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modificarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 299) En particular eso significa que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las figuras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de confianza para la diferencia de medias con R

Vamos a calcular intervalos de confianza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos ficherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10n2 = 10 Medias muestralesbarX1 = 942barX2 = 977 Cuasidesviaciones tipicas muestraless1 = 2098s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12n2 = 12 Medias muestralesbarX1 = 1914barX2 = 2344 Cuasidesviaciones tipicas muestraless1 = 04216s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Los resultados son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0002676528260678

Estadistico

[1] -32659

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059

Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas

La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera figura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro

18

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta figura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modificarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 299) En particular eso significa que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las figuras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de confianza para la diferencia de medias con R

Vamos a calcular intervalos de confianza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos ficherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10n2 = 10 Medias muestralesbarX1 = 942barX2 = 977 Cuasidesviaciones tipicas muestraless1 = 2098s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12n2 = 12 Medias muestralesbarX1 = 1914barX2 = 2344 Cuasidesviaciones tipicas muestraless1 = 04216s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta figura

Vamos a comentar algunos aspectos resentildeables de esta herramienta

Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modificarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)

H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 299) En particular eso significa que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0

Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma

Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo

Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles

Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las figuras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas

19

42 Intervalos de confianza para la diferencia de medias con R

Vamos a calcular intervalos de confianza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos ficherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10n2 = 10 Medias muestralesbarX1 = 942barX2 = 977 Cuasidesviaciones tipicas muestraless1 = 2098s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12n2 = 12 Medias muestralesbarX1 = 1914barX2 = 2344 Cuasidesviaciones tipicas muestraless1 = 04216s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

42 Intervalos de confianza para la diferencia de medias con R

Vamos a calcular intervalos de confianza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos ficherosplantilla de la Tabla 1

Para el Ejemplo 931 usamos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 10n2 = 10 Medias muestralesbarX1 = 942barX2 = 977 Cuasidesviaciones tipicas muestraless1 = 2098s2 = 2111

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)

[1] 18

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1 - alfa2 df=k))

[1] 21009

La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))

[1] 19773

Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

[1] -54773 -15227

20

Para el Ejemplo 932 usaremos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12n2 = 12 Medias muestralesbarX1 = 1914barX2 = 2344 Cuasidesviaciones tipicas muestraless1 = 04216s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Para el Ejemplo 932 usaremos el fichero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES

Introducimos los tamantildeos de las muestrasn1 = 12n2 = 12 Medias muestralesbarX1 = 1914barX2 = 2344 Cuasidesviaciones tipicas muestraless1 = 04216s2 = 01740

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))

[1] 14642

Calculamos el valor critico(alfa = 1 - nc)

[1] 005

(t_alfa2 = qt(1-alfa2 df=k))

[1] 2136

La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 028123

El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

[1] -071123 -014877

21

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Con GeoGebra

En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes figuras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R

5 Datos en bruto con R

Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04

Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son

proptest

ztest

ttest

vartest

Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace

cranr-projectorgwebpackagesBSDABSDApdf1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654

22

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como

BSDAztestTeachingDemosztest

Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones

Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R

installpackage(BSDA)

Una vez instalada la libreriacutea la cargamos mediante

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest

Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos

data(Statisti)

Warning in data(Statisti) data set rsquoStatistirsquo not found

y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos

View(Statisti)

Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos

Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en

Statisti[ 1]

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en

Statisti$Class1

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

23

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula

H0 = micro1 6= micro2

Si tratas de usar length para hallar los tamantildeos de ambas muestras

length(Statisti$Class1)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

length(Statisti$Class2)

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la filacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos

(noAusentes = completecases(Statisti))

Error in completecases(Statisti) objeto rsquoStatistirsquo no encontrado

Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my eficaz la presencia devalores NA en un dataframe de R

Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al filo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos

vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)

Error in vartest(Statisti$Class1 Statisti$Class2 alternative = twosided objeto rsquoStatistirsquo no encontrado

Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de confianza para el valor del cociente de varianzas

Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer

ttest(Statisti$Class1 Statisti$Class2alternative = twosided conflevel = 095 varequal = TRUE)

Error in ttest(Statisti$Class1 Statisti$Class2 alternative = twosided objetorsquoStatistirsquo no encontrado

24

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas

Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo

Sobre el formato del dataframe de este ejemplo Datos con readtable

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in eval(expr envir enclos) objeto rsquoStatistirsquo no encontrado

Error in dataframe(scores = scores group = group) objeto rsquoscoresrsquo no encontrado

Error in isdataframe(x) objeto rsquostatisti2rsquo no encontrado

A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por fila Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el fichero

Descarga este fichero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el fichero y almacenarlo en un dataframellamado Statisti2 hacemos

Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )

Y para ver que todo ha ido bien usamos head y tail asiacute

head(Statisti2)

scores group 1 81 1 2 73 1 3 86 1 4 90 1 5 75 1 6 80 1

tail(Statisti2)

scores group 53 74 2 54 77 2 55 87 2 56 69 2 57 96 2 58 65 2

Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identifica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasificar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por fila

25

scores group1 81 12 73 13 86 14 90 15 75 16 80 17 75 18 81 19 85 110 87 111 83 112 75 113 70 114 65 115 80 116 76 117 64 118 74 119 86 120 80 121 83 122 67 123 82 124 78 125 76 126 83 127 71 128 90 129 77 130 81 131 82 132 87 233 77 234 66 235 75 236 78 237 82 238 82 239 71 240 79 241 73 242 91 243 97 244 89 245 92 246 75 247 89 248 75 249 95 250 84 251 75 252 82 253 74 254 77 255 87 256 69 257 96 258 65 2

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

iquestQueacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest

vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)

F test to compare two variances data scores by group F = 0551 num df = 30 denom df = 26 p-value = 012 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 025541 116350 sample estimates ratio of variances 05508

El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias

ttest(scores ~ group data = Statisti2alternative = twosided conflevel = 095 varequal=TRUE)

Two Sample t-test data scores by group t = -107 df = 56 p-value = 029 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -63993 19310 sample estimates mean in group 1 mean in group 2 78581 80815

que de nuevo es ideacutentico al que hicimos con anterioridad

Vamos a proponerte un ejercicio para que practiques estas ideas

Ejercicio 4 El fichero adjunto

contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

Aseguacuterate de explorar primero los datos del fichero Solucioacuten en la paacutegina 35

La funcioacuten ztest de la libreriacutea BSDA

En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de confianza correspondientes a ese tipo de problemas

Para practicar esto vamos a usar los datos del fichero adjunto

26

X T430560740754288 A652966329250026 A603862646480504 A911853949510445 A24945850920106 A653344739024654 A639392680988064 A672696515685647 A687529018509023 A111175100620406 A844887885086123 A581695979306111 A0389689702292723 B-496543565850173 B-107641681139464 B573465422305189 B-517721566767361 B149811508361143 B-209860890910976 B31701388559728 B-243236451611397 B733831328331857 B108733786972416 B-660761524202594 B-271845111372805 B215024559887082 B173556872445935 B-0181609610194061 B

X T234605999096457 A15598280448541 B519988465065498 B216966728310644 A381076252281305 B234239486850839 A265842231590497 A229753625013886 A140678381212815 B251853190973464 B250253786025462 A234075711268393 B371688487042454 B173862684689826 B225775012789561 A547175961559632 B220064204163727 A186998198826422 A238306114887893 A280903361221038 A127672926315808 B614916724083803 B169480802630229 B227109895636368 A396552942858675 B350609224303273 B756587209754821 B211619703149375 A180969468372537 B234503395198656 A198162552706551 B233292527489174 A139647557388276 B142764964870262 B220337758328292 A24164116734722 A253765700489303 A158298175311535 B22156914401392 A235325248448317 B175246437278331 A347816453954308 B53512493472184 B239636297130648 A366101804515207 B407348701307765 B409678170138121 B204061605494309 A221897782725772 A189133609085659 A298225726442781 B26540623141575 B263414980797674 B246556788990516 A-501017742681989 B316911210589616 B-00568165147471618 B246000741632516 A234112429228007 A469479905251648 B212301871947505 B257177602422906 B226958815340569 A201134062600214 B260634090273564 A283604812281762 A236091693721966 A4818757572982 B199367898539616 B243205609380066 A335285971778329 B148041808186536 B335819038561241 B205786609399486 A234879122539059 A385672831222543 B223701626868733 A176949178517961 A204139025980121 A197447264546412 A240899840397463 A259097804407579 B196232017858293 A173184994491508 B205362489044047 A230211850267286 A302335193814517 B229388544040053 A24261026561079 A338597188487547 B234405895731986 A247004257250509 A-411367995825517 B23771325536927 A368995283652495 B209986820445814 A433325326311023 B266999088320809 A23330776438314 B810442219250529 B271238950315316 B416970952387577 B192085441724738 B420326509440559 B230617810269694 A3487378188216 B197087813538987 A201420471293942 B436933218493828 B126479158471136 B352009257054646 B21687177065472 A258240782507113 A255196553124894 A199946517549557 A232152377375232 A209683885888177 A274835060426155 B127081911751992 B244431015397343 B293357149103982 B244124876050272 B250865865796495 A231917909689682 A21239700808919 A208544711140125 A222004332165541 A273637231301014 A232416765613775 A195077718782793 B20792603661635 A258931181719068 A208194727901493 B256993062537416 A231294686596134 B266886342306813 A208530712725224 A184640989620285 B253188374050682 A256957420260514 A28190252400299 A248718331479251 A256230761024642 A232341560370249 A250871562119096 A21461073616156 A185845420016854 B24979308952242 A227229740226582 A452840958840228 B276599246154004 B22343003254789 A243834535532788 A244757214271478 A227229992212867 A434733731967085 B-136156697935888 B391616574876754 B200137169693384 A206755689256857 A234232203539294 A203429568314253 B422280966912466 B312348286492398 B427838596344838 B383044271804057 B-0208275235439515 B224470365073 A247860175295984 A156478624851422 B235353629127993 A353154974470208 B231114192612279 A229871203036463 A466372593695194 B275024427867825 A204269290378536 A413061369705235 B265192532836622 A214719252961422 A228877383538107 A248617318823061 A211847951542592 A124965170259028 B-0812091526303433 B943857064414312 B283620573465039 B277187297940874 B581654311015682 B258670124254924 A176925427065808 B230582813509088 A230671203354502 A561903234913485 B230551799311355 A234379836392954 A244858310317531 A330006269514315 B209082674952101 A393665568244798 B237469638484985 A230811562093581 A219394749951728 B65740591712957 B222527229029281 A225560119912732 B212963724931173 B117128769811807 B251384968141621 A449364065406818 B191654020265446 A168257007019454 B230951865318115 A285128073435144 B241358186890684 B377010539712473 B265899451569879 B260378854541065 A222629865301301 A338925682340659 B212886575981185 A244387097752558 A121174881513955 B238502381523097 A216290295292865 A233487891508217 A521747475408702 B22386855873114 A233588298109535 A453893166388768 B0760029953256645 B326831678572215 B2565926043372 A249904423947234 A237747995987326 A270096207016461 B237409003821768 A209422659560598 B234058329061194 A272061909560188 A206506016712294 A543950383798059 B280281348009978 A212995490629689 A331483727620505 B224018822479388 A236812518095497 B224628503868396 A238271694040476 A232465456425309 A221746498815627 A243886632996985 B223101771788263 A228921038898612 A-260860260840797 B232590666321059 A179022942181799 B21181790695597 A223409826541104 A20467480221329 A230941715713495 A418034168407362 B709218887481072 B245262719710891 A250385653390334 A238992565659127 A336608881525538 B168709602608272 B206514197075983 A230044380169062 A22542658364641 A266033178732433 B2487959463273 A439014588431875 B-65712927656301 B215433841437548 A232196037387233 A199806506774261 B357493793435622 B733311770125488 B207455559431429 B249187738602772 B251580697066555 B284151820651877 A291270695991407 B477053124195696 B265574260604024 A234754300945518 A452273631784518 B228239437993834 A235529734002002 A116501129045153 B200697692151394 A576539739739469 B352875398442038 B275641171351879 B235057453422797 A25511829177046 A234653829435556 A443984114729371 B523958667491816 B-154994315698356 B311552861812027 B222401856458577 A11145319512758 B201813330274171 A258243546802975 A30476919127037 B227313102438613 A256385412343378 B175919163207297 A295721468183987 B22835847726487 A403998801864804 B322649552653508 B250303386247356 A-10035932004398 B277942216206967 B372909968409104 B409317287699078 B285815597217667 B26744842895411 B235888190598587 A31962221777129 B25070068606092 A2469192735591 B208191458633116 A171720542619679 B220969024076647 A267191956947973 B237789086174405 A269104954390588 B234832324131922 A237494952726674 A0833618569954876 B237277044629056 B193192075692285 B66131181079955 B229820356293621 B162464584999628 B225702494422212 A250606114065772 A234453305493795 A-562856990412558 B245496979130983 A184367292168753 A332505786947828 B264332856648177 B260432995702068 A369417324386357 B262052838441985 A39039352863817 B219209458581098 A267521225447352 A223026473263342 A271116937974647 B235987365984914 A260283368615528 B234180835749264 A370348630135573 B203721450308385 B229863487389759 A353990451064533 B223731478309115 A229751666078153 A0925390385496172 B265285294438433 A316131827807456 B250703562106409 A340002545825406 B218032962459749 A241816470737817 A445704924851217 B178361091938027 A624239360203628 B21758604344516 A349994762399465 B102005409551124 B603505695253135 B225451093996367 A273687205738399 A311614398332071 B408519331451975 B167535185955339 B244365929106918 A23398772596798 A547681406872122 B264124090225932 A-48617349094802 B224383775325957 A384818565973835 B-156619892572181 B186621552838342 B284774348199191 B234011877470951 B224478822011556 A252891614324905 A205513593126894 A248732327680509 A238926107351397 A497103895297147 B25618580449464 A463356089822122 B216012368672458 A685162191565609 B209023403624186 A2273698783046 A270815118205605 A202469426047973 A133106681133144 B212068734241681 A244030856369638 A247284351888343 A254020587398132 A216585223707399 A237134900487021 A265807154116433 A20770978920514 A554189873894132 B233783855615879 A372094014853298 B220446629583947 A292882770373083 B252754860992489 A280536500984865 B302396473593058 B557340870729241 B177829493198868 A60429760202014 B228579568672133 A20538144331358 A210538724531194 A260789918752296 B476632120530271 B276777856612872 B178878612241134 B215495973724743 A741738546243147 B234483831778143 A207698171669609 A257913978661894 B248578946848026 A244663493187611 A235724009063533 A210881187799545 A250028372719145 A196533760976648 A197621366020192 A394110631455797 B195556477509778 B538651156530598 B207058790187132 A214143653682809 A193812060146318 A314213288277134 B200222660419604 A196358077570519 A231881084752832 A394049363739212 B462258694581168 B281420966604081 B190804392656823 B192885866976272 A2429706897175 B266668321538089 A18784067878373 A245971823574307 A262939356780388 B228826478862065 A149598577077645 B212115552459264 A451342952529064 B249125675922485 A214944826372084 B238337736083413 A403434008745062 B219525353214822 B237034238368971 A221227780652306 A184663811698536 A229261229107434 A517651513547657 B297256394495856 B152953161425469 B260839143278571 A348098916912606 B314367895239622 B141283778154259 B157665436081203 A24957592822339 A311406726740329 B261001094761973 A423185399584125 B-356139859332123 B234485665971586 A204435180906371 A261603767411419 A499550616016492 B14982787235712 B374654015316345 B671396420974228 B216473098500997 A542627712341461 B-384798392986132 B230254104674333 A305956807426099 B222582399096619 A258168299008191 B187732847603374 B211738615781362 A250035044863154 B240503494164819 A231213476603789 A185996248673033 B222283893981579 A244457338994605 A351261845571819 B215121797015245 A232764497631935 B-159462833608788 B229235098064258 A218640988774336 A126158622822265 B190613658583799 A401922828218608 B249853771040611 A261580227878959 A214859774990216 A243444800183809 A33983846898195 B218701820923354 A232957429718711 A236140572321366 A243125062268832 A243256909658237 B924601610090465 B197694542323307 A220569003106147 A41492322153845 B237464838717175 A381543731201062 B230357809407661 A221118043918406 B238292020825634 A387279438898166 B199412713516095 A206642426949686 A314402170165366 B211010336382983 A285667721940661 B250155894965579 A164703678330405 B230684832140716 A238980837395488 A234670105972479 A246338758325337 A453516869481174 B113980361742051 B205582083180626 A203130864228567 B144342432745114 B253652605436621 A212983417812572 A189122055608787 B421333888476178 B215833817728985 A229744319341138 A284695898574877 B19449611509245 B213883704965277 A149037400551461 B231242357910106 A203752622706357 A317861063361936 B235627246325202 A232047327327414 A183609363589497 A218757312361001 A226500817246546 A191862434680313 A428618834424426 B587120963086078 B233223268522237 A233823770567041 B226372524696947 A954165972823987 B175732549478588 A345063191895955 B518770389743264 B136017998383768 B25729769861572 A213988148411254 A197387856182166 A471865491449926 B222779424176539 A-385541430698571 B234980965062806 A278482587560128 B225078072867757 A633952057176434 B224729422225684 A212106711379559 A125072612645499 B212975959021681 A2663313490929 A221856647320768 B256450485360085 A371672397212285 B270633590286626 A

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Este fichero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula

H0 = microA = microB

La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el fichero de datos Alabrirlo en un editor de texto veraacutes algo como esto

Para leer los datos del fichero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )head(datos)

X T 1 234606 A 2 155983 B 3 519988 B 4 216967 A 5 38108 B 6 234239 A

La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes ldquomanualrdquo Definimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) definidos por el factor T

XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]

Y ahora aplicamos asiacute la funcioacuten

ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto

Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos iquestdebemosusar la opcioacuten de varianzas iguales o distintas

Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas iquestCuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest iquestQueacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir iquestcuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 36

27

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

La funcioacuten ttest para datos emparejados

En la Seccioacuten 922 del libro (paacuteg 314) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE

Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de flexiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura

library(BSDA)

Error in library(BSDA) there is no package called rsquoBSDArsquo

data(Fitness)

Warning in data(Fitness) data set rsquoFitnessrsquo not found

head(Fitness)

Error in head(Fitness) objeto rsquoFitnessrsquo no encontrado

str(Fitness)

Error in str(Fitness) objeto rsquoFitnessrsquo no encontrado

Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral

Ha = microa lt microd

Y para hacer esto basta con usar ttest asiacute

ttest(Fitness$Before Fitness$Afteralternative = less paired = TRUE conflevel = 095)

Error in ttest(Fitness$Before Fitness$After alternative = less paired = TRUE objeto rsquoFitnessrsquo no encontrado

La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por fila Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso significariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7

6 Ejercicios adicionales y soluciones

Ejercicios adicionales

Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios

28

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones

n1 = 532nuacutemero de eacutexitos en la primera muestra = 197

n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151

Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2

Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 286

X1 = 1375

s1 = 22

n2 = 331

X2 = 1424

s2 = 156

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 38

Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 12

X1 = 453

s1 = 37

n2 = 14

X2 = 404

s2 = 39

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 39

Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones

n1 = 7

X1 = 09

s1 = 096

n2 = 7

X2 = 12

s2 = 027

Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 41

Soluciones de algunos ejercicios

bull Ejercicio 2 paacuteg 5

1 El coacutedigo del fichero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas

29

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

rm(list=ls())

PRIMERA MUESTRA Numero de elementos(n1 = 245)

[1] 245

Media muestral(xbar1 = 273)

[1] 273

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)

[1] 04

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 252)

[1] 252

Media muestral(xbar2 = 281)

[1] 281

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)

[1] 03

(sigma2 = )

Nivel de confianza deseadonc = 095

NO CAMBIES NADA DE AQUI PARA ABAJO

(alfa = 1 - nc)

[1] 005

Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))

[1] 196

La diferencia de las medias muestrales es

(xbar1 - xbar2)

30

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

[1] -008

Comprobamos si se ha usado sigma como sustituto de s

if(exists(sigma1))s1 = sigma1if(exists(sigma2))s2 = sigma2

La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))

[1] 0062295

El intervalo de confianza es este

(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )

[1] -0142295 -0017705

2 Esta es la forma de usar la Calculadora de Probabilidades

3 En la siguiente figura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la flecha roja

31

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Y en esta figura puedes ver la salida de Wolfram Alpha

4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la figuraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las flechas rojas

32

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales

Para hacer el mismo contraste usando la plantilla de R llamada

33

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Tut09-Contraste-2Pob-DifMedias-UsandoZR

introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2

PRIMERA MUESTRA Numero de elementos(n1 = 2783)

[1] 2783

Media muestral(xbar1 = 4975)

[1] 4975

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)

[1] 6317

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos(n2 = 2402)

[1] 2402

Media muestral(xbar2 = 4813)

[1] 4813

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)

[1] 5191

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3

Nivel de significacion(nSig = 095)

[1] 095

Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha

pValor(Estadistico TipoContraste)

[1] El p-Valor es 031089244301084

34

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Estadistico

[1] 10134

RegionRechazo(alfa TipoContraste)

[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005

bull Ejercicio 3 paacuteg 10

Las siguientes figuras muestran la solucioacuten de ambos problemas de probabilidad

bull Ejercicio 4 paacuteg 26

El coacutedigo R para leer el fichero es

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )head(datos)

X T 1 43056 A 2 65297 A 3 60386 A 4 91185 A 5 24946 A 6 65334 A

tail(datos)

X T

35

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

23 1087338 B 24 -660762 B 25 -271845 B 26 2150246 B 27 1735569 B 28 -018161 B

Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo

vartest(X ~ T data = datos alternative = twosided conflevel = 095)

F test to compare two variances data X by T F = 0056 num df = 11 denom df = 15 p-value = 0000027 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 0018605 0186344 sample estimates ratio of variances 005596

El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest

ttest(X ~ T data = datosalternative = twosided conflevel = 095 varequal=FALSE)

Welch Two Sample t-test data X by T t = 158 df = 172 p-value = 013 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -12807 88807 sample estimates mean in group A mean in group B 67 29

El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas

bull Ejercicio 5 paacuteg 27

Vamos a recordar primero el contraste con Z

datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )XA = datos$X[datos$T==A]XB = datos$X[datos$T==B]ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))

Error in eval(expr envir enclos) no se pudo encontrar la funcioacuten ztest

Y ahora veamos las tres posibilidades con t

36

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

ttest(x = XA y = XB alternative = twosided varequal=FALSE)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided varequal=TRUE)

Two Sample t-test data XA and XB t = -342 df = 607 p-value = 000067 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -47235 -12765 sample estimates mean of x mean of y 23 26

ttest(x = XA y = XB alternative = twosided)

Welch Two Sample t-test data XA and XB t = -322 df = 295 p-value = 00014 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval -48313 -11687 sample estimates mean of x mean of y 23 26

Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R

bull Ejercicio 6 paacuteg 29

Podemos usar asiacute la funcioacuten proptest

proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)

2-sample test for equality of proportions without continuity correction data c(197 151) out of c(532 486) X-squared = 401 df = 1 p-value = 0045 alternative hypothesis twosided

37

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

95 percent confidence interval 00014931 01177092 sample estimates prop 1 prop 2 03703 03107

Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 299) del Capiacutetulo 9 del libro

bull Ejercicio 7 paacuteg 29

Este es el coacutedigo de la plantilla de R con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos

(n1 = 286)

[1] 286

Media muestral(xbar1 = 1375)

[1] 1375

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)

[1] 156

(sigma1 = )

SEGUNDA MUESTRA Numero de elementos

(n2 = 331)

[1] 331

Media muestral(xbar2 = 1424)

[1] 1424

Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)

[1] 194

(sigma2 = )

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 2Nivel de significacion

(nSig = 095)

[1] 095

38

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 0000255131809259936

Estadistico

[1] -34753

bull Ejercicio 8 paacuteg 29

Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste es

(EstadisticoVar = s1^2s2^2)

[1] 090007

Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 043589

Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la figura

39

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR

con los datos del ejercicio

PRIMERA MUESTRA Numero de elementos(n1 = 12)

[1] 12

Media muestral(xbar1 = 453)

[1] 453

Cuasidesviacion tipica muestral(s1 = 37)

[1] 37

SEGUNDA MUESTRA Numero de elementos(n2 = 14)

[1] 14

Media muestral(xbar2 = 404)

40

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

[1] 404

Cuasidesviacion tipica muestral(s2 = 39)

[1] 39

iquestQue tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2

TipoContraste = 1Nivel de significacion

(nSig = 095)

[1] 095

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 00015847637376516

Estadistico

[1] 32833

La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten afirmar que sea micro1 ge micro2

bull Ejercicio 9 paacuteg 29

De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas

H0 = σ21 = σ2

2

El estadiacutestico de este contraste vale en este caso

(EstadisticoVar = s1^2s2^2)

[1] 12642

Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor

(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))

[1] 00035184

Tambieacuten puedes calcularlo con GeoGebra desde luego

41

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R

Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR

con los datos del ejercicio

Y los resultados que se obtienen son

pValor(Estadistico TipoContraste)

[1] El p-Valor es 022621403141095

Estadistico

[1] -079592

La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten afirmar que seamicro1 lt micro2

42

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA

Plantillas de R para contrastes e intervalos de confianza

Diferencia medias

bull Usando Z

bull Usando la t de Student

Varianzas desconocidas pero iguales

Varianzas desconocidas pero distintas

Cociente varianzas

Diferencia proporciones

Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de confianza en dos poblacionesindependientes

Fin del Tutorial09 iexclGracias por la atencioacuten

43

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 13 13 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes13 13 Se supone que AMBAS MUESTRAS SON GRANDES13 13 El fichero no funcionara si no introduces todos los datos13 13 13 13 rm(list=ls())13 13 PRIMERA MUESTRA13 Numero de elementos13 (n1 = ) 13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s1 = )13 (sigma1 = )13 13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = ) 13 Media muestral13 (xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13 (s2 = ) 13 (sigma2 = )13 13 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2 13 TipoContraste = 13 Nivel de significacion13 (nSig = )13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 13 13 Comprobamos si se ha usado sigma como sustituto de s13 13 if(exists(sigma1))s1 = sigma113 if(exists(sigma2))s2 = sigma213 13 13 Calculo de alfa13 (alfa = 1 - nSig)13 13 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt( (s1^2 n1) + (s2^2 n2) ) )13 13 Funcion para el calculo del p-valor13 pValor = function(EstadContipoCon)13 if(tipoCon == 1)13 (pV = 1 - pnorm(EstadCon))13 13 if(tipoCon == 2)13 (pV = pnorm(EstadCon))13 13 if(tipoCon == 3)13 pV = 2 (1 - pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo 13 RegionRechazo = function(alfatipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qnorm(1 - alfa)) )13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que qnorm(1 - alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 13 13 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste) 13 Estadistico13 RegionRechazo(alfa TipoContraste)13 13 13 13 13 13 13 13 13 13 13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 usando la distribucioacuten Z 13 Es el caso de MUESTRAS GRANDES o (poco frecuente)13 de varianzas poblacionales conocidas13131313rm(list=ls())1313 PRIMERA MUESTRA13 Numero de elementos13(n1 = ) 13 Media muestral13(xbar1 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s1 = )13(sigma1 = )131313 SEGUNDA MUESTRA13 Numero de elementos13(n2 = ) 13 Media muestral13(xbar2 = )13 Cuasidesviacion tipica muestral o sigma (descomenta el que uses)13(s2 = ) 13(sigma2 = )1313 Nivel de confianza deseado13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313(alfa = 1 - nc)1313 Calculamos el valor critico13(z_alfa2 = qnorm( 1 - alfa 2))1313 La diferencia de las medias muestrales es1313(xbar1 - xbar2)1313 Comprobamos si se ha usado sigma como sustituto de s1313if(exists(sigma1))s1 = sigma113if(exists(sigma2))s2 = sigma21313 La semianchura del intervalo es13(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))1313 El intervalo de confianza es este1313(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )1313

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON IGUALES13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213TipoContraste = 1313Nivel de significacion13(nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad1313 k = n1 + n2 -21313 Calculo del estadistico del contraste13 denomEstad=13 sqrt(((1n1) + (1n2)) ((n1 - 1) s1^2 + (n2-1) s2^2) k)1313 (Estadistico=(xbar1 - xbar2) denomEstad)13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV=1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCondf=k))13 13 if(tipoCon == 3)13 pV=2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(Valores del Estadistico mayores que 13 qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(Valores del Estadistico menores que 13 qt(alfa df=k)) )13 13 if(tipoCon == 3)13 (regionRech = paste(Valores del Estadistico mas alejados del origen que 13 qt(1 - alfa2 df=k)) )13 13 regionRech=paste(La region de rechazo la forman los 13 regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES 13 Es el caso de 13 MUESTRAS PEQUENtildeAS13 bajo la hipotesis de 13 VARIANZAS IGUALES 13 1313 Introducimos los tamantildeos de las muestras13n1 = 13n2 =13 Medias muestrales 13barX1 = 13barX2 = 13 Cuasidesviaciones tipicas muestrales13s1 = 13s2 =1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO131313 Calculamos los grados de libertad13(k = n1 + n2 - 2)1313 Calculamos el valor critico 13(alfa = 1 - nc)1313(t_alfa2 = qt(1 - alfa2 df=k))1313 La semianchura del intervalo es13(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))131313 Intervalo de confianza13(intervalo = (barX1 - barX2) + c(-1 1) semianchura)

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE MEDIAS 13 de dos poblaciones normales independientes 13 Se supone que 13 ALGUNA DE LAS MUESTRAS ES PEQUENtildeA 13 Y LAS VARIANZAS DE LAS DOS POBLACIONES SON DISTINTAS13 El fichero no funcionara si no introduces todos los datos 131313 rm(list = ls())1313 PRIMERA MUESTRA Numero de elementos13 (n1 = )13 Media muestral13 (xbar1 = )13 Cuasidesviacion tipica muestral 13 (s1 = )131313 SEGUNDA MUESTRA 13 Numero de elementos 13 (n2 = ) 13 Media muestral 13 (xbar2 = ) 13 Cuasidesviacion tipica muestral 13 (s2 = )131313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 13 2 si es mu1 lt mu2 13 3 si es mu1 distinto de mu213 TipoContraste = 1313Nivel de significacion13 (nSig = )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 1313 Calculo de alfa13 (alfa = 1 - nSig)1313 Grados de libertad aproximacion de Welch13 (k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))13 1313 Calculo del estadistico del contraste13 (Estadistico = (xbar1 - xbar2) sqrt(s1^2 n1 + s2^2 n2) )13 Funcion para el calculo del p-valor13 pValor=function(EstadCon tipoCon)13 if(tipoCon == 1)13 (pV = 1 - pt(EstadCon df=k))13 13 if(tipoCon == 2)13 (pV = pt(EstadCon df=k))13 13 if(tipoCon == 3)13 pV = 2 (1 - pt(abs(EstadCon) df=k))13 13 return(paste(El p-Valor es pV sep= collapse=))13 13 Funcion para el calculo del liacutemite de la regioacuten de rechazo13 RegionRechazo = function(alfa tipoCon)13 if(tipoCon == 1)13 (regionRech = paste(valores del Estadistico mayores que qt(1 - alfa df=k)))13 13 if(tipoCon == 2)13 (regionRech = paste(valores del Estadistico menores que qt(alfa df=k)))13 13 if(tipoCon == 3)13 (regionRech = paste(valores del Estadistico mas alejados del origen que qt(1 - alfa2 df=k)))13 13 regionRech = paste(La region de rechazo la forman los regionRech sep= collapse=)13 return(regionRech)13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(Estadistico TipoContraste)13 Estadistico13 RegionRechazo(alfa TipoContraste)13

wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS DISTINTAS Introducimos los tamantildeos de las muestrasn1 = n2 = Medias muestrales barX1 = barX2 = Cuasidesviaciones tipicas muestraless1 = s2 = Nivel de confianza deseado nc = NO CAMBIES NADA DE AQUI PARA ABAJO Grados de libertad aproximacion de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1))))) Calculamos el valor critico (alfa = 1 - nc)(t_alfa2 = qt(1 - alfa 2 df=k)) La semianchura del intervalo es(semianchura = t_alfa2 sqrt((s1^2 n1) + (s2^2 n2))) Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura )

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para el13 COCIENTE DE VARIANZAS 13 de dos poblaciones normales independientes 1313 El fichero no funcionara si no introduces todos los datos 131313 rm(list=ls())13 13 13 13 PRIMERA MUESTRA 13 Numero de elementos13 (n1 = )13 Cuasidesviacion tipica muestral13 (s1 = )13 13 SEGUNDA MUESTRA13 Numero de elementos13 (n2 = )13 Cuasidesviacion tipica muestral13 (s2 = )13 13 13 TIPO DE CONTRASTE13 Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 13 2 si es sigma1 lt sigma2 13 3 si es bilateral13 TipoContraste = 13 13 NIVEL DE SIGNIFICACION13 (nSig = )13 13 13 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO13 1313 13 Calculo de alfa13 (alfa=1-nSig)1313 Calculo del estadistico del contraste13 (Estadistico=s1^2s2^2)13 Funcion para el calculo del p-valor13 pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==2)13 (pV=pf(EstadCondf1=n1-1df2=n2-1))13 13 if(tipoCon==3)13 if(s1gts2)(pV=2(1-pf(EstadCondf1=n1-1df2=n2-1)))13 else(pV=2(pf(EstadCondf1=n1-1df2=n2-1)))13 13 return(paste(El p-Valor es pVsep=collapse=))13 1313 Y ahora se aplican ambas funciones para mostrar los resultados13 pValor(EstadisticoTipoContraste)13 Estadistico13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular un13 INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS13 al nivel (1-alfa) en dos poblaciones normales1313 El fichero no funcionara si no introduces todos los datos 13131313 Introducimos los valores de las desviaciones tipicas muestrales13s1 =13s2 =131313 los tamantildeos de las muestras13n1 = 13n2 = 1313 y el nivel de confianza deseado13nc = 1313 --- NO CAMBIES NADA DE AQUI PARA ABAJO1313(alfa = 1 - nc)1313 Calculamos los valor criticos necesarios1313(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))1313(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))131313 El intervalo de confianza para el cociente de varianzas es este13(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un contraste de hipotesis para la 13 DIFERENCIA DE PROPORCIONES 13 de dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())1313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = )1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = )1313 iquestQue tipo de contraste estamos haciendo13 Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateral13TipoContraste = 13 Nivel de significacion13 (nSig= )1313 13 NO CAMBIES NADA DE AQUIacute PARA ABAJO1313(alfa=1-nSig)1313 Calculo de qMuestral1 y qMuestral21313qMuestral1 = 1 - pMuestral1 13qMuestral2 = 1 - pMuestral21313 Calculo de p y q ponderados1313(pMuestral = (n1 pMuestral1 + n2 pMuestral2) (n1 + n2) ) 13qMuestral = 1- pMuestral1313 Calculo del estadistico del contraste13(Estadistico=( pMuestral1 - pMuestral2 ) sqrt( pMuestral qMuestral ((1n1) + (1n2)) ) )13 Funcion para el calculo del p-valor13pValor=function(EstadContipoCon)13 if(tipoCon==1)13 (pV=1-pnorm(EstadCon))13 13 if(tipoCon==2)13 (pV=pnorm(EstadCon))13 13 if(tipoCon==3)13 pV=2(1-pnorm(abs(EstadCon)))13 13 return(paste(El p-Valor es pVsep=collapse=))1313 Funcion para el calculo del liacutemite de la regioacuten de rechazo13RegionRechazo=function(alfatipoCon)13 if(tipoCon==1)13 (regionRech=paste(Valores del Estadistico mayores que qnorm(1-alfa)) )13 13 if(tipoCon==2)13 (regionRech=paste(Valores del Estadistico menores que qnorm(alfa)) )13 13 if(tipoCon==3)13 (regionRech=paste(Valores del Estadistico mas alejados del origen que qnorm(1-alfa2)) )13 13 regionRech=paste(La region de rechazo la forman los regionRechsep=collapse=)13 return(regionRech)131313 Y ahora se aplican ambas funciones para mostrar los resultados13pValor(EstadisticoTipoContraste)13Estadistico13RegionRechazo(alfaTipoContraste)13

13 wwwpostdata-statisticscom13 POSTDATA Introduccioacuten a la Estadiacutesitica13 Tutorial-09 1313 Fichero de instrucciones R para calcular 13 un intervalo de confianza para la 13 DIFERENCIA DE PROPORCIONES 13 en dos poblaciones tipo Bernouilli independientes 13 Se supone que AMBAS MUESTRAS SON GRANDES 13 El fichero no funcionara si no introduces todos los datos 131313rm(list=ls())131313 PRIMERA MUESTRA 13 Numero de elementos13(n1 = )13 proporcion muestral13(pMuestral1 = ) Como un cociente (entre 0 y 1)1313 SEGUNDA MUESTRA 13 Numero de elementos 13(n2 = ) 13 proporcion muestral 13(pMuestral2 = ) Como un cociente (entre 0 y 1)1313 Nivel de confianza deseado 13nc = 131313NO CAMBIES NADA DE AQUI PARA ABAJO1313 13 Calculamos el valor critico 1313(alfa = 1 - nc)1313(z_alfa2= qnorm(1 - alfa2))1313 el valor de los q muestrales13 13(qMuestral1 = 1 - pMuestral1)1313(qMuestral2 = 1 - pMuestral2)131313La semianchura del intervalo es1313(semianchura = z_alfa2 sqrt(((pMuestral1 qMuestral1) n1) + ((pMuestral2 qMuestral2) n2)))13 13 El intervalo de confianza para p1 - p2 es este 1313(intervalo = (pMuestral1 - pMuestral2) + c(-1 1) semianchura)131313131313

  • Diferencia de proporciones en dos poblaciones
  • Diferencia de medias en dos poblaciones muestras grandes
  • Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor
  • Diferencia de medias en dos poblaciones muestras pequentildeas
  • Datos en bruto con R
  • Ejercicios adicionales y soluciones
  • PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA