Theory (1.75 MB)

136
Estadística Ingeniería Técnica en Informática de Sistemas Manuel Febrero Bande Pedro Galeano San Miguel Julio González Díaz Beatriz Pateiro López

Transcript of Theory (1.75 MB)

Page 1: Theory (1.75 MB)

EstadísticaIngeniería Técnica en Informática de Sistemas

Manuel Febrero BandePedro Galeano San Miguel

Julio González DíazBeatriz Pateiro López

Page 2: Theory (1.75 MB)
Page 3: Theory (1.75 MB)

Estadıstica

Ingenierıa Tecnica en Informatica de Sistemas

Manuel Febrero Bande

Pedro Galeano San Miguel

Julio Gonzalez Dıaz

Beatriz Pateiro Lopez

Page 4: Theory (1.75 MB)
jgo387
Text Box
Estadística ISBN-13: 978-84-691-0974-8 DL: C 351-2008 Departamento de Estadística e Investigación Operativa Universidad de Santiago de Compostela
jgo387
Text Box
Page 5: Theory (1.75 MB)

Prologo

Esta publicacion que tienes entre manos no es mas que una guıa rapida de losconocimientos que se explican en la materia Estatıstica de la titulacion de IngenierıaInformatica de Sistemas que se imparte en la Universidad de Santiago de Compostela.Como tal guıa rapida no pretende ser exhaustiva sino mas bien concreta y ha sido el frutoconjunto de varios miembros del departamento de Estadıstica e Investigacion Operativa,alguno de los cuales se estrenaron en la docencia con estos contenidos. Estos han sidosobre todo companeros y todos ellos tienen mi agradecimiento.

La Estadıstica debe desarrollar en el alumno el pensamiento estocastico y la mod-elizacion de problemas reales. En muchos campos de la ciencia, y la informatica no es unaexcepcion, se deben tomar decisiones en muchos casos en contextos de incertidumbre.Estas decisiones involucran procesos previos como obtencion de la maxima informa-cion posible, determinacion de los focos de error o incertidumbre y modelizacion de lassituaciones estocasticas. La Estadıstica pretende sentar los cimientos para un analisispormenorizado de la informacion disponible, para separar el grano (informacion) de lapaja (ruido) para obtener conclusiones interesantes. Un informatico sera capaz de alma-cenar un monton de informacion pero esta informacion no sera mas que basura en eldisco si no se le encuentra un sentido. Para ayudarnos en esta tarea, disponemos de unaherramienta magnıfica y gratuita: el entorno R (www.r-project.org). Esta herramientademocratiza el acceso al calculo estadıstico permitiendo con un bajo consumo de recursose independientemente de la plataforma obtener imponentes resultados cientıficos antessolo al alcance de caras licencias de software. Los ejemplos se han desarrollado en esteentorno.

Alguna vez he comparado el proceso estadıstico con el proceso de obtener una fotoque sirva de titular de un periodico dado que el resultado del proceso estadıstico esresumir de manera efectiva una situacion como una fotografıa resume un instante. Paraobtener una buena foto son necesarios tres elementos fundamentales: un motivo que debaser fotografiado, una camara de fotos y un fotografo. El motivo que debe ser fotografiadoes para el estadıstico su objeto de estudio y como en el caso de la fotografıa, el fotografono tiene el control sobre la escena que quiere resumir pero si debe dedicarle un instantea analizarla, comprenderla y descubrir que quiere obtener de ella. El segundo elementoes la camara. El fotografo debe ser capaz de manejar apropiadamente la camara paraobtener la foto que desea. Por ejemplo, no dominar el foco de la camara o usar unaconfiguracion de estatico para fotografiar a un atleta en movimiento solo provocara la

Page 6: Theory (1.75 MB)

IV

obtencion de una imagen borrosa. En el proceso estadıstico la camara es la tecnica que sedebe dominar para saber cuales son sus limitaciones y cuales sus ventajas. Esta tecnicainvolucra al aparataje matematico que es necesario conocer y dominar. Finalmente, eltercer elemento es el fotografo. Este debe decidir, por ejemplo, sobre el encuadre de lafoto o el nivel de detalle que desea ası como un estadıstico debe decidir cual va a ser sumarco de estudio y la fiabilidad de sus inferencias.

Siguiendo con el sımil, esta publicacion no es mas que la guıa rapida a tu primeracamara estadıstica. La camara aquı descrita no es muy compleja, sino mas bien una deesas camaras de un solo uso que compramos cuando estamos de vacaciones y nos hemosolvidado la nuestra. Pero el fundamento de esta camara de un solo uso es similar al deuna camara profesional del fotografo mas elitista. Espero que esta publicacion sirva comopuente al campo de la “fotografıa estadıstica” y estimule al lector a seguir analizandootros manuales de camaras con las que seguir fotografiando la vida.

Santiago de Compostela, 15 de noviembre de 2007Manuel Febrero Bande

Page 7: Theory (1.75 MB)

Indice general

1. Estadıstica descriptiva 1

1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2. Descripcion estadıstica unidimensional . . . . . . . . . . . . . . . . . . . . 1

1.2.1. Conceptos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2.2. Frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2.3. Representaciones graficas . . . . . . . . . . . . . . . . . . . . . . . 3

1.2.4. Medidas de centralizacion . . . . . . . . . . . . . . . . . . . . . . . 4

1.2.5. Medidas de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2.6. Medidas de forma . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.2.7. Otras medidas caracterısticas . . . . . . . . . . . . . . . . . . . . . 8

1.2.8. Transformaciones en los datos y su efecto en el analisis descriptivo 8

1.3. Descripcion estadıstica de varias variables . . . . . . . . . . . . . . . . . . 9

1.3.1. Representaciones graficas . . . . . . . . . . . . . . . . . . . . . . . 10

1.3.2. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.3.3. Covarianza y correlacion . . . . . . . . . . . . . . . . . . . . . . . . 11

1.3.4. Dependencia lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4. Anexo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.5. Ejercicio resuelto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2. Modelos de distribucion de probabilidad 19

2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.2. Espacio probabilıstico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.2.1. Experimentos y sucesos . . . . . . . . . . . . . . . . . . . . . . . . 19

2.2.2. Definiciones de probabilidad . . . . . . . . . . . . . . . . . . . . . . 21

2.2.3. Probabilidad condicionada . . . . . . . . . . . . . . . . . . . . . . . 22

2.2.4. Independencia de sucesos . . . . . . . . . . . . . . . . . . . . . . . 22

2.2.5. Regla del producto . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.2.6. Teorema de las probabilidades totales . . . . . . . . . . . . . . . . 22

2.2.7. Regla de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.3. Variables aleatorias unidimensionales . . . . . . . . . . . . . . . . . . . . . 24

2.3.1. Funcion de distribucion de una variable aleatoria . . . . . . . . . . 25

2.3.2. Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . . 26

2.3.3. Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . 26

Page 8: Theory (1.75 MB)

VI INDICE GENERAL

2.3.4. Cambio de variable . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.4. Medidas caracterısticas de una variable aleatoria . . . . . . . . . . . . . . 28

2.4.1. Media o esperanza matematica de una variable aleatoria . . . . . . 28

2.4.2. Varianza de una variable aleatoria . . . . . . . . . . . . . . . . . . 29

2.4.3. Coeficiente de variacion . . . . . . . . . . . . . . . . . . . . . . . . 29

2.4.4. Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.4.5. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.4.6. Cuantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.4.7. Recorrido semi-intercuartılico . . . . . . . . . . . . . . . . . . . . . 30

2.4.8. Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.4.9. Coeficientes de asimetrıa . . . . . . . . . . . . . . . . . . . . . . . 31

2.4.10. Coeficiciente de apuntamiento o curtosis . . . . . . . . . . . . . . . 31

2.4.11. Desigualdad de Markov . . . . . . . . . . . . . . . . . . . . . . . . 31

2.4.12. Desigualdad de Tchebychev . . . . . . . . . . . . . . . . . . . . . . 31

2.4.13. Tipificacion de una variable aleatoria . . . . . . . . . . . . . . . . . 32

2.5. Principales distribuciones unidimensionales discretas . . . . . . . . . . . . 32

2.5.1. Distribucion de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . 32

2.5.2. Distribucion binomial . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.5.3. Distribucion geometrica . . . . . . . . . . . . . . . . . . . . . . . . 33

2.5.4. Distribucion binomial negativa . . . . . . . . . . . . . . . . . . . . 34

2.5.5. Distribucion de Poisson . . . . . . . . . . . . . . . . . . . . . . . . 35

2.5.6. Distribucion uniforme discreta . . . . . . . . . . . . . . . . . . . . 36

2.5.7. Distribucion hipergeometrica . . . . . . . . . . . . . . . . . . . . . 36

2.6. Principales distribuciones unidimensionales continuas . . . . . . . . . . . . 38

2.6.1. Distribucion uniforme . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.6.2. Distribucion normal . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.6.3. Distribucion lognormal . . . . . . . . . . . . . . . . . . . . . . . . . 40

2.6.4. Distribucion exponencial . . . . . . . . . . . . . . . . . . . . . . . . 41

2.6.5. Distribucion gamma . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.6.6. Distribucion de Erlang . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.6.7. Distribucion de Weibull . . . . . . . . . . . . . . . . . . . . . . . . 43

2.6.8. Distribucion de tiempo de fatiga . . . . . . . . . . . . . . . . . . . 43

2.6.9. Distribucion beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

2.6.10. Distribuciones asociadas a la normal . . . . . . . . . . . . . . . . . 45

2.7. Variables aleatorias multidimensionales . . . . . . . . . . . . . . . . . . . . 47

2.7.1. Funcion de distribucion de una variable aleatoria bidimensional . . 47

2.7.2. Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . . . 48

2.7.3. Distribuciones condicionadas . . . . . . . . . . . . . . . . . . . . . 49

2.7.4. Independencia de variables aleatorias . . . . . . . . . . . . . . . . . 50

2.7.5. Medidas caracterısticas de una variable aleatoria bidimensional . . 51

2.7.6. Transformaciones de variables bidimensionales . . . . . . . . . . . 54

2.7.7. Caso n-dimensional . . . . . . . . . . . . . . . . . . . . . . . . . . 54

2.8. Modelos multidimensionales de distribucion de probabilidad . . . . . . . . 55

Page 9: Theory (1.75 MB)

INDICE GENERAL VII

2.8.1. Distribucion multinomial . . . . . . . . . . . . . . . . . . . . . . . 552.8.2. Distribucion normal multidimensional . . . . . . . . . . . . . . . . 55

2.9. Sucesiones de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . 572.9.1. Leyes de los Grandes Numeros . . . . . . . . . . . . . . . . . . . . 582.9.2. Teorema Central del Lımite . . . . . . . . . . . . . . . . . . . . . . 59

2.10. Anexo: repaso de combinatoria . . . . . . . . . . . . . . . . . . . . . . . . 612.10.1. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 612.10.2. Combinaciones con repeticion . . . . . . . . . . . . . . . . . . . . . 612.10.3. Variaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 622.10.4. Variaciones con repeticion . . . . . . . . . . . . . . . . . . . . . . . 622.10.5. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 622.10.6. Permutaciones con repeticion . . . . . . . . . . . . . . . . . . . . . 63

2.11. Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3. Inferencia parametrica 733.1. Introduccion a la Inferencia Estadıstica . . . . . . . . . . . . . . . . . . . 733.2. Conceptos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 733.3. Distribucion muestral y funcion de verosimilitud . . . . . . . . . . . . . . 753.4. Distribuciones en el muestreo de poblaciones normales . . . . . . . . . . . 77

3.4.1. Estimacion de la media de una poblacion . . . . . . . . . . . . . . 773.4.2. Estimacion de la varianza de una poblacion . . . . . . . . . . . . . 783.4.3. Estimacion de una proporcion . . . . . . . . . . . . . . . . . . . . . 78

3.5. Intervalos de confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 793.5.1. IC para la media de una poblacion normal . . . . . . . . . . . . . . 793.5.2. IC para la varianza de una poblacion normal . . . . . . . . . . . . 803.5.3. IC para la diferencia de medias de poblaciones normales . . . . . . 803.5.4. Muestras independientes, varianzas poblacionales conocidas . . . . 813.5.5. Muestras independientes, varianzas desconocidas e iguales . . . . . 813.5.6. Muestras independientes, varianzas desconocidas y desiguales . . . 813.5.7. Muestras apareadas, varianzas poblacionales conocidas . . . . . . . 823.5.8. IC para la razon de varianzas de poblaciones normales . . . . . . . 82

3.6. Contrastes de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 833.6.1. Hipotesis estadıstica . . . . . . . . . . . . . . . . . . . . . . . . . . 833.6.2. Contraste para la media de una poblacion normal . . . . . . . . . 853.6.3. Contraste para la varianza de una poblacion normal . . . . . . . . 873.6.4. Contraste para la diferencia de medias de poblaciones normales . . 883.6.5. Contraste para la razon de varianzas de poblaciones normales . . . 913.6.6. Relacion entre intervalos de confianza y contrastes de hipotesis. . . 93

3.7. Ejercicio resuelto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

4. Inferencia no parametrica 954.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 954.2. Hipotesis sobre la distribucion . . . . . . . . . . . . . . . . . . . . . . . . . 95

4.2.1. El contraste χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . . 96

Page 10: Theory (1.75 MB)

VIII INDICE GENERAL

4.2.2. El test de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . 984.2.3. El contraste de Shapiro-Wilks . . . . . . . . . . . . . . . . . . . . . 994.2.4. Contrastes de asimetrıa y curtosis . . . . . . . . . . . . . . . . . . 1004.2.5. Transformaciones para conseguir normalidad . . . . . . . . . . . . 100

4.3. Contrastes de posicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1014.3.1. Test de los signos y rangos para muestras apareadas . . . . . . . . 1014.3.2. Test de Mann-Whitney-Wilcoxon para muestras independientes . . 1014.3.3. Test de Kruskal-Wallis para multiples muestras independientes . . 102

4.4. Hipotesis de independencia . . . . . . . . . . . . . . . . . . . . . . . . . . 1024.4.1. Contraste de rachas . . . . . . . . . . . . . . . . . . . . . . . . . . 1034.4.2. Contraste de autocorrelacion . . . . . . . . . . . . . . . . . . . . . 1044.4.3. Test de Durbin-Watson . . . . . . . . . . . . . . . . . . . . . . . . 105

4.5. Hipotesis sobre la homogeneidad . . . . . . . . . . . . . . . . . . . . . . . 1054.5.1. Test de homogeneidad en tablas de contingencia . . . . . . . . . . 1064.5.2. Test de valores atıpicos . . . . . . . . . . . . . . . . . . . . . . . . 106

4.6. Ejercicio resuelto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

5. Modelos de regresion 1095.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1095.2. Planteamiento e hipotesis basicas . . . . . . . . . . . . . . . . . . . . . . . 110

5.2.1. Hipotesis basicas iniciales . . . . . . . . . . . . . . . . . . . . . . . 1105.3. Estimacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

5.3.1. Propiedades de los estimadores . . . . . . . . . . . . . . . . . . . . 1135.4. Contrastes de regresion y de las hipotesis . . . . . . . . . . . . . . . . . . 1165.5. Prediccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

5.5.1. Prediccion de la media condicionada a x . . . . . . . . . . . . . . . 1195.5.2. Prediccion de una nueva observacion condicionada a x . . . . . . . 120

5.6. Ejercicio resuelto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

Page 11: Theory (1.75 MB)

Capıtulo 1

Estadıstica descriptiva

1.1. Introduccion

El objetivo de la Estadıstica descriptiva es estudiar procedimientos para sintetizar lainformacion contenida en un conjunto de datos ofreciendo un resumen numerico o graficodel estado de las cosas. Precisamente, de este concepto viene el nombre de “Estadıstica”que procede del latın “status” y parte de la necesidad de conocer el entorno en que nosmovemos midiendo elementos individuales para obtener conclusiones generales aplicablesa todo el conjunto.

1.2. Descripcion estadıstica unidimensional

En este apartado estudiaremos procedimientos para resumir la informacion de unacaracterıstica que se pueda observar en los elementos individuales.

1.2.1. Conceptos basicos

Poblacion: Conjunto de personas, objetos o acontecimientos sobre los que quere-mos obtener una conclusion.

Individuo: Cada uno de los elementos de la poblacion.

Muestra: Subconjunto de la poblacion (que representa adecuadamente a la mis-ma).

Variables (o atributos): Son las caracterısticas que se pueden observar o estudiaren los individuos de la poblacion. Segun el tipo de caracterıstica a medir se puedenclasificar en:

• Cualitativas nominales: Miden caracterısticas que no toman valores numeri-cos (color del pelo, raza, etc.). A estas caracterısticas se les llama modalidades.

Page 12: Theory (1.75 MB)

2 1. Estadıstica descriptiva

• Cualitativas ordinales: Miden caracterısticas que no toman valores numeri-cos pero sı presentan entre sus posibles valores una relacion de orden (nivelde estudios: sin estudios, primaria, secundaria, etc.).

• Cuantitativas discretas: Toman un numero discreto de valores (en el con-junto de numeros naturales) (no de hijos de una familia, goles en un partidode futbol, etc.).

• Cuantitativas continuas: Toman valores numericos dentro de un intervaloreal (altura, peso, concentracion de un elemento, etc.).

1.2.2. Frecuencias

El primer metodo para resumir una muestra de tamano n x1,. . . ,xn de una variableestadıstica X, que presenta las modalidades c1,..., cm, es calcular la tabla de frecuencias.Como su nombre indica es una tabla donde se presentan las modalidades observadas ysus frecuencias de aparicion:

Frecuencia Absoluta: Numero de veces que aparece la modalidad. Se deno-tara por ni, 0 ≤ ni ≤ n.

Frecuencia Absoluta Acumulada: Numero de veces que aparece la modalidado valores inferiores. Se denotara por Ni, 0 ≤ Ni ≤ n, Ni−1 ≤ Ni, Nm = n.

Frecuencia Relativa: Tanto por uno de las veces que aparece la modalidad.fi = ni/n, 0 ≤ fi ≤ 1.

Frecuencia Relativa Acumulada: Tanto por uno de las veces que aparece lamodalidad o valores inferiores. Fi = Ni/n, 0 ≤ Fi ≤ 1, Fi−1 ≤ Fi, Fm = 1.

La siguiente tabla muestra la frecuencias para el conjunto de datos Titanic quecontiene 4 variables cualitativas nominales de los 2201 pasajeros y tripulantes que secorresponden a: la clase del pasajero (1a, 2a, 3a y tripulacion), edad (nino/adulto),supervivencia (si/no) y el sexo (hombre/mujer). Vease el anexo para su implementacionen R.

Clase 1st 2nd 3rd Crew

Frec. Absoluta 325 285 706 885

Frec. Relativa 0,1477 0,1295 0,3208 0,4021

Frec. Absoluta acumulada 325 610 1316 2201

Frec. Relativa acumulada 0,1477 0,2771 0,5979 1,00

Si tenemos una variable continua tambien podemos crear una tabla de frecuenciasagrupando estos datos numericos en clases. Para ello podemos seguir las siguientes re-comendaciones:

Page 13: Theory (1.75 MB)

1.2 Descripcion estadıstica unidimensional 3

Utilizar los datos limitando el numero de cifras significativas.

Decidir el numero de clases a utilizar (k) que debe estar entre 5 y 20. Una reglamuy utilizada es hacer k =

√n.

Seleccionar los lımites de cada clase (LI i, LS i) sin ambiguedad y procurar que lasclases sean de igual longitud (salvo informacion que aconseje de distinta longitud).

Tomar como marca de clase el valor medio del intervalo creado.

Las frecuencias acumuladas tienen sentido con variables que presenten orden (cuan-titativas o cualitativas ordinales).

El conjunto de datos airquality dispone de medidas de calidad del aire en NuevaYork con las variables cuantitativas Ozone (ozono en ppb), Solar.R (radiacion solar enlangleys), Wind (viento en mph), Temp (temperatura en oF). En la tabla siguiente semuestra la tabla de frecuencias agrupada en 5 clases para la variable Temp.

Clase Temp (56,64.2] (64.2,72.4] (72.4,80.6] (80.6,88.8] (88.8, 97]

Frec. Abs. 16 23 46 49 19

Marca clase 60,1 68,3 76,5 84,7 92,9

1.2.3. Representaciones graficas

Si la variable toma pocos valores diferentes o es cualitativa, entonces para representarla distribucion de frecuencias no acumuladas se utiliza:

Diagrama de barras: Consiste en un grafico cartesiano en el que se dibuja xi enabscisas y ni (o fi) en ordenadas dibujando barras verticales en cada punto xi delongitud ni (o fi).

Polıgono de frecuencias: Igual que el diagrama de barras pero lo que se unenson los puntos (xi, ni) consecutivos.

Diagrama acumulativo de frecuencias: Se usa para representar frecuenciasacumulativas. Es como el diagrama de barras pero representando la frecuenciaacumulada Ni en vez de la frecuencia absoluta.

Histograma: Es la representacion grafica utilizada para las variables continuas.Es basicamente un diagrama de barras donde la altura de la barra es hi = fi/li,siendo li es la longitud del intervalo o clase. La funcion en R para obtenerlos eshist y ademas de poder dibujar el histograma, calcula las marcas de clase y lasfrecuencias.

Diagrama de sectores (grafico de tarta): Se representa la frecuencia de cadamodalidad proporcionalmente al angulo del sector que lo representa.

Page 14: Theory (1.75 MB)

4 1. Estadıstica descriptiva

Pictograma: Se representa cada modalidad asociando un dibujo cuyo volumen(anchura/altura) es proporcional a la frecuencia.

Diagrama de tallo y hojas: Los datos se redondean a dos o tres cifras signi-ficativas, tomandose como tallo la primera o dos primeras cifras y como hojas lasultimas cifras. El tallo se separa de las hojas por una lınea vertical. Ası, cada tal-lo se representa una sola vez y el numero de hojas representa la frecuencia. Laimpresion resultante es la de “acostar” un histograma.

(56,64.2] (64.2,72.4] (72.4,80.6] (80.6,88.8] (88.8,97]

Diagrama de barras

Temperatura (ºF)

010

2030

40

60 65 70 75 80 85 90

1520

2530

3540

4550

Polígono de frecuencias

Temperatura (ºF)

fabs

Histograma

Temperatura (ºF)

Fre

quen

cy

60 70 80 90 100

05

1015

2025

3035

(56,64.2]

(64.2,72.4]

(72.4,80.6]

(80.6,88.8]

(88.8,97]

Gráfico de tarta para Temperatura (ºF)

56 | 0000

58 | 0000

60 | 000

62 | 000

64 | 0000

66 | 0000000

68 | 0000000

70 | 0000

72 | 00000000

74 | 00000000

76 | 0000000000000000

78 | 000000000000

80 | 0000000000000000

82 | 0000000000000

84 | 0000000000

86 | 000000000000

88 | 00000

90 | 00000

92 | 00000000

94 | 00

96 | 00

1.2.4. Medidas de centralizacion

Introducimos a continuacion un primer conjunto de medidas cuyo objetivo es obtenerun representante del conjunto de los datos.

Media aritmetica

Se define la media aritmetica (o simplemente media) como: x =∑n

i=1 xi/n; x =∑ki=1 cifi donde la primera expresion corresponde a tener todos los datos cuantitativos

y la segunda corresponde a datos agrupados. La media aritmetica tiene interesantespropiedades:

Page 15: Theory (1.75 MB)

1.2 Descripcion estadıstica unidimensional 5

1. mın(xi) ≤ x ≤ max(xi) y tiene las mismas unidades que los datos originales.

2. Es el centro de gravedad de los datos:

n∑

i=1

(xi − x) = 0;n∑

i=1

(xi − x)2 = mına∈R

n∑

i=1

(xi − a)2.

3. Si yi = a+ bxi ⇒ y = a+ bx. (las transformaciones lineales se comportan bien conla media).

Media truncada o recortada

Un inconveniente de la media aritmetica es que un dato anomalo puede hacerla variarmucho. La contribucion de cada dato a la media es xi/n. Si yo me equivoco al medir oanotar el dato xi y le sumo 1000 unidades mas, el efecto que se produce en la media esque se desplaza 1000/n unidades.

Para evitar este efecto se utiliza la media truncada que consiste en calcular la mediaaritmetica de un porcentaje central de los datos (esto es, eliminando un porcentaje delos datos mas bajos y de los mas altos). Ası una media truncada al 10 % calcularıa lamedia aritmetica del 90 % de los valores centrales despreciando el 5 % de los valores masbajos y el 5 % de los mas altos.

La media recortada es un concepto parecido al anterior salvo que en vez de despreciarun porcentaje de los valores mas bajos y mas altos lo que se hace es modificar estosvalores. Se sustituyen los valores mas bajos por el mas bajo de los valores centrales y losvalores mas altos por el mas alto de los valores centrales.

Si en la muestra que hemos recogido no hay datos anomalos, la diferencia entre lamedia truncada (o recortada) y la media aritmetica debe ser pequena. Estas medidas nosuelen utilizarse con valores agrupados.

Mediana

Se define la mediana (Me) como aquel valor que, teniendo los datos ordenados demenor a mayor, deja igual numero de valores a su izquierda que a su derecha. Si elnumero de datos es par se calcula como la media de los dos valores centrales. Si elnumero de datos es impar se toma como mediana el valor central. Si los datos se hanagrupado se determina primero el intervalo mediano (aquel intervalo donde la frecuenciarelativa acumulada es menor o igual que 0,5 en su extremo inferior y mayor que 0,5 ensu extremo superior) para a continuacion elegir un representante de este intervalo comomediana (la marca de clase, LI i + li(0,5-Fi−1)/fi, etc.).

La mediana serıa la medida de posicion central mas robusta (i.e. mas insensiblea datos anomalos) y coincidirıa con la media truncada al 100 %. Ademas la medianaverifica que

∑ni=1 |xi −Me| = mın

a∈R

∑ni=1 |xi − a|.

Page 16: Theory (1.75 MB)

6 1. Estadıstica descriptiva

Moda

La moda de una variable cuantitativa discreta o cualitativa es el valor mas frecuente.En el caso de variables cuantitativas agrupadas se define el intervalo modal como aquelcon mayor frecuencia relativa. La moda puede no ser unica si tenemos varios intervaloscon la misma frecuencia relativa maxima.

Otras medias

Media cuadratica: C =√

1n

∑ni=1 x

2i .

Media geometrica: G = n

√n∏

i=1xi. Usada para medias de ındices o razones.

Media armonica: H =(

1n

∑ni=1

1xi

)−1. Usada para medias de porcentajes y prome-

dios.

Otras medidas de posicion

Cuantiles: Son una generalizacion del concepto de mediana. Teniendo ordenados losdatos se define el cuantil de orden p (0 ≤ p ≤ 1) como el valor (qp) que deja a lo sumo npobservaciones a su izquierda y a lo sumo n(1−p) observaciones a su derecha. La medianaes por tanto el cuantil de orden 0.5. Algunos ordenes de estos cuantiles tienen nombresespecıficos. Ası los cuartiles son los cuantiles de orden (0.25, 0.5, 0.75) y se representanpor Q1, Q2, Q3. Los deciles son los cuantiles de orden (0.1, 0.2,..., 0.9). Los percentilesson los cuantiles de orden j/100 donde j=1,2,...,99. El procedimiento de calculo de loscuantiles es similar al empleado para la mediana.

1.2.5. Medidas de dispersion

Tratan de medir la concentracion o dispersion de las observaciones muestrales.

Varianza y desviacion tıpica

Se define la varianza como s2 = 1n

∑ni=1 (xi − x)2, es decir, como la media aritmetica

de los cuadrados de las desviaciones respecto a la media. Se define la desviacion tıpicacomo la raız positiva de la varianza (s). Se suele utilizar mas la desviacion tıpica porquepresenta las mismas unidades que la variable original. Al estar definidas como promediode cuadrados son siempre no negativas. Respecto a las transformaciones lineales sucedeque si yi = a+ bxi ⇒ s2y = b2s2x y por tanto sy = |b| sx.

Otras medidas de dispersion

Desviacion absoluta respecto a la media: Dx = 1n

∑ni=1 |xi − x|.

Page 17: Theory (1.75 MB)

1.2 Descripcion estadıstica unidimensional 7

Desviacion absoluta respecto a la mediana: DQ2 = 1n

∑ni=1 |xi −Q2|.

Mediana de las desviaciones absolutas: MEDA = Q2 |xi −Q2(x)| : i = 1, . . . , n.

Recorrido o rango: R = max(xi) − mın(xi).

Rango intercuartılico: RI = Q3(x) −Q1(x).

Recorrido relativo: RR = (max(xi) − mın(xi)) /x.

Coeficiente de variacion: CV = s/x.

Las medidas relativas como el recorrido relativo o el coeficiente de variacion solotienen sentido cuando la media de la variable es mayor que cero.

1.2.6. Medidas de forma

Las medidas de forma tratan de medir el grado de simetrıa y apuntamiento en losdatos.

Medidas de asimetrıa

Coeficiente de asimetrıa de Pearson: AsP = (x−Q2) /s.

Coeficiente de asimetrıa de Fisher: AsF =∑n

i=1 (xi − x)3/ns3.

El coeficiente de asimetrıa de Pearson originalmente medıa la diferencia entre mediay moda. En distribuciones unimodales y aproximadamente simetricas la diferencia entremedia y moda es aproximadamente tres veces la diferencia entre media y mediana. Portanto, se utiliza este ultimo porque el primero no puede calcularse propiamente en dis-tribuciones multimodales. En cualquier caso, la interpretacion de estos coeficientes es lasiguiente: Si son practicamente cero se dice que los datos son simetricos. Si toman valoressignificativamente mayores que cero diremos que los datos son asimetricos a la derechay si toman valores significativamente menores que cero diremos que son asimetricos a laizquierda.

Medidas de apuntamiento o curtosis

Miden el grado de concentracion de una variable respecto a su medida de central-izacion usual (media). El mas usual es el coeficiente de apuntamiento de Fisher que sedefine como: SkF =

∑ni=1 (xi − x)4/ns4. Puesto que en Estadıstica el modelo de dis-

tribucion habitual de referencia es el gausiano o normal y este presenta teoricamente uncoeficiente de apuntamiento de 3, se suele tomar este valor como referencia. Ası, si estecoeficiente es menor que 3 diremos que los datos presentan una forma platicurtica, si esmayor que 3 diremos que son leptocurticos y si son aproximadamente 3 diremos que sonmesocurticos.

Page 18: Theory (1.75 MB)

8 1. Estadıstica descriptiva

1.2.7. Otras medidas caracterısticas

Varias de las medidas vistas anteriormente utilizan desviaciones de los datos respectoa la media elevadas a distintos ordenes. Este tipo de coeficientes se denominan momentos.

Se define el momento respecto al origen de orden r (r ≥ 0) como: ar =1n

∑ni=1 x

ri .

Se define el momento central de orden r (r ≥ 0) como: mr = 1n

∑ni=1 (xi − x)r.

La relacion entre los dos tipos de momentos viene dada a partir del binomio de

Newton: mr =∑r

k=0 (−1)k

(rk

)ar−ka

k1.

Casos particulares de los momentos son: a1 = x,m2 = s2,m3 = s3AsF ym4 = s4SkF .

Diagramas de caja

050

100

150

LI

Q1

Med

Q3

LS

Media

Diagrama de caja para variable OzonoLa informacion obtenida a partir de las medi-das de centralizacion, dispersion y forma se puedeusar para realizar diagramas de caja (boxplots)que visualmente nos proporcionen la informacionde como estan distribuidos los datos. El diagramade caja consta de una caja central que esta delimi-tada por la posicion de los cuartiles Q3 y Q1. Den-tro de esa caja se dibuja la lınea que representa lamediana. Tambien ocasionalmente se puede repre-sentar la media dentro de la caja. De los extremosde la caja salen unas lıneas que se extienden hastalos puntos LI = max mın(xi), Q1 − 1,5 (RI) yLS = mın max(xi), Q3 + 1,5 (RI) que represen-tarıan el rango razonable hasta el cual se pueden encontrar datos. Los datos que caenfuera del intervalo (LI, LS ) se consideran datos atıpicos y se representan individualmente.

1.2.8. Transformaciones en los datos y su efecto en el analisis descrip-

tivo

Cuando se desea realizar comparaciones entre valores particulares de variables me-didas en distintas escalas conviene tener una referencia comun para que la comparacionresulte efectiva. Esto se puede conseguir mediante la tipificacion. Se define la variabletipificada de una variable estadıstica X como la variable Z que resulta de restarle sumedia aritmetica y dividir por su desviacion tıpica, esto es, Z = X−x

s . De esta manera,la nueva variable tendra media cero y desviacion tıpica unidad pudiendose comparar susvalores individuales con los de cualquier otra variable tipificada.

Esta transformacion no cambia las medidas adimensionales como son el coeficiente deasimetrıa de Fisher o la curtosis pero por supuesto sı cambia las medidas que presentanunidades. En general, las transformaciones lineales no alteran las medidas de formaadimensionales.

Page 19: Theory (1.75 MB)

1.3 Descripcion estadıstica de varias variables 9

Otro tipo de transformaciones habituales en Estadıstica serıa la familia de transfor-maciones Box-Cox.

X(λ) =

(X+m)λ−1

λ si λ 6= 0,ln(X +m) si λ = 0,

siendo X +m > 0.

Este tipo de transformaciones permiten corregir la asimetrıa de los datos. Ası, paravalores de λ mayores que la unidad se corrigen asimetrıa a la izquierda y para valores λmenores que la unidad se corrigen asimetrıa a la derecha.

En general, si calculamos una nueva variable y como la transformacion h de unavariable x, podemos aproximar el efecto de la transformacion en la media y varianzamediante las siguientes formulas: y ≃ h(x) + 1

2h′′(x)s2x; s2y ≃ s2x [h′(x)]2.

1.3. Descripcion estadıstica de varias variables

Hasta ahora describıamos a cada individuo de la poblacion mediante una unica car-acterıstica, sin embargo lo habitual es que tengamos varias caracterısticas para un mismoindividuo y que estas caracterısticas puedan presentar relacion entre ellas. Empezaremoscon el estudio de variables estadısticas bidimensionales, es decir, tenemos dos caracterısti-cas por cada individuo.

Variable estadıstica bidimensional

X \Y d1 . . . d j . . . d l Marg. X

c1 n11(f11) . . . n1j(f1j) . . . n1l(f1l)∑

j=1,...,l

n1j

(∑

j=1,...,l

f1j

)

...... . . .

... . . ....

ci ni1(fi1) . . . nij(fij) . . . nil(fil)∑

j=1,...,l

nij

(∑

j=1,...,l

fij

)

...... . . .

... . . ....

ck nk1(fk1) . . . nkj(fkj) . . . nkl(fkl)∑

j=1,...,l

nkj

(∑

j=1,...,l

fkj

)

Marg. Y

∑i=1,...,k

ni1

(∑

i=1,...,k

fi1

)

∑i=1,...,k

nij

(∑

i=1,...,k

fij

)

∑i=1,...,k

nil

(∑

i=1,...,k

fil

)n(1)

Estudiaremos las caracterısticas (X,Y ) de una poblacion de la cual obtenemos unamuestra (x1,y1),. . . ,(xn,yn). Igual que hemos hecho con una sola variable, cada una de

Page 20: Theory (1.75 MB)

10 1. Estadıstica descriptiva

estas variables se puede agrupar en modalidades. Supongamos que las modalidades (odatos agrupados) de X son c1,. . . ,ck y las de Y son d1,. . . ,dl. Sea ademas nij el numerode individuos de la muestra que presentan la modalidad ci de x y la dj de y. Este numerose conoce como la frecuencia absoluta del par (ci,dj). Al igual que para variables uni-dimensionales a fij = nij/n se le conoce como frecuencia relativa. Las propiedadesde estos numeros son identicas al caso unidimensional. La distribucion de frecuenciasconjunta de la variable bidimensional (X,Y ) es el resultado de organizar en una tablade doble entrada las modalidades de las variables unidimensionales junto con las corre-spondientes frecuencias absolutas (relativas). Llamaremos distribuciones marginalesa las distribuciones de frecuencias unidimensionales que resultan de agregar todas lasfrecuencias que incluyen una determinada modalidad de la variable unidimensional.

Normalmente se denotaran por

ni· =∑

j=1,...,l

nij

fi· =∑

j=1,...,l

fij

cuando correspondan a frecuencias marginales de la primera variable y por

n·j =∑

i=1,...,k

nij

f·j =∑

i=1,...,k

fij

cuando corresponda a la segunda.

La distribucion de X condicionada a Y=d j es la distribucion unidimensionalde X sabiendo que Y ha tomado la modalidad dj . Esto corresponde a dividir la columnade frecuencias absolutas (relativas) de la modalidad dj por la suma de todos los valoresde la columna. Analogamente se define la distribucion de Y condicionada a X = ci. Lafrecuencia relativa por tanto sera fi/j =

nij

n·j=

fij

f·j.

1.3.1. Representaciones graficas

La representacion grafica de las frecuencias se hace ahora en un diagrama de barrascon dos dimensiones (una para cada variable) y calculando la altura de la barra de formaque la suma de los volumenes sea la unidad (histograma bidimensional).

El diagrama de dispersion es una representacion grafica especıfica para variablesbidimensionales cuantitativas que trata de medir la relacion que existe entre ellas. Con-siste en representar en un eje de coordenadas los pares de observaciones (xi,yi). La nubeası dibujada (a este grafico tambien se le llama nube de puntos) refleja la posible relacionentre las variables. A mayor relacion entre las variables mas estrecha y alargada sera lanube.

Cuando una de las variables sea categorica y la otra cuantitativa la representaciongrafica apropiada incluye todos los graficos vistos para variables unidimensionales peroclasificados por los valores de la variable categorica.

Page 21: Theory (1.75 MB)

1.3 Descripcion estadıstica de varias variables 11

60 70 80 90

050

100

150

Gráfico de dispersión

Temperatura (ºF)

Ozo

no

60 70 80 90

050

100

150

Histograma bidimensional

Temperatura (ºF)

Ozo

no

1.3.2. Momentos

Como ya vimos en el caso unidimensional muchas medidas se pueden escribir enfuncion de los momentos de la variable.

Se define el momento respecto al origen de orden (r,s) (r, s ≥ 0) como:

ars =1

n

n∑

i=1

xri y

si .

Se define el momento central de orden (r,s) (r, s ≥ 0) como:

mrs =1

n

n∑

i=1

(xi − x)r(yi − y)s.

Ası, las medias marginales son, respectivamente, a10 = x y a01 = y. Las varianzasmarginales son, respectivamente, m20 = s2x y m02 = s2y.

1.3.3. Covarianza y correlacion

El caso particular de momento de orden (1,1) se conoce con el nombre de covarianzay puede interpretarse como una medida de relacion lineal entre las variables X e Y .

Cov(X,Y ) = sxy = m11 =1

n

n∑

i=1

(xi − x)(yi − y) =1

n

n∑

i=1

xiyi − x y = a11 − a10a01.

Esta formula es independiente del orden de las variables, es decir, Cov(X,Y )=Cov(Y ,X)y ademas en el caso de que X = Y tendrıamos la definicion de varianza de X.

Se define la correlacion lineal como

r(X,Y ) = rxy =sxy

sxsy.

Page 22: Theory (1.75 MB)

12 1. Estadıstica descriptiva

La correlacion lineal toma valores entre −1 y 1 y sirve para investigar la relacionlineal entre las variables. Ası, si toma valores cercanos a −1 diremos que tenemos unarelacion inversa entre X e Y (esto es, cuando una variable toma valores altos la otratoma valores bajos). Si toma valores cercanos a +1 diremos que tenemos una relaciondirecta (valores altos de una variable en un individuo, asegura valores altos de la otravariable). Si toma valores cercanos a cero diremos que no existe relacion lineal entrelas variables. Cuando el valor de la correlacion lineal sea exactamente 1 o −1 diremosque existe una dependencia exacta entre las variables mientras que si toma el valor cerodiremos que son incorreladas.

1.3.4. Dependencia lineal

En el estudio de variables bidimensionales tiene mucho interes buscar posibles rela-ciones entre las variables. La mas sencilla de estas relaciones es la dependencia linealdonde se supone que la relacion entre la variable dependiente (Y ) y la variable regresora(X) se articula mediante una recta de regresion: Y=β0 + β1X + ε donde ε representael error cometido que se comete al predecir Y mediante la formula lineal de X. El ob-jetivo ahora es buscar los valores de los parametros desconocidos (β0, β1) de la mejormanera posible. Aunque existen muchos metodos, el mas clasico es el conocido comometodo de mınimos cuadrados que consiste en encontrar los valores de los parametrosque, dada la muestra de partida, minimizan la suma de los errores al cuadrado. Dadauna muestra (x1,y1),. . . ,(xn,yn) se trata de encontrar aquellos valores de (β0, β1) tal que∑

i=1,...,n (yi − β0 − β1xi)2 sea mınimo.

Los valores de los parametros se obtienen, por tanto, derivando e igualando a ceroobteniendose la solucion β1 = sxy/s

2x y β0 = y − β1x que seran llamados coeficientes

de la regresion. De esta manera obtendremos la ecuacion de una recta: m(x) = β0 +β1x que llamaremos recta de regresion de Y sobre X para resaltar que se haobtenido suponiendo que Y es la variable respuesta y que X es la variable explicativa.Intercambiando los papeles de X e Y obtendremos una recta de regresion llamada rectade regresion de X sobre Y que representada en el mismo eje de coordenadas sera engeneral distinta de la anterior. Solamente coincidiran en el caso de que la relacion entreX e Y sea exacta.

60 70 80 90

050

100

150

Temp

Ozo

ne

β0^ = − 146.9955

β1^ = 2.428703

Una vez resuelto el problema de estimar losparametros surge la pregunta de si la recta esti-mada es o no representativa para los datos. Estose resuelve mediante el coeficiente de determi-nacion (R2) que se define como el cuadrado delcoeficiente de correlacion lineal. El coeficiente dedeterminacion toma valores entre 0 y 1 y repre-senta el porcentaje de variabilidad de la variabledependiente que es explicada por la regresion. Enel caso de la regresion entre Temp y Ozone, delconjunto de datos airquality, el coeficiente de cor-

Page 23: Theory (1.75 MB)

1.3 Descripcion estadıstica de varias variables 13

relacion lineal es 0,698 y el coeficiente de determinacion es 0,488, que nos dirıa que el48,8 % de la variabilidad del ozono es explicada por la temperatura segun la recta deregresion.

Otra forma de calcular el coeficiente de determinacion es mediante la formula dadapor: R2 = 1 − s2

Rs2y

donde s2R = 1n

∑ni=1 e

2i = 1

n

∑ni=1 (yi − β0 − β1xi)

2 que es conocida

como varianza residual. Esta segunda manera de calcularla es valida para cualquiermodelo de regresion que planteemos mientras que calcular el coeficiente de determinacioncomo el cuadrado del coeficiente de correlacion solo es valido para rectas de regresion.

Generalizacion al caso k-dimensional

Estudiaremos las caracterısticas de una poblacion de la cual obtenemos una mues-tra (x11,...,xk1),. . . ,(x1n,...,xkn). Podemos proceder igual que en el apartado de variablesbidimensionales definiendo la frecuencia absoluta como ni1,...,ik y la frecuencia relati-va como fi1,...,ik =

ni1,...,ikN . Las propiedades de estas frecuencias son identicas al ca-

so bidimensional. La distribucion de frecuencias conjunta de la variable (X1,...,Xk) esel resultado de organizar en una tabla de k dimensiones las modalidades de las vari-ables unidimensionales junto con las correspondientes frecuencias absolutas (relativas).Llamaremos distribuciones marginales a las distribuciones de frecuencias unidimen-sionales que resultan de agregar todas las frecuencias que incluyen una determinadamodalidad de alguna variable unidimensional. Ahora hablaremos de vector de me-dias como el vector k-dimensional que en cada componente presenta la media de cadavariable unidimensional, es decir, (x1, ..., xk). La covarianza entre dos variables Xi y Xj

sera: Cov(Xi, Xj) = sij = 1n

n∑l=1

(xil − xi)(xjl − xj). La varianza de Xi sera sii = s2i y

el coeficiente de correlacion lineal se definira como r(Xi, Xj) = rij =sij

sisj. Finalmente,

llamaremos matriz de varianzas-covarianzas y matriz de correlaciones respectivamentea:

S =

s21 s12 · · · s1k

s21 s22 · · · s12...

.... . .

...sk1 sk2 · · · s21

, R =

1 r12 · · · r1k

r21 1 · · · r12...

.... . .

...rk1 rk2 · · · 1

.

Como la matriz de varianzas-covarianzas no es un numero y por tanto no se puedeinterpretar como dispersion, se conoce como varianza generalizada al determinante dela matriz de varianzas-covarianzas que ahora, al ser un numero, sı se puede interpretarcomo cantidad de incertidumbre. Este determinante es mayor o igual que cero ya que lamatriz de varianzas-covarianzas cumple la propiedad de ser semidefinida positiva (equiv-alente k-dimensional a decir en el caso unidimensional que un numero es mayor o igualque cero). Entonces la varianza generalizada mide el “volumen ocupado” por los datosk-dimensionales generalizando el concepto de varianza para datos unidimensionales.

Page 24: Theory (1.75 MB)

14 1. Estadıstica descriptiva

1.4. Anexo

# El conjunto de datos Titanic contiene 4 variables cualitativas

nominales de los 2201 pasajeros y tripulantes que corresponden a:

la clase del pasajero (1a, 2a, 3a y tripulacion), edad

(ni~no/adulto), supervivencia (si/no) y el sexo (hombre/mujer)#

>data(Titanic)

>fabs<-apply(Titanic,1,sum) # Frecuencia absoluta

>fabs/sum(fabs) # Frecuencia relativa

>facum<-double(length(fabs)) # Se crea un vector de tama~no el de fabs

>for (i in 1:length(fabs)) facum[i]<-sum(fabs[1:i]) # Frec.Abs.Acum.

>facum/sum(fabs) # Frecuencia Relativa Acumulada

# Ejemplo de calculo de frecuencias en variables continuas

>data(airquality)

>f<-cut(airquality$Temp,5) # Asigna datos numericos uno de los 5 grupos

>fabs<-tapply(airquality$Temp,f,length) # Calcula la frec. abs.

(Repetir pasos anteriores para obtener otras frecuencias)

>marca<-numeric() # Creo un vector numerico sin dimension

>for (i in 1:length(fabs))

marca[i]<-sum(type.convert(unlist(strsplit(chartr("(]"," ",

names(fabs[i])),","))))/2

# Calculo las marcas de clase

# Ejemplo de diagrama de barras y de polıgono de frecuencias

>par(mfrow=c(1,2))

>barplot(fabs,xlab="Temperatura (oF)",main="Diagrama de barras")

>plot(marca,fabs,type="l",lwd=3,xlab="Temperatura (oF)",

main="Polıgono de frecuencias")

# Ejemplo de histograma, diagrama de sectores y diagrama de tallo

y hojas

>hist(airquality$Temp)

>pie(fabs)

>stem(airquality$Temp)

# Ejemplo de diagrama de caja y de las medidas de centralizacion,

dispersion y forma

>data(airquality);attach(airquality)

>boxplot(Ozone)

>mOzone<-mean(Ozone,na.rm=T)

>text(rep(1,5),boxplot.stats(Ozone)$stats,c("LI","Q1","Med","Q3","LS"))

Page 25: Theory (1.75 MB)

1.4 Anexo 15

>text(1,mOzone,"Media")

>title("Diagrama de caja para variable Ozono")

>segments(0.8,mOzone,1.2,mOzone)

>quantile(Ozone,probs=c(0.05,0.25,0.50,0.75,0.95),na.rm=T)

5% 25% 50% 75% 95%

7.75 18.00 31.50 63.25 108.50

>var(Ozone,na.rm=T);sd(Ozone,na.rm=T)

[1] 1088.201 # Varianza

[1] 32.98788 # Desviacion estandar

>mean(abs(Ozone[!is.na(Ozone)]-mOzone))

[1] 26.35018 # Desv. Abs.

>mean(abs(Ozone[!is.na(Ozone)]-median(Ozone,na.rm=T)))

[1] 24.88793 # Desv. Absoluta Mediana

>momento.centrado<-function(x,orden)

x.new<-x[!is.na(x)]

mean((x.new-mean(x.new))^orden)

>momento.centrado(Ozone,3)/sd(Ozone,na.rm=T)^3

[1] 1.209866 # Asimetrıa de Fisher

>momento.centrado(Ozone,4)/sd(Ozone,na.rm=T)^4

[1] 4.112243 # Kurtosis

# Ejemplo de grafico de dispersion y de histograma bidimensional

>data(airquality)

>attach(airquality)

>plot(Temp,Ozone,xlab="Temp.oF",ylab="Ozono",main="Graf. de dispersion")

>library(gregmisc) # Librerıa que dispone de la funcion hist2d

>hist2d(Temp,Ozone,nbins=6,xlab="Temperatura oF",ylab="Ozono",

main="Histograma bidimensional")

# Ejemplo de ajuste de recta de regresion

>data(airquality)

>attach(airquality)

>regre<-lm(Ozone~Temp)

>plot(Temp,Ozone)

>abline(regre)

>coef(regre)

>text(60,150,expression(hat(beta[0])==-146.9955))

>text(60,120,expression(hat(beta[1])==2.428703))

>cor(Temp,Ozone,use="pairwise.complete.obs") # Coef. de correlacion

>cor(Temp,Ozone,use="pairwise.complete.obs")^2 # Coef. de determinacion

Page 26: Theory (1.75 MB)

16 1. Estadıstica descriptiva

1.5. Ejercicio resuelto

Ejercicio: Una empresa de informatica dedicada al analisis de virus en ordenadores,contabiliza los virus detectados con su producto en 20 ordenadores de domicilios partic-ulares. Los resultados obtenidos son los siguientes:

46, 29, 35, 61, 54, 37, 53, 57, 52, 51, 43, 67, 66, 31, 53, 51, 48, 59, 55, 47.

a) Construir una tabla con las frecuencias absolutas, relativas, absolutas acumuladasy relativas acumuladas del conjunto de datos.

b) Dibujar un histograma del numero de virus.

c) Obtener la media, mediana, moda, cuartiles, desviacion tıpica, MEDA, coeficientede variacion, percentil del 40 %, el rango y el rango intercuartılico.

Solucion:

a) Este apartado se resuelve con la siguiente tabla:

Pesos Frec. absolutas Frec. relativas Frec. abs. acum. Frec. rel. acum.

ni fi Ni Fi

28 ≤ x < 36 3 0,15 3 0,1536 ≤ x < 44 2 0,10 5 0,2544 ≤ x < 52 5 0,25 10 0,5052 ≤ x < 60 7 0,35 17 0,8560 ≤ x < 68 3 0,15 20 1

20 1

b) La Figura 2.1 resuelve este apartado.

25 30 35 40 45 50 55 60 65 700

1

2

3

4

5

6

7

Figura 1.1: Histograma del numero de virus

Page 27: Theory (1.75 MB)

1.5 Ejercicio resuelto 17

c) Se tiene:

Media: x = 49,75.

Mediana: Me = 51,5.

Moda=51 y 53.

Cuartiles: Q1 = 43, Q3 = 55.

Desviacion tıpica: s = 10,32.

MEDA = 5,5.

Coeficiente de variacion: CV = 0,20.

Percentil del 40 %: Per(40)=48.

Rango: R = max(xi) − mın(xi) = 38.

Rango intercuartılico: RI = Q3(x) −Q1(x) = 12.

Page 28: Theory (1.75 MB)
Page 29: Theory (1.75 MB)

Capıtulo 2

Modelos de distribucion de

probabilidad

2.1. Introduccion

El concepto de probabilidad indica la posibilidad de ocurrencia de un suceso futuro,por ello esta asociado a experimentos donde existe incertidumbre sobre el resultadofinal. Esta es la razon de que la Teorıa de la Probabilidad sea importante por los muchosproblemas practicos que permite resolver. Ademas, supone un soporte teorico para laEstadıstica, mas concretamente para la Inferencia Estadıstica, que es la que nos permiteconocer (inferir) la distribucion de una poblacion a partir del conocimiento de una partede ella (muestra).

La Teorıa de la Probabilidad surgio de los estudios realizados sobre los juegos de azar,y estos se remontan miles de anos atras. Como primeros trabajos con cierto formalismocabe destacar los realizados por Cardano y Galilei (siglo XVI), aunque las bases de estateorıa fueron desarrolladas por Pascal y Fermat en el siglo XVII. De ahı en adelantegrandes cientıficos han contribuido al desarrollo de la Probabilidad, como Bernouilli,Bayes, Euler, Gauss,... en los siglos XVIII y XIX. Sera a finales del siglo XIX y principiosdel XX cuando la Probabilidad adquiera una mayor formalizacion matematica, debidaen gran medida a la llamada Escuela de San Petesburgo en la que cabe destacar losestudios de Tchebychev, Markov y Liapunov.

2.2. Espacio probabilıstico

2.2.1. Experimentos y sucesos

Consideraremos que un experimento es “un proceso por medio del cual se ob-tiene una observacion”. Bajo este enfoque podemos distinguir entre experimentos de-terministas y aleatorios. Los primeros son aquellos que siempre que se repitan bajocondiciones analogas llevan al mismo resultado, por tanto este se puede predecir. Por elcontrario, un experimento aleatorio es el que puede dar lugar a varios resultados, cono-

Page 30: Theory (1.75 MB)

20 2. Modelos de distribucion de probabilidad

cidos previamente, sin que sea posible saber de antemano cual de ellos se va a producir.Estos ultimos son los que interesan a la Teorıa de la Probabilidad. Como ejemplo de losmismos tenemos el observar que numero sale al lanzar un dado al aire. Muchos exper-imentos de la vida real entran en el campo de los experimentos aleatorios, ya que sonmuchas las situaciones en las que no se puede tener un control total sobre las variablesde las que depende que se llegue a una u otra realizacion.

A continuacion, describimos los principales conceptos necesarios para el estudio deun experimento aleatorio:

Suceso elemental: Es cada uno de los posibles resultados del experimento aleato-rio. Se denotan con la letra griega ω.

Espacio Muestral: Conjunto formado por todos los sucesos elementales. Se de-nota por Ω = ω / ω es un suceso elemental.

Suceso: Se llama suceso a cualquier subconjunto del espacio muestral. Se denotapor ∅ al suceso imposible y Ω se corresponde con el suceso seguro.

Ejemplo. Experimento aleatorio: Lanzamiento de un dado.

Suceso elemental: el 3.

Espacio Muestral: Ω = 1,2,3,4,5,6.Suceso: “Salir par” = 2,4,6.

Denotaremos por AC al complementario del suceso A, es decir, AC = Ω −A.

Operaciones con sucesos:

• Union de sucesos: Dados dos sucesos A y B, se define el suceso union,A ∪ B, como el que esta formado por todos los sucesos elementales que estanen A o en B.

• Interseccion de sucesos: Dados dos sucesos A y B, se define el suceso in-terseccion, A ∩ B, como el que esta formado por todos los sucesos elementalesque estan en A y en B.

• Diferencia de sucesos: Dados dos sucesos A y B, se define el suceso difer-encia, A\B, como el que esta formado por todos los sucesos elementales queestan en A y no en B, A\B = A ∩ BC .

Dos sucesos A y B se dicen incompatibles si A ∩ B = ∅.

Para mayor comodidad en el momento en el que se asignen probabilidades a lossucesos, en vez de trabajar con todos los posibles sucesos asociados a un experimentoaleatorio se trabaja con una familia de los mismos que se pretende sea suficiente:

Algebra de sucesos. Es un subconjunto del conjunto de todos los sucesos aso-ciados a un experimento aleatorio, se denota por A y ha de cumplir las siguientescondiciones:

Page 31: Theory (1.75 MB)

2.2 Espacio probabilıstico 21

1. ω, ∅ ∈ A.

2. A ∈ A ⇒ AC ∈ A.

3. A, B ∈ A ⇒ A ∪ B ∈ A, A ∩ B ∈ A.

Llamamos espacio probabilizable es un par (Ω,A); un espacio muestral y un algebra desucesos definida a partir del mismo.

2.2.2. Definiciones de probabilidad

El principal objetivo de un experimento aleatorio suele ser determinar con que prob-abilidad ocurre cada uno de los sucesos elementales. A continuacion citamos las tresdefiniciones mas manejadas para asignar probabilidades a los sucesos:

Definicion frecuentista: Dadas n repeticiones de un experimento aleatorio, sidenotamos por nA el numero de veces que se ha obtenido el suceso A, se define lafrecuencia de dicho suceso como fr(A) = nA

n donde 0 ≤ fr(A) ≤ 1. Cuando n esgrande la frecuencia de un suceso se estabiliza en torno a un valor al que se llamaprobabilidad del suceso A.

Definicion clasica o de Laplace: En el caso de que el espacio muestral sea finitoy de que todos los sucesos elementales tengan la misma probabilidad, se define laprobabilidad de un suceso A como:

P (A) =|A||Ω| =

casos favorables

casos posibles,

donde |A| denota el numero de sucesos elementales que componen el suceso A.

Definicion axiomatica (Kolmogorov 1933): Dado el espacio probabilizable(Ω,A), diremos que P es una probabilidad sobre dicho espacio si cumple:

1. P (Ω) = 1.

2. Si A ∩ B = ∅, entonces P (A ∪ B) = P (A) + P (B).

3. 0 ≤ P (A) ≤ 1.

El espacio probabilizable (Ω,A), junto con la medida de probabilidad P , se denominaespacio de probabilidad y se representa como (Ω,A,P ).

Ejercicio: Prueba que en un espacio de probabilidad (Ω,A,P ) se satisfacen las siguientespropiedades:

1. P (∅) = 0.

2. P (A) = 1 − P (AC).

3. P (A ∪B) = P (A) + P (B) − P (A ∩B).

4. Si A ⊆ B, entonces P (A) ≤ P (B).

Page 32: Theory (1.75 MB)

22 2. Modelos de distribucion de probabilidad

2.2.3. Probabilidad condicionada

Es posible que, al realizar un experimento aleatorio, se disponga de cierta informa-cion que permite reducir el espacio muestral. Para esto se introduce la probabilidadcondicionada; P (A/B) denota la probabilidad de que se produzca el suceso A sabiendoque se va a producir el B. Por ejemplo, si sabemos que al lanzar un dado ha salido unnumero par y queremos saber la probabilidad de que este sea el 4, habrıa que calcularP (4/2,4,6).

De este modo, dado un suceso B tal que P (B) > 0 se define la probabilidad delsuceso A condicionada al suceso B como:

P (A/B) =P (A ∩B)

P (B).

Es importante destacar que dado un suceso B, la funcion PB, que a cada suce-so A le asigna la probabilidad de A condicionada a B, es una funcion de probabili-dad que satisface las propiedades de la definicion axiomatica de Kolmogorov. Es decir,PB(A) = P (A/B).

2.2.4. Independencia de sucesos

Dos sucesos A y B son independientes si el hecho de que se produzca o no uno deellos no afecta a la posible ocurrencia del otro. Formalmente, A y B son independientessi P (A∩B) = P (A) ·P (B) o equivalentemente P (B/A) = P (B) si P (A) > 0 (y tambienP (A/B) = P (A) si P (B) > 0).

Ejercicio: Comprobar que en el lanzamiento de un dado los sucesos A = 4 = Salirun 4 y B = 1,2,3,4 = salir menor que 5 no son independientes. Sin embargo lossucesos C = 2,4,6 = salir par y B sı lo son.

2.2.5. Regla del producto

Dados los sucesos A1, A2, . . . , An, tales que P (n−1⋂i=1

Ai) > 0. Entonces:

P (n⋂

i=1

Ai) = P (A1) · P (A2/A1) · P (A3/(A1 ∩A2) · . . . · P (An/n−1⋂

i=1

Ai).

2.2.6. Teorema de las probabilidades totales

Dados los sucesos A1, A2, . . . , An, tales que Ω =⋃n

i=1Ai y ademas Ai∩Aj = ∅ si i 6=j. Entonces, dado un suceso B se tiene que

Page 33: Theory (1.75 MB)

2.2 Espacio probabilıstico 23

P (B) =n∑

i=1

P (B/Ai) · P (Ai)

A1 A2 AnAn−1. . .

B

Ω

Lo que nos dice este teorema es que dado un conjunto de sucesos mutuamente ex-cluyentes tales que su union sea el suceso seguro Ω, entonces la probabilidad de un sucesocualquiera B se puede descomponer como la suma de las probabilidades de B dentro decada uno de los sucesos (rectangulos del dibujo) por la probabilidad de caer en dichosuceso. Con otras palabras, la probabilidad del suceso B se reparte entre los sucesos enlos que hemos particionado Ω.

2.2.7. Regla de Bayes

Dados los sucesos A1, A2, . . . , An, tales que Ω =⋃n

i=1Ai y ademas Ai∩Aj = ∅ si i 6=j. Entonces, dado un suceso B se tiene que

P (Aj/B) =P (B/Aj) · P (Aj)n∑

i=1P (B/Ai) · P (Ai)

.

Esta formula sale de combinar las formulas de la probabilidad condicionada con elteorema de las probabilidades totales. La utilidad de la misma radica en que conociendocomo son las probabilidades de B condicionadas a los sucesos en los que hemos descom-puesto el espacio muestral, podemos calcular tambien cuanto valen las probabilidadescuando quien condiciona es el propio suceso B.

Ejercicio: En un hospital se realiza una prueba para detectar una enfermedad. Se sabeque la padecen 1 de cada 10.000 personas. Asimismo, tambien se sabe que cuando unpaciente tiene la enfermedad la prueba da positivo el 90 % de las veces y que cuandoesta sano el test da positivo un 10 % de las veces.

a) ¿Cual es la probabilidad de que el test de positivo?

b) ¿Hasta que punto es fiable el test? Es decir, si una persona da positivo, ¿que prob-abilidad hay de que tenga la enfermedad?

Solucion:

a) Aquı se usa el teorema de las probabilidades totales. Denotemos por A el suceso“tener la enfermedad” y por B “el test da positivo”, de modo que sabemos queP (A) = 0,0001, P (B/A) = 0,9, P (B/AC) = 0,1. Entonces:

P (B) = P (B/A)P (A) +P (B/AC)P (AC) = 0,9× 0,0001 + 0,1× 0,9999 = 0,10008.

Page 34: Theory (1.75 MB)

24 2. Modelos de distribucion de probabilidad

b) Ahora utilizamos el teorema de Bayes, se nos pide P (A/B).

P (A/B) =P (B/A)P (A)

P (B/A)P (A) + P (B/AC)P (AC)=

0,00009

0,10008= 0,000899.

De modo que aunque alguien de positivo en el test, la probabilidad de que tengala enfermedad es todavıa muy pequena. Harıa falta una prueba mas fiable.

2.3. Variables aleatorias unidimensionales

Es posible que en un experimento aleatorio tengamos interes en cuantificar los sucesosdel espacio muestral. Por ejemplo, si tenemos un experimento que consiste en tirar 2monedas al aire, es posible que lo que nos interese sea simplemente contar el numero decaras y no nos importe en que monedas han salido las mismas. Para esto se define unavariable aleatoria que asigna a cada suceso elemental un numero real, despues de esto,utilizando la funcion de probabilidad del espacio muestral de partida se puede definiruna nueva probabilidad sobre la recta real. Ademas, el trabajar con numeros reales nospermite hacer uso de herramientas matematicas a la hora de estudiar las propiedades deun determinado experimento aleatorio.

Dado un espacio de probabilidad (Ω,A,P ), la variable aleatoria X se define co-mo una funcion que asocia un numero real a cada suceso elemental de Ω, verificandola propiedad de que el conjunto ω ∈ Ω tal que X(ω) ≤ r = X−1((-∞,r]) pertenecea A. Este requerimiento nos permite definir una probabilidad sobre la recta real de lasiguiente manera: PX(B) = P (X−1(B)).

Ejemplo: Supongamos que nuestro experimento aleatorio consiste en tirar dos monedasal aire, el espacio muestral es (c,c),(c,+),(+,c),(+,+), siendo estos 4 sucesos elementalesequiprobables. Considerese ahora la variable aleatoria X =“Numero de caras”.

Entonces, X(c,c) = 2; X(c,+) = 1; X(+,c) = 1; X(+,+) = 0 y ademas:

PX(0) = P (+,+) = 0,25

PX(1) = P ((c,+) ∪ (+, c)) = 0,5

PX(2) = P (c, c) = 0,25

PX(0) = P (+,+) = 0,25, PX(1) = P ((c,+) ∪ (+,c)) = 0,5, PX(2) = P (c,c) = 0,25. Delmismo modo podrıamos tener:

PX([2, 3)) = P (c, c) = 0,25

PX((−∞, 1]) = P ((c,+) ∪ (+, c) ∪ (+,+)) = 0,75.

A continuacion definimos algunos conceptos que siempre acompanan al de variablealeatoria y nos permiten conocer mejor sus propiedades (y por tanto las del experimentoaleatorio del que proceden).

Page 35: Theory (1.75 MB)

2.3 Variables aleatorias unidimensionales 25

2.3.1. Funcion de distribucion de una variable aleatoria

La funcion de distribucion F de una variable aleatoria X, es una funcion definida enla recta real que toma valores en el intervalo [0,1].

F (x ) = P (X ≤ x) = P (ω ∈ Ω tales que X(ω) ≤ x) = P (X−1((-∞,x]))Para cada valor “x” que puede tomar la variable, la funcion F nos devuelve la

probabilidad de que la variable tome un valor menor o igual que x.Propiedades de una funcion de distribucion:

1. 0 ≤ F (x) ≤ 1.

2. F es no decreciente.

3. lımx→+∞

F (x) = 1.

4. lımx→−∞

F (x) = 0.

5. F es continua por la derecha.

Ejemplo: Considerese la variable aleatoria del anterior ejemplo (contar el numero decaras al lanzar dos monedas al aire).

library(stepfun) # paquete para funciones de distribucion

x<-c(0,1,1,2) # valores que toma la variable

plot(ecdf(x),do.points=FALSE,verticals=TRUE) # representamos F

# La funcion ecdf calcula F y plot la dibuja

−1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

ecdf(x)

x

Fn(

x)

Vemos en la grafica que el salto en 1 es el doble de grande que los saltos que seproducen en 0 y 3. Ademas se pueden comprobar facilmente las 5 propiedades.

Antes de seguir con los conceptos asociados a las variables aleatorias debemos dis-tinguir entre variables aleatorias discretas y continuas.

Page 36: Theory (1.75 MB)

26 2. Modelos de distribucion de probabilidad

2.3.2. Variables aleatorias discretas

Son aquellas que solo toman valores dentro de un conjunto finito o infinito numerable.Funcion de masa de probabilidad de una variable discreta: Es la que nos

indica la probabilidad de cada uno de los valores de la variable (no es acumulada comola funcion de distribucion). Se denota por p, por tanto p(x) = P (X = x).

En el caso de las variables discretas se cumple que F (x) =∑

y≤x p(y), la funcion dedistribucion se obtiene “acumulando los valores” que va tomando la funcion de masa deprobabilidad.

2.3.3. Variables aleatorias continuas

Una variable aleatoria es continua si toma todos los valores en uno o varios inter-valos de la recta real (por tanto toma una cantidad de valores infinita no numerable).Imaginemos que tenemos un experimento aleatorio que nos permite sacar un numero alazar entre 0 y 1 de tal manera que todos son equiprobables. En este caso todos ellostienen probabilidad 0 y sin embargo tenemos que la probabilidad total es 1 o que laprobabilidad de obtener un numero menor o igual que 0,5 es F (0,5) = 0,5. La funcionde densidad nos mide como crece la funcion de distribucion en cada punto (que no es lomismo que la probabilidad en ese punto).

Funcion de densidad de una variable continua: Se denota por f , y se calcula:

f(x) = F ′(x) =dF (x)

dx= lım

h→0

P (x− h ≤ X ≤ x+ h)

2h.

La funcion de distribucion se obtiene “acumulando los valores” que va tomando la

funcion de densidad F (x0) =x0∫

−∞f(x)dx. La funcion de densidad no indica probabilidad,

es el area bajo la curva quien lo hace, de ahı que haya que integrar.Propiedades:

1. f(x) ≥ 0, −∞ < x < +∞.

2.+∞∫

−∞f(x)dx = F (+∞) = 1.

3. P (a ≤ X ≤ b) =b∫af(x)dx = F (b) − F (a).

4. Todo punto tiene probabilidad 0, P (X = x0) =∫ x0

x0f(x)dx = 0.

Funcion de masa de probabilidad y funcion de densidad son conceptos analogos, eluso de uno u otro depende de la naturaleza de la variable en estudio.

Aunque aquı no las vamos a estudiar, tambien es posible encontrarse con variablesaleatorias en las cuales determinados valores puntuales se toman con una probabilidadpositiva y el resto de valores se toman dentro de uno o varios intervalos de acuerdo auna funcion de densidad. En estos casos se hablara de variables aleatorias mixtas.

Page 37: Theory (1.75 MB)

2.3 Variables aleatorias unidimensionales 27

0 x0 x

f(x)

F (x0)

0 a b x

f(x)

P (a ≤ X ≤ b)

2.3.4. Cambio de variable

Supongamos que tenemos una variable aleatoria X que nos mide la temperatura enun determinada region. Es posible que nosotros estemos interesados en estudiar como delejos estan sus valores de los veinte grados, para esto habrıa que estudiar cosas del tipoP (20−α ≤ X ≤ 20+α). Sin embargo, si consideramos la variable aleatoria Y = |X − 20|,tendrıamos probabilidades de la forma P (Y ≤ α), porque ahora el punto de interes hapasado a ser el 0 y ademas todos los valores son positivos (solo querıamos estudiar comode lejos estaban los valores del 20, no hacia que lado). Los cambios de variable sontodavıa mas utiles a la hora de trabajar con las medidas caracterısticas de una variablealeatoria (siguiente tema).

A partir de una variable aleatoria X, definimos la variable Y = g(X), donde g hade ser una funcion continua y monotona (esto es para poder trabajar comodamente coninversas, aunque tambien se pueden estudiar transformaciones mas generales). Ahoraveremos como calcular la funcion de distribucion asociada a la variable Y conociendo lade X.

En general, si denotamos por G a la funcion de distribucion de la variable Y tenemos:

G(y) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ∈ g−1((−∞, y])).

Ahora veremos como adaptar esta formula segun la variable sea discreta o continua:

Caso discreto: Sea X una variable aleatoria discreta que toma valores xi, confuncion de masa de probabilidad p, es decir P (X = x) = p(x). Entonces para la variablealeatoria Y , que toma los valores yj tenemos:

Page 38: Theory (1.75 MB)

28 2. Modelos de distribucion de probabilidad

P (Y = yj) = P (g(X) = yj) = P (g−1(yj)) =∑

i

P (xi tales que g(xi = yj)).

Caso continuo: Sea X una variable continua con funcion de densidad fX(x), sea guna funcion continua y monotona. Entonces Y = g(x) y, equivalentemente, X = g−1(Y ).Denotamos por fY (y) a la funcion de densidad de la variable transformada, entonces:

fY (y) = fX(g−1(y))

∣∣∣∣dg−1(y)

dy

∣∣∣∣ = fX(g−1(y))

∣∣∣∣dx

dy

∣∣∣∣ .

El valor J =∣∣∣dxdy

∣∣∣ se conoce como el jacobiano de la transformacion.

Ejemplo: Si tuviesemos Y = g(X) = aX + b, entonces X = g−1(Y ) = Y −ba . Por tanto

J =∣∣∣dxdy

∣∣∣ =∣∣∣dg−1(y)

dy

∣∣∣ =∣∣ 1a

∣∣, de modo que fY (y) = fX

(y−ba

) ∣∣ 1a

∣∣.

2.4. Medidas caracterısticas de una variable aleatoria

La interpretacion de conceptos como media o varianza o momentos es la misma quese hacıa en el primer tema.

2.4.1. Media o esperanza matematica de una variable aleatoria

Caso discreto: Sea X una variable aleatoria discreta que toma valores x1, x2,. . .,xi,. . ., xn,. . ., con probabilidades p1, p2, . . . , pi, . . . , pn, . . . La media o esperanza matematicade la variable X es el numero real:

µ = E(X) =∑

i

xipi (supuesto que∑

i

|xi| pi <∞).

Caso continuo: Sea X una variable aleatoria continua con funcion de densidad f ,la media o esperanza matematica de la variable X es el numero real:

µ = E(X) =

+∞∫

−∞

xf(x)dx (supuesto que

+∞∫

−∞

|x| f(x)dx <∞).

Notese que las dos definiciones son en realidad la misma, solo que utilizando en cadacaso la herramienta matematica apropiada. En el primer caso se realiza el promedio atraves de sumatorios. En el segundo, debido a la imposibilidad de hacer un promediosobre un continuo con un sumatorio, se ha de echar mano de las integrales.

Propiedades:

1. E(aX + b) = aE(X) + b.

2. E(X + Y ) = E(X) + E(Y ).

Page 39: Theory (1.75 MB)

2.4 Medidas caracterısticas de una variable aleatoria 29

3. E(X · Y ) = E(X) · E(Y ) ⇔ X e Y son independientes.

4. Si Y = g(X) entonces:

E(Y ) =∑ig(xi)pi (caso discreto).

E(Y ) =+∞∫

−∞g(x)f(x)dx (caso continuo).

2.4.2. Varianza de una variable aleatoria

Sea X una variable aleatoria con media µ = E(X), la varianza de X es el valoresperado de los cuadrados de las diferencias con respecto de la media:

σ2 = Var(x) = E((X − E(X))2).

Caso discreto: La formula de la varianza en el caso discreto se puede escribir como:

σ2 =∑

x∈X

(x− E(x))2p(x).

Caso continuo: La formula ahora es σ2 =+∞∫

−∞(x− E(x))2f(x)dx.

La desviacion tıpica es la raız positiva de la varianza: σ = +√

Var(X). La principalventaja de la desviacion tıpica sobre la varianza es que los resultados vienen en las mismasunidades que los valores de la variable.

Propiedades:

1. Var(aX + b) = a2Var(X).

2. Var(X) = E((X − E(X))2) = E(X2 − 2E(X)X + E(X)2) = E(X2) − E(X)2

(usando que E(X) es una constante). Esta es la formula reducida para el calculode la varianza.

2.4.3. Coeficiente de variacion

El coeficiente de variacion se define CV (X) = σµ siempre que µ sea distinto de 0.

Se usa para comparar entre sı los grados de dispersion de distintas variables, estecoeficiente no varıa ante cambios de escala.

2.4.4. Momentos

Los momentos se dividen en dos tipos; momentos respecto del origen y momentosrespecto de la media. A continuacion damos una pequena intuicion de la utilidad de losmomentos. Los primeros, entre los que se incluye la media, tienen como objetivo calcularla esperanza de las variables X, X2,. . . ,Xn. Los momentos respecto de la media, cuando

Page 40: Theory (1.75 MB)

30 2. Modelos de distribucion de probabilidad

tienen orden par miden dispersion y cuando tienen orden impar se usan para medirasimetrıas.

El momento de orden r de una variable X, denotado por ar, es la esperanza dela variable Xr

ar = E(Xr).

El momento central de orden r o momento de orden r con respecto de la media,denotado por mr se calcula como

mr = E ((X − E(X))r) .

A la vista de esta formula se ve facilmente porque los momentos centrales de orden parmiden dispersion y los de orden impar asimetrıas: si el orden es par todas las diferenciascon respecto de la media se elevan a una potencia par, haciendose positivas, de modoque las distancias a izquierda y derecha de la media se suman. Por el contrario, cuandoel exponente es impar las diferencias a izquierda y derecha se van cancelando, llevandoa asimetrıas positivas o negativas segun el signo.

2.4.5. Mediana

La mediana de una variable aleatoria es una medida de centralizacion, divide ladistribucion en dos partes de igual probabilidad. Se denota por Me y ha de cumplir queF (Me) = 0,5.

Notese que esta definicion no implica que la mediana sea unica (cosa que sı pasabacon la media).

2.4.6. Cuantiles

Suponen una generalizacion de la mediana.Los cuantiles de orden p, con 0 < p < 1, denotados por Qp son aquellos valores

xp tal que la probabilidad de los valores a su izquierda coincide con p, esto es F (xp) = p(para el caso discreto se toma ınf x : F (x) ≥ p).

Los cuantiles mas usados son aquellos con probabilidades 0,25, 0,5 (mediana) y 0,75denominados primer, segundo y tercer cuartil respectivamente (Q1, Q2, Q3).

2.4.7. Recorrido semi-intercuartılico

Es una medida de dispersion, se denota por SIQR y viene dado por

SIQR = (Q3 −Q1)/2.

2.4.8. Moda

La moda de una variable aleatoria, denotada por Mo, es el valor que maximiza lafuncion de probabilidad o la funcion de densidad, segun se trate de una variable discretao continua.

Page 41: Theory (1.75 MB)

2.4 Medidas caracterısticas de una variable aleatoria 31

2.4.9. Coeficientes de asimetrıa

Nos sirven para saber si la funcion de probabilidad tiene mas peso a un lado u otrode la media:

Coeficiente de asimetrıa de Pearson: AsP = (µ−Me) /σ.

Coeficiente de asimetrıa de Fisher: AsF = m3/σ3.

2.4.10. Coeficiciente de apuntamiento o curtosis

Mide el grado de concentracion de los datos alrededor de la media, se denota porSkF y se calcula como SkF = m4/σ

4. Un valor superior a 3 indica mayor concentracionque en la distribucion normal, y una variable con este valor se denomina leptocurtica.Analogamente si el valor es 3 se habla de mesocurtica y el termino platicurtica seusa cuando SkF < 3.

2.4.11. Desigualdad de Markov

Si X es una variable aleatoria que solo toma valores no negativos, entonces la de-sigualdad de Markov nos dice que

P (X ≥ k) ≤ E(x)

k, k > 0.

Si pensamos en transformaciones de la variable X tenemos tambien que

P (g(X) ≥ k) ≤ E(g(x))

k, k > 0,

donde lo unico que debemos exigirle a g es que sea no negativa.

Conocida la media de la variable aleatoria, esta desigualdad nos permite conoceruna cota para la probabilidad de que la variable tome valores por encima de un valorarbitrario k.

2.4.12. Desigualdad de Tchebychev

Dada una variable aleatoria X con media µ y desviacion tıpica σ, la desigualdad deTchebychev nos dice que para cualquier constante positiva k tenemos

P (|X − µ| ≥ kσ) ≤ 1

k2.

Esta desigualdad nos permite dar una cota para la dispersion de la variable en funcionde la desviacion tıpica. Por ejemplo, para k = 3 nos dice que la probabilidad de que unavariable aleatoria tome valores en el intervalo [µ−3σ, µ+3σ] es siempre superior a 0,88.La desigualdad de Tchebychev es un caso particular de la desigualdad de Markov cuandotomamos g(x) = (X − E(X))2 y k = k2σ2.

Page 42: Theory (1.75 MB)

32 2. Modelos de distribucion de probabilidad

2.4.13. Tipificacion de una variable aleatoria

Una variable aleatoria esta estandarizada o tipificada si su media es 0 y su vari-anza 1. Una variable aleatoria con media µ y desviacion tıpica σ se puede estandarizarmediante la transformacion Y = X−µ

σ . Tipificar variables es de gran utilidad a la horade trabajar con variables cuyas probabilidades estan tabuladas.

2.5. Principales distribuciones unidimensionales discretas

2.5.1. Distribucion de Bernoulli

Los experimentos de Bernoulli son aquellos que solo presentan dos posibles resultados:exito/fracaso. La variable X toma entonces los valores 0,1. La probabilidad p de 1(exito) se conoce de antemano. Esta probabilidad es siempre la misma, no varıa a medidaque se repite el experimento.

La distribucion de Bernoulli es la que estudia un experimento de Bernoulli que serealiza una sola vez.

X =

0 si fracaso,1 si exito.

La funcion de probabilidad de una distribucion de Bernoulli de parametro p esP (X = 1) = p y P (X = 0) = 1 − p.

Caracterısticas: E(X) = p, Var(X) = p(1 − p).

2.5.2. Distribucion binomial

Se denota como B(n, p) a la repeticion n veces de un proceso de Bernoulli de parametrop (por tanto una distribucion B(1,p) es una distribucion de Bernoulli).

Ejemplos de variables que se pueden estudiar con este modelo podrıan ser “numerode caras al tirar 10 veces una moneda” o “numero de piezas defectuosas en un procesode fabricacion”.

Funcion de probabilidad: P (X = x) =

(nx

)px(1 − p)n−x, x = 0, 1, ..., n.

Caracterısticas: E(X) = np, Var(X) = np(1 − p).

Esta distribucion se utiliza en procesos de control de calidad y en el muestreo conreemplazamiento.

Dadas las variables X ∈ B(n, p) e Y ∈ B(m, p), entonces la variable aleatoria X +Yse distribuye segun una B(n+m, p).

Ejercicio: En un proceso de fabricacion de microchips, la probabilidad de que unapieza salga defectuosa es p = 0,001, si cada dıa se producen 10.000 piezas ¿Cual es laprobabilidad de que un dıa no haya ningun chip defectuoso?¿y de que haya como mucho10 defectuosos?

Page 43: Theory (1.75 MB)

2.5 Principales distribuciones unidimensionales discretas 33

Solucion:

P (X = 0) =

(10000

0

)· 0,0010 · 0,99910000 = 0,00004517.

Para el segundo caso tendrıamos:

P (X ≤ 10) =10∑

x=0

(10000x

)· 0,001x · 0,99910000−x.

Haciendo el calculo con R obtenemos:

pbinom(10,10000,0.001)

[1] 0.5830398

# Funcion de masa de probabilidad de una B(20,0.7)

plot(dbinom(1:20,20,0.7),xlab="exits",type=’’h’’)

# Funcion de distribucion de una B(20,0.7)

plot(pbinom(1:20,20,0.7),xlab="exits",type="S")

5 10 15 20

0.00

0.05

0.10

0.15

exits

dbin

om(1

:20,

20,

0.7

)

5 10 15 20

0.0

0.2

0.4

0.6

0.8

1.0

exits

pbin

om(1

:20,

20,

0.7

)

La distribucion binomial esta tabulada (existen tablas para consultar las probabili-dades), de todos modos, cuando el valor de n es suficientemente grande, se puede aproxi-mar una B(n, p) por una distribucion de Poisson de parametro λ = np. Esta aproximacionse considera buena cuando n > 30 y p < 0,1. Ademas, si n > 30 y 0,1 < p < 0,9, consider-aremos buena la aproximacion por una distribucion normal N(np,

√np(1 − p)) (Esto lo

veremos en mas detalle al final del tema, al hablar de las relaciones entre distribuciones).

2.5.3. Distribucion geometrica

Consideramos nuevamente el experimento que consiste en repetir n veces un experi-mento de Bernoulli y tomamos la variable aleatoria X = “numero de fracasos antes de

Page 44: Theory (1.75 MB)

34 2. Modelos de distribucion de probabilidad

obtener el primer exito”. (Nuevamente se considera que la probabilidad de exito en cadarepeticion viene dada por el parametro p)

La funcion de probabilidad es de la forma:

P (X = x) = (1 − p)xp, x = 0, 1, ..., n.

Caracterısticas: E(X) = (1 − p)/p, Var(X) = (1 − p)/p2.

# Funcion de masa de prob. de una geometrica con prob. de acierto 0.1

plot(dgeom(1:20,0.1),xlab="exits",type="h")

# Funcion de distribucion

plot(pgeom(1:20,0.1),xlab="exits",type="S")

5 10 15 20

0.02

0.04

0.06

0.08

exits

dgeo

m(1

:20,

0.1

)

5 10 15 20

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

exits

pgeo

m(1

:20,

0.1

)

2.5.4. Distribucion binomial negativa

Es una generalizacion del caso anterior, consiste en estudiar la variable X = “numerode fracasos antes de obtener el exito n”. Se denota por BN(n, p) (la geometrica es entoncesuna BN(1,p))

Su funcion de probabilidad es:

P (X = x) =

(n+ x− 1

x

)pn(1 − p)x, x = 0, 1, ..., n, . . .

Caracterısticas: E(X) = n(1 − p)/p, Var(X) = n(1 − p)/p2.Se utiliza por ejemplo en estudios de fiabilidad de sistemas.

# Funcion de masa de prob. de una binomial negativa con prob. de

acierto 0.1, en la que pedimos tener 2 aciertos.

plot(dnbinom(1:100,2,0.1),xlab="exits",type="h")

# Lo mismo pero ahora pedimos 4 aciertos

plot(dnbinom(1:100,4,0.1),xlab="exits",type="h")

Page 45: Theory (1.75 MB)

2.5 Principales distribuciones unidimensionales discretas 35

0 20 40 60 80 100

0.00

0.01

0.02

0.03

0.04

exits

dnbi

nom

(1:1

00, 2

, 0.1

)

0 20 40 60 80 100

0.00

00.

005

0.01

00.

015

0.02

0

exits

dnbi

nom

(1:1

00, 4

, 0.1

)

2.5.5. Distribucion de Poisson

Un proceso de Poisson generaliza en cierta manera al proceso de Bernoulli. Consisteen observar el numero de veces que se presenta un suceso (numero de exitos) en undeterminado intervalo (generalmente de tiempo). En estos procesos se asume que hayestabilidad, en el sentido de que el numero de sucesos por unidad de tiempo (λ) per-manece constante. Como ejemplos tendrıamos “numero de fallos superficiales en un cablede red por unidad de tiempo (o por unidad de superficie)”, “espectadores que llegan ala cola de un cine”,... De modo que, considerado un proceso de Poisson, la distribucionde Poisson mide el “numero de sucesos ocurridos en un intervalo”.

La formula de la funcion de distribucion de la distribucion de Poisson es:

P (X = x) =e−λλx

x!, x = 0, 1, ...

Caracterısticas: E(X) = Var(x) = λ.

Dadas dos variables X ∈ Pois(λ1) e Y ∈ Pois(λ2) la variable X + Y tiene unadistribucion Pois(λ1 + λ2).

La distribucion de Poisson se obtiene como lımite de la binomial cuando n→ ∞ yp→ 0. Es decir, si repetimos una gran cantidad de veces un proceso con probabilidadmuy pequena de exito, se podrıa utilizar la distribucion de Poisson para obtener unabuena aproximacion del resultado (notese que la distribucion de Poisson es, en general,mas facil de calcular que la binomial debido al problema computacional de los numeroscombinatorios).

# Funcion de masa de prob. de una Poisson de parametro 10

plot(dpois(1:30,10),xlab="exits")

# Funcion de distribucion de una Poisson de parametro 10

plot(ppois(1:30,10),xlab="exits",type="S")

Page 46: Theory (1.75 MB)

36 2. Modelos de distribucion de probabilidad

0 5 10 15 20 25 30

0.00

0.02

0.04

0.06

0.08

0.10

0.12

exits

dpoi

s(1:

30, 1

0)

0 5 10 15 20 25 30

0.0

0.2

0.4

0.6

0.8

1.0

exits

ppoi

s(1:

30, 1

0)Cuando el valor del parametro λ es mayor que 5, la Pois(λ) se puede aproximar por

una normal N(λ,√λ).

2.5.6. Distribucion uniforme discreta

Una variable aleatoria X que toma los valores x1,. . . ,xn se dice uniforme si todosellos son equiprobables.

Funcion de probabilidad: P (X = x) = 1n , x = x1, ..., xn.

Caracterısticas: E(X) = 1n

∑ni=1 xi, Var(X) = 1

n

∑ni=1 (xi − E(X))2.

2.5.7. Distribucion hipergeometrica

Si repetimos un experimento aleatorio del tipo “extraer una carta de una baraja”,la variable aleatoria “numero de oros obtenidos” puede estudiarse como una binomialsiempre y cuando la carta extraıda sea introducida de nuevo antes de repetir el exper-imento. Cuando esto no es ası, y las extracciones se realizan sucesivamente pero sinreemplazamiento, es necesario recurrir a la distribucion hipergeometrica.

Consideremos una poblacion finita de N elementos, k de ellos de la clase D (orosen la baraja) y N - k del resto. Si ahora tomamos una muestra sin reemplazamiento yestudiamos la variable aleatoria X = “Numero de elementos de la clase D en la muestrade tamano n”, esta sigue una distribucion hipergeometrica H(N ,n, k). Sea p = k/N laprobabilidad de obtener un elemento de la clase D en la primera extraccion.

Funcion de probabilidad:

P (X = x) =

(kx

)·(N − kn− x

)

(Nn

) , max 0, n− (N − k) ≤ x ≤ mın k, n .

Page 47: Theory (1.75 MB)

2.5 Principales distribuciones unidimensionales discretas 37

Caracterısticas: E(X) = np, Var(X) = np(1 − p)(N − n)/(N − 1).La distribucion hipergeometrica se utiliza en el muestreo de una poblacion finita sin

reemplazamiento, por contraposicion a la binomial que se utiliza cuando hay reemplaza-miento. En el caso de que el tamano de la poblacion sea muy grande, la hipergeometricase puede aproximar por la normal (la probabilidad de exito apenas varıa entre cadarepeticion del experimento).

Ejemplo: Supongamos que tenemos una baraja y extraemos 10 cartas, queremos saberla probabilidad de extraer entre ellas 1,2,. . . 10 oros:

array(c(0:10,dhyper(0:10,10,30,10)),c(11,2))

[,1] [,2]

[1,] 0 3.544463e-02

[2,] 1 1.687840e-01

[3,] 2 3.107159e-01

[4,] 3 2.882003e-01

[5,] 4 1.471022e-01

[6,] 5 4.236544e-02

[7,] 6 6.789333e-03

[8,] 7 5.747584e-04

[9,] 8 2.309297e-05

[10,] 9 3.539153e-07

[11,] 10 1.179718e-09

Graficamente esto serıa:

x<-c(0:10)

# Funcion de masa de prob. de una hipergeometrica H(40,10,10)

plot(x,dhyper(x,10,30,10),xlab="exits",type="h")

# Funcion de distribucion

plot(x,phyper(x,10,30,10),xlab="exits",type="S")

0 2 4 6 8 10

0.00

0.05

0.10

0.15

0.20

0.25

0.30

exits

dhyp

er(x

, 10,

30,

10)

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

exits

phyp

er(x

, 10,

30,

10)

Page 48: Theory (1.75 MB)

38 2. Modelos de distribucion de probabilidad

Cuando N se hace muy grande, esta distribucion se puede aproximar por la binomial,en general se considera buena esta aproximacion cuando n/N < 0,1.

2.6. Principales distribuciones unidimensionales continuas

2.6.1. Distribucion uniforme

Como el propio nombre indica, una variable aleatoria sigue una distribucion uniformesi todos los valores en el intervalo en el que esta definida son igual de probables:

Funcion de densidad, f(x) =

1

b−a si x ∈ (a, b),

0 resto.

Funcion de distribucion, F (x) =

0 si x < a,x−ab−a si a ≤ x ≤ b,

1 si x > b.

Caracterısticas: E(X) = a+b2 , Var(X) = (b−a)2

12 .

x<-seq(4,6,0.05)

# Densidad de una uniforme en el intervalo [4,6]

plot(x,dunif(x,4,6),xlab="exits",type="l")

# Funcion de distribucion

plot(x,punif(x,4,6),xlab="exits",type="l")

4.0 4.5 5.0 5.5 6.0

0.3

0.4

0.5

0.6

0.7

exits

duni

f(x,

4, 6

)

4.0 4.5 5.0 5.5 6.0

0.0

0.2

0.4

0.6

0.8

1.0

exits

puni

f(x,

4, 6

)

2.6.2. Distribucion normal

La distribucion normal es la mas usada de todas las distribuciones de probabilidad.Gran cantidad de experimentos se ajustan a distribuciones de esta familia, por ejemploel peso y la talla de una persona, los errores de medicion... Ademas, si una variable es

Page 49: Theory (1.75 MB)

2.6 Principales distribuciones unidimensionales continuas 39

el resultado de la suma de variables aleatorias independientes, es bastante posible quepueda ser aproximada por una distribucion normal.

Una normal de media µ y varianza σ2 se denota N(µ,σ).

Funcion de densidad: f(x) = 1σ√

2πe

−(x−µ)2

2σ2 , −∞ < x <∞.

A pesar de su complicada expresion, puede ser obtenida como lımite de la binomialcuando n tiende a infinito. Cabe destacar que es una funcion simetrica, con un maximoen x = µ y puntos de inflexion en x = µ− σ y x = µ+ σ.

Caracterısticas: E(X) = µ, Var(X) = σ2.

Cuando definimos la curtosis dijimos que normalmente se hablaba de “apuntamiento”con respecto a una variable normal, sin decir nada de la media o varianza de la misma.Esto es porque todas las distribuciones normales tienen la misma curtosis.

# Rango en el que representaremos la funcion

x<-seq(-12,12,by=0.1)

# Representamos una N(0,1)

plot(x,dnorm(x,0,1),ylab="",xlab="",type="l")

# En trazo discontinuo una N(0,3)

lines(x,dnorm(x,0,3),lty=5)

−10 −5 0 5 10

0.0

0.1

0.2

0.3

0.4

El apuntamiento es una medida relativa, se trata de grado de apuntamiento conrespecto a la dispersion. Es decir, si las dos distribuciones tuvieran la misma desviaciontıpica, sus graficas serıan igual de apuntadas (por eso la formula de la curtosis tiene ladesviacion tıpica en el denominador).

Comprobemos a traves de una simulacion en R que las distribuciones N(0,1) y N(0,3)tienen el mismo apuntamiento. Como se observa en la simulacion, el coeficiente de kur-tosis calculado para las muestras generadas de ambas distribuciones es practicamente elmismo.

Page 50: Theory (1.75 MB)

40 2. Modelos de distribucion de probabilidad

#Funcion para el calculo de la curtosis

curtosis<-function(x)

momento.centrado(x,4)/(sd(x,na.rm=TRUE)\ 4*(length(x[!is.na(x)])-

1)/length(x[!is.na(x)]))

# Simulamos 100000 valores de la N(0,1) y otros tantos de la N(0,3)

simdesv0=rnorm(100000,0,1)

simdesv3=rnorm(100000,0,3)

# Computamos sus curtosis y vemos que en ambos casos nos encontramos

muy cerca de 3 (valor teorico esperado)

curtosis(simdesv0)

[1] 2.990247

curtosis(simdesv3)

[1] 2.993902

Aunque este pequeno ejemplo no tiene valor teorico sirve para ilustrar que estas dosdistribuciones tienen el mismo coeficiente de apuntamiento.

Si X ∈ N(µ1, σ1) e X ∈ N(µ2, σ2) entonces la variable X + Y sera del tipo N(µ1 +µ2,√σ2

1 + σ22). De aquı sacamos que la combinacion lineal de variables aleatorias nor-

males e independientes tambien es una variable aleatoria normal.

2.6.3. Distribucion lognormal

Una variable X es lognormal si la variable Y = ln(X) sigue una distribucion normal.

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

0.5

0.6

x

dlno

rm(x

, 0, 1

)

Funcion de densidad:

f(x) =

1

σx√

2πe

−(ln x−µ)2

2σ2 si x > 0,

0 resto.

Caracterısticas:

E(X) = e(2µ+σ2)/2,

Var(X) = e2µ+2σ2 − e2µ+σ2.

La distribucion lognormal se usa principalmente en estudios de fiabilidad, para mod-elizar el tiempo de vida de materiales... Otra utilidad es para trabajar con variablesrelativas a rentas, ventas. . .

x<-seq(0,10,0.01)

plot(x,dlnorm(x,0,1),type="l")

Page 51: Theory (1.75 MB)

2.6 Principales distribuciones unidimensionales continuas 41

2.6.4. Distribucion exponencial

Un proceso de Poisson se utilizaba para medir el numero de sucesos de un determi-nado tipo que tenıan lugar en un determinado intervalo. Consideramos ahora la variableX que estudia el “tiempo entre dos sucesos consecutivos”. Esta seguira una distribu-cion exponencial de parametro λ y se denota por Exp(λ). Podemos decir entonces queuna distribucion de Poisson mide el “numero de sucesos por unidad de tiempo” y unaexponencial el “tiempo que tarda en producirse un suceso”.

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

x

dexp

(x, 1

)

Funcion de densidad:

f(x) =

λe−λx si x > 0,0 en otro caso.

Funcion de distribucion: F (x) = 1 − e−λx.

Caracterısticas:

E(X) =1

λ,

Var(X) =1

λ2.

Notese que este valor para la media encaja con la motivacion que dimos para laexponencial a traves de la Poisson, si en una Poisson de parametro λ se producen, enmedia λ sucesos por unidad de tiempo, cabe esperar que, en media, la separacion entresucesos sea 1/λ (ası tenemos que λ(1/λ) = 1 unidad de tiempo).

La distribucion exponencial es la generalizacion al caso continuo de la distribuciongeometrica y, al igual que esta tiene una importante propiedad que es la ausencia dememoria. Veamoslo con un ejemplo, supongamos que estamos midiendo la probabilidadde que un proceso en cadena tenga algun fallo debido al azar (no al desgaste). Si sabemosque en la primera hora no se ha producido ningun error y queremos saber la probabilidadde que en la segunda hora tampoco se produzca ninguno (esto es P (X > 2/X > 1))esto se calcula directamente como la probabilidad de que durante una hora no hayaningun fallo (no importa que ya lleve una hora funcionando sin error, no tiene memoria).Escribiendo con mas rigor esta propiedad: P (X > t0 + t1/X > t0) = P (X > t1). Es unbuen modelo para describir la aparicion de fallos al azar, pero no para estudiar sistemasque se deterioran con el tiempo.

x<-seq(0,10,0.01)

plot(x,dexp(x,1),type="l")

2.6.5. Distribucion gamma

Es una generalizacion de la distribucion exponencial.

Llamaremos funcion gamma a: Γ(p) =∫∞0 xp−1e−xdx, y tiene las siguientes propiedades:

1. Γ(p) = (p− 1)! si p es un numero natural distinto de 0.

Page 52: Theory (1.75 MB)

42 2. Modelos de distribucion de probabilidad

2. Γ(p) = (p− 1)Γ(p− 1).

3. Γ(1/2) =√π.

Una variable X que mide el “tiempo de espera hasta el suceso numero p en unproceso de Poisson” sigue una distribucion gamma. Se denota por Γ(λ,p), donde elprimer parametro representa el numero medio de sucesos por unidad de tiempo y p es elnumero de sucesos que queremos que ocurran. De modo que una exponencial no sera masque una Γ(λ,1).

Funcion de densidad: f(x) =

λp

Γ(p)e−λxxp−1 si x > 0,

0 resto.

Caracterısticas:E(X) =

p

λ, Var(X) =

p

λ2.

Una importante propiedad de la distribucion gamma es que, si X ∈ Γ(λ,p1) eY ∈ Γ(λ,p2), entonces X + Y ∈ Γ(λ,p1 + p2).

x<-seq(0,10,0.01)

# Parametro p=1, coincide con la exponencial

plot(x,dgamma(x,1,1),xlab="p=1",type="l")

# Parametro p=2, se ve que tarda mas en decaer (pedimos

tiempo hasta el suceso p=2 en vez de p=1)

plot(x,dgamma(x,2,1),xlab="p=2",type="l")

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

p=1

dgam

ma(

x, 1

, 1)

0 2 4 6 8 10

0.0

0.1

0.2

0.3

p=2

dgam

ma(

x, 2

, 1)

2.6.6. Distribucion de Erlang

Supone un importante caso particular de la distribucion gamma. En la gamma per-mitıamos que el valor p fuese un numero real cualquiera. En muchos modelos solo interesael caso en que p es un numero entero positivo, es decir, no podemos partir sucesos (este

Page 53: Theory (1.75 MB)

2.6 Principales distribuciones unidimensionales continuas 43

modelo surgio al modelizar el uso de las lıneas telefonicas y estudiar las llamadas en-trantes a un operador). Ademas de verla como un caso particular de la distribuciongamma tambien se puede ver como una generalizacion de la exponencial; mas concreta-mente, una Erlang de parametro p es la suma de p exponenciales.

En este caso la funcion de distribucion queda:

F (X) = 1 −p−1∑

i=0

e−λx (λx)i

i!.

2.6.7. Distribucion de Weibull

0 2 4 6 8 10

0.00

0.05

0.10

0.15

0.20

0.25

p=2

dwei

bull(

x, 2

, 3)

Diremos que una variableX sigue una distribu-cion de Weibull W(b,λ) si tiene la siguiente funcionde densidad:

f(x) =

λbbxb−1e−(λx)b

si x ≥ 0,0 si x < 0.

Funcion de distribucion:

F (x) =

1 − e−(λx)b

si x ≥ 0,0 si x < 0.

Caracterısticas:

E(X) =1

λΓ(1 +

1

b),

Var(X) =1

λ2

Γ(1 +

2

b) −

(Γ(1 +

1

b)

)2.

La distribucion Weibull se utiliza en estudios de fiabilidad y para modelizar el tiempode vida de diferentes materiales.

x<-seq(0,10,0.05)

plot(x,dweibull(x,2,3),xlab="p=2",type="l")

2.6.8. Distribucion de tiempo de fatiga

Tambien conocida con el nombre de distribucion de Birnbaum-Saunders, sur-gio para modelizar la siguiente situacion: tenemos un material al que continuamentese le va sometiendo a distintas presiones, estas lo van desgastando poco a poco hastaque el material cede y se rompe. Por ejemplo, una pieza de una cadena de montaje.La distribucion de tiempo de fatiga tiene como objetivo modelizar el tiempo que estarotura tardara en producirse. Una variable X sigue una distribucion de tiempo de fatiga,TF(µ,γ), si viene dada por una funcion de densidad del tipo f(x) = h(x) · ϕ(g(x)),donde la letra griega ϕ denota la funcion de densidad de una N(0,1), mas concretamente:

Page 54: Theory (1.75 MB)

44 2. Modelos de distribucion de probabilidad

f(x) =

√(x−µ)+

√1

(x−µ)

2γ(x−µ) · ϕ(√

(x−µ)−√

1(x−µ)

γ

)si x ≥ µ,

0 si x < µ.

El parametro µ es el parametro de localizacion, depende de la resistencia de la piezaen estudio y de la intensidad del desgaste al que es sometida. Por su parte el parametrode forma, γ, depende de la variabilidad en las presiones que va sufriendo el material.

Caracterısticas (cuando µ = 0):

E(X) = (1 +γ2

2), Var(X) = γ2

(1 +

5

4γ2

).

# Esta distribucion no esta definida en R, debemos definirla nosotros:

dtiempo.fatiga<-function(x,loc,shape)

a<-(sqrt(x-loc)+ sqrt(1/(x-loc)))/(2*shape*(x-loc))

b<-(sqrt(x-loc)-sqrt(1/(x-loc)))/shape

a*dnorm(b)

x<-seq(0,10,0.05)

plot(x,dtiempo.fatiga(x,0,1),xlab="",type="l")

plot(x,dtiempo.fatiga(x,0,5),xlab="",type="l")

0 2 4 6 8 10

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

dtie

mpo

.fatig

a(x,

0, 1

)

0 2 4 6 8 10

0.0

0.5

1.0

1.5

2.0

2.5

dtie

mpo

.fatig

a(x,

0, 5

)

2.6.9. Distribucion beta

Llamaremos funcion beta a la aplicacion: β(p, q) =∫ 10 x

p−1(1 − x)q−1dx = Γ(p)·Γ(q)Γ(p+q) .

Diremos que una variable aleatoriaX sigue una distribucion β(p, q) con p y q positivossi su funcion de densidad viene dada por

Page 55: Theory (1.75 MB)

2.6 Principales distribuciones unidimensionales continuas 45

f(x) =

xp−1(1−x)q−1

β(p,q) si 0 < x < 1,

0 resto.

Caracterısticas: E(X) = pp+q , Var(X) = pq

(p+q)2(p+q+1).

Se utiliza principalmente cuando se trabaja con estadıstica bayesiana.

x<-seq(0,1,0.005)

plot(x,dbeta(x,0.5,0.5),xlab="",type="l")

plot(x,dbeta(x,0.5,2),xlab="",type="l")

plot(x,dbeta(x,2,0.5),xlab="",type="l")

plot(x,dbeta(x,2,2),xlab="",type="l")

0.0 0.2 0.4 0.6 0.8 1.0

12

34

dbet

a(x,

0.5

, 0.5

)

0.0 0.2 0.4 0.6 0.8 1.0

02

46

810

dbet

a(x,

0.5

, 2)

0.0 0.2 0.4 0.6 0.8 1.0

02

46

810

dbet

a(x,

2, 0

.5)

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.5

1.0

1.5

dbet

a(x,

2, 2

)

β(0,5, 0,5) β(0,5, 2)

β(2, 0,5) β(2, 2)

2.6.10. Distribuciones asociadas a la normal

Distribucion χ2 de Pearson

Dadas Z1, ..., Zn variables aleatorias independientes y N(0,1) entonces la variable

χ2n =

n∑

i=1

Z2i

Page 56: Theory (1.75 MB)

46 2. Modelos de distribucion de probabilidad

sigue una distribucion χ2 con n grados de libertad (χ2n). Su funcion de densidad viene

dada por

f(x) =

1

2n2 Γ(n

2 )e−

x2 x

n2−1 si x > 0,

0 resto.

que no es mas que una distribucion gamma con parametros λ = 1/2 y p = n/2. Portanto, la esperanza de χ2

n es n y su varianza es 2n.Como propiedad destacable cabe destacar que la variable

√2χ2

n ≈ N(√

2n− 1, 1)

aunque esta aproximacion es lenta.

Distribucion t de Student

Sea Z ∈N(0,1) e Y ∈ χ2n variables aleatorias independientes. La distribucion t de

Student con n grados de libertad se define como la distribucion de la variable

tn =Z√Y /n

.

Su funcion de densidad viene dada por

f(x) =Γ(

n+12

)√nπΓ

(n2

)(

1 +x2

n

)−n+12

,∀x ∈ R.

Caracterısticas: E(tn) = 0, n > 1, Var(tn) = nn−2 , n > 2.

Esta distribucion se aproxima a una N(0,1) cuando n es grande y presenta masdispersion y menor curtosis que esta. En el caso particular de n = 1 se llama distribucionde Cauchy y no tiene media.

Distribucion F de Fisher-Snedecor

Sea X ∈ χ2n e Y ∈ χ2

m dos variables aleatorias independientes. Se define la distribu-cion F con (n,m) grados de libertad como la distribucion de la variable

Fn,m =X/n

Y /m.

Funcion de densidad:

f(x) =Γ(

n+m2

)

Γ(

n2

)Γ(

m2

)( nm

)( nmx)n

2−1 (

1 +n

mx)−n+m

2,∀x > 0.

Caracterısticas:

E(Fn,m) =m

m− 2, m > 2, Var(Fn,m) =

2m2(n+m− 2)

n(m− 2)2(m− 4), m > 4.

Ademas si X ∈ Fn,m entonces 1/X ∈ Fm,n.

Page 57: Theory (1.75 MB)

2.7 Variables aleatorias multidimensionales 47

2.7. Variables aleatorias multidimensionales

A veces no es suficiente con saber como se distribuyen una a una las caracterısticasde una determinada poblacion sino que se necesita estudiar como se distribuyen todasellas conjuntamente. Esto lleva a la aparicion de los vectores aleatorios como gener-alizacion natural de las variables aleatorias.

Ejemplo: Consideremos un proceso de control de calidad en el que por un lado tenemosel numero de productos defectuosos y por otro el tiempo de fabricacion de cada producto.En este caso un analisis conjunto de ambas variables aportarıa mucha mas informacionque un estudio independiente de las mismas.

En este tema nos dedicaremos principalmente a estudiar el caso bidimensional, pu-diendose extender todos los conceptos y resultados al caso n-dimensional. Mas concreta-mente nos centraremos en el caso de que tengamos variables aleatorias tales que ambassean bien continuas o bien discretas.

Dado un espacio de probabilidad (Ω,A,P ), la variable (vector) aleatoria bidi-mensional (X ,Y ) se define como una funcion que asocia a cada suceso elemental unpar de numeros reales, siendo cada componente (X e Y ) variables aleatorias unidimen-sionales sobre (Ω,A,P ).

2.7.1. Funcion de distribucion de una variable aleatoria bidimensional

La funcion de distribucion conjunta de una variable aleatoria bidimensional esla funcion que a cada par de numeros reales (x,y) les asigna el valor F (x, y) = P (X ≤x, Y ≤ y).

1. 0 ≤ F (x) ≤ 1.

2. F es continua por la derecha y no decreciente en cada componente.

3. F (+∞,+∞) = lımx,y→+∞

F (x, y) = 1.

4. F (−∞, y) = F (x,−∞) = 0.

Caso discreto

Dadas dos variables aleatorias discretas X e Y , definidas sobre el mismo espacio deprobabilidad, la funcion de masa de probabilidad conjunta de la variable aleatoriabidimensional discreta (X,Y ) es la que asigna una probabilidad a cada una de las posiblesrealizaciones de la variable conjunta:

p(xi, yj) = P (ω ∈ Ω/X(ω) = xi, Y (ω) = yj), que verifica∑

xi

yj

p(xi, yj) = 1.

La formula de la funcion de distribucion para este caso queda

F (x, y) =∑

xi≤x

yj≤y

p(xi, yj).

Page 58: Theory (1.75 MB)

48 2. Modelos de distribucion de probabilidad

Caso continuo

Dadas dos variables aleatorias continuas X e Y , definidas sobre el mismo espacio deprobabilidad, la funcion de densidad conjunta de la variable aleatoria bidimensional

continua (X,Y ) es la funcion f definida como f(x, y) = ∂2F (x,y)∂x∂y , esta funcion puede ser

definida tambien como aquella que verifica:

1. f(x, y) ≥ 0.

2.∫ +∞−∞

∫ +∞−∞ f(x, y)dxdy = 1.

3. F (x0, y0) =∫ x0

−∞∫ y0

−∞ f(x, y)dxdy.

Esta funcion cumple ademas que

P (X = x0, Y = y0) =

x0∫

x0

y0∫

y0

f(x, y)dxdy = 0,

es decir, los valores puntuales tienen probabilidad 0, y

P (a ≤ X ≤ b, c ≤ Y ≤ d) =

b∫

a

d∫

c

f(x, y)dydx.

2.7.2. Distribuciones marginales

Esto nos permite hacer el proceso inverso al descrito en el momento en el que seintrodujeron los vectores aleatorios. Si tenemos la distribucion conjunta del vector (X,Y )y estamos interesados en estudiar la variable X por separado, necesitamos recurrir a lasdistribuciones marginales.

Dada una variable aleatoria bidimensional (X,Y ), con funcion de distribucion F (x,y),se pueden definir dos funciones de distribucion univariantes, FX(x) y FY (y). Por como-didad pondremos solo las formulas de relativas a la marginal de X.

Funcion de distribucion marginal de la variable X :

FX(x) = P (X ≤ x) = P (X ≤ x,−∞ ≤ Y ≤ +∞).

Caso discreto:

FX(x) =∑

xi≤x

yj

P (X = xi, Y = yj).

Funcion de probabilidad marginal de X :

pX(xi) = P (X = xi) =∑

yj

P (X = xi, Y = yj).

Page 59: Theory (1.75 MB)

2.7 Variables aleatorias multidimensionales 49

Caso continuo:

FX(x0) =

∫ +∞

−∞

∫ x0

−∞f(x, y)dxdy.

Funcion de densidad marginal de X :

fX(x) =

+∞∫

−∞

f(x, y)dy.

Observaciones:

1. Distintas funciones de densidad conjunta pueden dar lugar a las mismas marginales.

2. La idea intuitiva de marginal se puede ver claramente en el primer tema, en ladescripcion estadıstica de varias variables. En la representacion en formato detabla, la marginal de la X se obtiene haciendo tomar a la Y todos los posiblesvalores para cada valor fijado de la X (y sus valores se ponen al margen).

2.7.3. Distribuciones condicionadas

Trabajando con la idea de probabilidad condicionada, se pueden obtener nuevasdistribuciones a partir de una variable conjunta, condicionando los valores de una variablea posibles realizaciones de la otra.

Caso discreto

Dada una variable bidimensional discreta (X,Y ), la funcion de probabilidadcondicionada de la variable X, dado el suceso y de la variable Y sera

pX|Y =y(x) = P (X = x|Y = y) =P (X = x, Y = y)

PY (y), dado que PY (y) > 0.

Caso continuo

Dada una variable bidimensional continua (X,Y ), la funcion de densidad condi-cionada para X, dado el suceso y de la variable Y sera

fX|Y =y(x) = f(x|y) =

f(x,y)fY (y) si fY (y) > 0,

0 si fY (y) = 0.

Ejemplo: Dada la variable bidimensional (X,Y ) con densidad conjunta dada por

f(x, y) =

e−(x+y) si x > 0, y > 0,0 resto,

calcular la distribucion marginal de X y la de Y condicionada a X.

Page 60: Theory (1.75 MB)

50 2. Modelos de distribucion de probabilidad

Solucion: La funcion de densidad marginal de X se calcula como,

fX(x) =

+∞∫

−∞

f(x, y)dy.

Teniendo en cuenta la expresion de la densidad conjunta f(x, y) se tiene que

fX(x) =

+∞∫

−∞

f(x, y)dy =e−x

+∞∫

0

e−ydy =e−x.

Por lo tanto

fX(x) =

e−x si x > 0,0 resto.

Analogamente

fY (y) =

e−y si y > 0,0 resto.

La distribucion marginal de Y condicionada a X se calcula como

f(y|x) =f(x, y)

fX(x)=e−(x+y)

e−x= e−y,

por tanto la distribucion condicionada queda

f(y|x) =

e−y si y > 0,0 resto.

En este caso vemos que f(y|x) = fY (y), esto es lo que pasa cuando ambas variablesson independientes, que es el siguiente punto de este tema.

2.7.4. Independencia de variables aleatorias

La idea de independencia entre variables aleatorias es la misma que en su momentovimos al definir la independencia entre sucesos. Si el conocimiento de la realizacion deuna variable aleatoria X no influye para nada en el posible resultado de otra variableY , decimos que ambas son independientes. De acuerdo a esta idea, dos variables seranindependientes si las distribuciones marginales y las condicionadas coinciden.

Sea (X,Y ) una variable aleatoria bidimensional, se dira que X es independientede Y si la distribucion conjunta es igual al producto de las distribuciones marginales,

F (x, y) = FX(x) · FY (y).

Caso discreto, en este casoX e Y son independientes si para cada posible realizacion(x,y) de la variable conjunta tenemos P (X = x, Y = y) = P (X = x) · P (Y = y).

Caso continuo, X e Y son independientes si para toda realizacion (x,y) de lavariable conjunta tenemos f(x, y) = fX(x) · fY (y). Equivalentemente, X e Y son inde-pendientes si para todo valor y de la variable Y tenemos que f(x|y) = fX(x).

Page 61: Theory (1.75 MB)

2.7 Variables aleatorias multidimensionales 51

x

y

outer(x, y, function(x, y)

VARIABLEBIDIMENSIONAL− X:Beta(0.5,0.5) Y: Normal(0,1)

Ejemplo: Ahora somos capaces de construirla distribucion conjunta de dos variablesX eY independientes conocidas, basta tomar elproducto de las marginales para cada posiblerealizacion.

Dibujamos a continuacion la variable(X,Y ) donde X e Y son independientes, laprimera una distribucion beta, β(0.5,0.5), yla segunda una distribucion normal, N(0,1).

El codigo R serıa:

x<-seq(0.05,0.95,length=50)

y<-seq(-4,4,length=50)

persp(x, y, outer(x,y,function(x,y)dbeta(x,0.5,0.5)*dnorm(y)),

theta = 30,phi = 30, expand = 0.5, col = "lightblue", main="VARIABLE

BIDIMENSIONAL- X:Beta(0.5,0.5) Y: Normal(0,1)")

2.7.5. Medidas caracterısticas de una variable aleatoria bidimensional

A continuacion generalizaremos los conceptos mas relevantes del caso unidimensionalpara el contexto actual.

Esperanza matematica de un vector aleatorio. Dada una variable aleatoriabidimensional (X,Y ), se denomina vector de medias de la variable conjunta alvector (E(X),E(Y )).

Matriz de varianzas-covarianzas. El calculo de las varianzas de las variablesX e Y se hace utilizando la correspondiente definicion obtenida para el caso uni-dimensional.

Dadas dos variables X e Y podemos estar interesados en estudiar la varianzaconjunta de ambas variables, ver que hace la variable Y cuando X aumenta,...Para esto se utiliza la covarianza, que se define como el numero real:

Cov(X,Y ) = σXY = σY X = E ((X − E(X)) (Y − E(Y ))) .

La matriz de varianzas-covarianzas, Σ, resume toda la informacion relativa a lasmismas:

Σ =

(σ2

X σXY

σXY σ2Y

).

La covarianza tambien se puede definir como Cov(X,Y ) = E(XY ) − E(X)E(Y ).

Propiedades:

1. Si la covarianza tiene valor positivo quiere decir que cuando una de las vari-ables crece, tambien la otra tiende a crecer. Si por el contrario el signo esnegativo, quiere decir que las variables van en direcciones opuestas.

Page 62: Theory (1.75 MB)

52 2. Modelos de distribucion de probabilidad

2. Si dos variables son independientes su covarianza es cero y por lo tanto se tieneque E(XY ) = E(X)E(Y ). El recıproco sin embargo no es necesariamentecierto, dos variables pueden tener covarianza 0 y no ser independientes.

3. Cov(aX + b, cY + d) = acCov(X,Y ).

4. Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X,Y ),

Var(X- Y ) = Var(X) + Var(Y ) − 2Cov(X,Y ).

De estas formulas se deduce que la varianza de las variables no tiene porque au-mentar al sumarlas, esto es porque las variabilidades se pueden compensar unascon otras.

Matriz de correlaciones. La covarianza nos mide el grado de dependencia entredos variables en termino absolutos, depende de la escala en que estemos trabajando.Por tanto, si queremos comparar dos covarianzas distintas para ver donde hay unamayor dependencia entre las variables, podemos llevarnos a engano. Al igual que sedefinio en su momento el coeficiente de variacion como una medida adimensional(no depende de las unidades de medida) de la variabilidad de una variable aleatoria,ahora se define el coeficiente de correlacion como una medida de tipo relativopara la variabilidad conjunta de dos variables aleatorias.

Dada la variable bidimensional (X,Y ), el coeficiente de correlacion lineal, ρ,se define como:

ρXY =σXY

σXσY.

Este coeficiente cumple las siguientes propiedades:

1. −1 ≤ ρXY ≤ 1.

2. Si ρXY = 0 ambas variables son incorreladas (no necesariamente independi-entes). No hay relacion lineal entre ellas, pero puede haber alguna relacion nolineal.

3. Si ρXY = 1 entonces Y = aX+b con a > 0 (relacion lineal positiva), delmismo modo ρXY = −1 implica que Y = aX+b solo que ahora a < 0.En esta propiedad se puede apreciar que este coeficiente no depende de lamedida, Y = 100X tienen correlacion ρXY = 1, al igual que las variablesZ = 2X (ρXZ = 1).

Al igual que hacıa la matriz de varianzas-covarianzas, la matriz de correlacionesresume la informacion de las mismas. Dadas dos variables X e Y la matriz decorrelaciones R, es la matriz

R =

(1 ρXY

ρXY 1

).

Page 63: Theory (1.75 MB)

2.7 Variables aleatorias multidimensionales 53

Esperanza condicionada. Dadas dos variables aleatorias X e Y , la esperanzade Y condicionada a X es la funcion que nos dice como se distribuye la variableY para cada valor de X. Veremos la definicion solo para el caso continuo.

Sean X e Y dos variables aleatorias continuas, se define la esperanza condicionadade Y , sabiendo que X = x como E(Y |X = x) =

∫ +∞−∞ yf(y|X = x)dy.

Esta funcion nos dice, dado un valor de la variable X, lo que cabe esperar de lavariable Y .

Funcion de regresion. Hemos visto como el coeficiente de correlacion nos indicala posible relacion existente entre dos variables aleatorias. Cuando este coeficientetoma valores proximos a 1 o −1 sabemos que existe una fuerte dependencia linealentre las mismas, lo cual nos permite predecir los valores de una de las variablesa partir de los que haya tomado la otra. Por ejemplo, dada la longitud l de uncuadrado su perımetro tomara el valor 4l. En este caso la dependencia es total y elvalor de la longitud de un lado nos permite determinar con toda precision el valordel perımetro. En otras muchas situaciones esta relacion, aun existiendo puedeno ser tan clara, el peso de una persona esta relacionada con su altura, aunquela relacion no es tan fuerte como en el caso anterior. En general esto se hace atraves de la llamada funcion de regresion. Dadas dos variables aleatorias X eY , intentaremos utilizar la primera de ellas para predecir los valores de la segunda.Nos restringiremos al caso de variables continuas. En este contexto la variable Xse llamara variable explicativa o independiente y la Y sera la variable respuesta odependiente. Por tanto, buscaremos un modelo explicativo con la siguiente forma

Y = g(X) + e,

donde e denota el error en la prediccion (que a su vez sera una variable aleatoria).Para cada valor x de la variable X, se predice un valor y de la variable Y . En estaprediccion se comete un error. Se trata de buscar una funcion g tal que el erroresperado en la prediccion sea mınimo. Buscamos entonces la funcion minimizandoel valor esperado del error cuadratico

mıngE[(Y − g(X))2] = mın

g

R2

(y − g(x))2f(x, y)dxdy

= mıng

R2

(y − g(x))2f(y|x)f(x)dydx.

En la integral de la ultima de las igualdades vemos aparecer la esperanza de Ycondicionada a X. Siguiendo con los calculos, se puede comprobar que el val-or de la funcion g que minimiza este error esperado para cada valor de x esg(x) = E(Y | X = x), es decir, dado un valor de la variable X, el mejor predictorpara la variable Y no es otro que la esperanza de Y condicionada a ese valor de X.

Page 64: Theory (1.75 MB)

54 2. Modelos de distribucion de probabilidad

Momentos. Al igual que en el caso de las variables unidimensionales, tambienpodemos definir los momentos que, entre otras cosas, son una herramienta de granutilidad a la hora de conseguir resultados teoricos. Dada una variable bidimensional(X,Y ) definimos:

Momento con respecto del origen de orden (r,s):

ars = E(XrY s).

Momento con respecto de la media de orden (r,s):

mrs = E ((X − E(X))r (Y − E(Y ))s) .

Al igual que hicimos en el caso unidimensional, tambien aquı se podrıan obtenerexpresiones con integrales o sumatorios para los casos continuo y discreto, respec-tivamente.

2.7.6. Transformaciones de variables bidimensionales

Del mismo modo que en el caso unidimensional, tambien aquı es importante estu-diar que pasa si dada una variable (X,Y ) queremos estudiar una determinada trans-formacion de la misma. Consideraremos solo el caso en el que (X,Y ) es una variablecontinua g(X,Y ) = (Z,T ) es una nueva variable bidimensional (esto en general notiene porque suceder), por tanto tendremos una funcion g tal que g(x,y) = (g1(x,y),g2(x,y)) = (z,t), verificando que tanto g1 como g2 admiten inversas u1, u2, ambas difer-enciables. Por tanto tenemos x = u1(z,t) e y = u2(z,t).

Esto dara lugar al jacobiano J =

∣∣∣∣∂x∂z

∂x∂t

∂y∂z

∂y∂t

∣∣∣∣ .

Y la densidad w de la nueva variable (Z,T ) se calcula como

w(z, t) = f(u1(z, t), u2(z, t)) |J | .

Una vez que tenemos la densidad de la nueva variable ya estamos en condiciones deestudiar sus caracterısticas y propiedades.

2.7.7. Caso n-dimensional

Todos los conceptos que hemos definido para el caso bidimensional pueden extenderseinmediatamente a la situacion en la que nuestras variables estan en un espacio cualquierade dimension n > 1. A continuacion damos un pequeno apunte de como serıan algunasde estas extensiones para el caso de una variable n-dimensional (X1, X2,. . . , Xn):

1. Vector de medias: (E(X1), E(X2),. . . , E(Xn)).

2. Covarianzas dos a dos, covarianza entre Xi y Xj:σij = E ((Xi − E(Xi)) (Xj − E(Xj))).

Page 65: Theory (1.75 MB)

2.8 Modelos multidimensionales de distribucion de probabilidad 55

3. Matriz de varianzas-covarianzas:

Σ =

σ21 σ12 · · · σ1n

σ21 σ22 · · · σ2n

......

. . ....

σn1 σn2 · · · σ2n

.

Notese que esta matriz es simetrica.

Del mismo modo se podrıan generalizar las correlaciones y la matriz de cor-relaciones.

2.8. Modelos multidimensionales de distribucion de prob-

abilidad

2.8.1. Distribucion multinomial

Esta distribucion generaliza a la binomial, estudiada en el caso unidimensional. Eneste caso tambien se realizan n repeticiones independientes del mismo experimento. Ladiferencia radica en que los resultados del mismo no son dicotomicos (verdadero-falso),sino que en cada repeticion tenemos como resultados posibles los sucesos A1, A2, ..., Ak,con probabilidades p1, p2, ..., pk respectivamente, verificando que p1 +p2 + ...+pk = 1. Lavariable X = (X1, X2, ..., Xk), donde Xi = “numero de veces que ha ocurrido el sucesoAi en las n repeticiones” se denomina multinomial y se denota por Mk(n; p1, ..., pk).Su funcion de probabilidad viene dada por:

P (X1 = x1, ..., Xk = xk) =n!

x1!...xk!px11 · · · pxk

k .

Caracterısticas: E(Xi) = npi, Var(Xi) = npi (1- pi), Cov(Xi, Xj) = −npipj .

2.8.2. Distribucion normal multidimensional

Como ya hicimos notar en el momento de introducir la distribucion normal unidi-mensional, se trata de la distribucion mas usada en estadıstica. Sus buenas propiedadesse hacen todavıa mas patentes cuando se estudian modelos estadısticos multidimension-ales. Ahora introduciremos la generalizacion de la distribucion normal y citaremos suspropiedades mas relevantes.

Un vector aleatorioX = (X1,. . . ,Xn) se distribuye segun una normal n-dimensionalcon vector de medias µ y matriz de varianzas-covarianzas Σ si su funcion de densidades de la forma:

f(x) =1

|Σ|1/2 (2π)k/2exp

−1

2(x− µ)tΣ−1(x− µ)

, x ∈ R

n.

Page 66: Theory (1.75 MB)

56 2. Modelos de distribucion de probabilidad

A pesar de su complejidad se observa facilmente que es una generalizacion natural dela formula para el caso unidimensional. El papel de la varianza lo juega ahora la matrizde varianzas-covarianzas y el vector de medias hace lo que antes hacıa la media.

Propiedades:

1. Las distribuciones condicionales y marginales de un vector normal n-dimensionaltambien siguen distribuciones normales.

2. Para vectores normales, dos componentes son independientes si y solo si son incor-reladas (recuerdese que esto en general no tiene por que ser cierto).

3. Cualquier combinacion lineal de variables normales independientes da lugar a unanueva distribucion normal.

Ejemplo: En el caso de que tengamos una normal bidimensional (X,Y ) con matriz

de correlaciones R =

(1 00 1

), entonces ambas variables son incorreladas y por tanto

independientes. Esto nos permite escribir la densidad conjunta como el producto de lasdensidades marginales.

x

y

outer(x, y, function(x, y)

VARIABLEBIDIMENSIONAL− X:Normal(0,1) Y: Normal(0,2)

Representacion de una variable normalbidimensional (X,Y ), con X ∈ N(0, 1) eY ∈N(0,2), ambas independientes, usandola propiedad de que la densidad conjunta sepuede poner como producto de densidades.

En el grafico se puede ver como la vari-able Y tiene mas variabilidad que la X, queesta mas concentrada en torno a la media(pues en el grafico ambos ejes estan en lamisma escala).

El codigo R serıa:

x<-seq(-5,5,length=50)

y<-seq(-5,5,length=50)

persp(x, y, outer(x,y,function(x,y)dnorm(x)*dnorm(y,0,2)),

theta = 40, phi = 30, expand = 0.5, col = "lightblue", main="VARIABLE

BIDIMENSIONAL- X:Normal(0,1) Y: Normal(0,2)")

Comentario:El concepto de tipificacion Z = X−µ

σ descrito para variables unidimensionales tam-bien tiene su equivalente en el caso general. Tendremos que hacer una traslacion uti-lizando el vector de medias y valernos de la matriz de varianzas-covarianzas para hacerel cambio de escala. Aunque esto no es tan facil, ya que en el caso unidimensional nosbastaba con dividir por la raız cuadrada de la varianza y aquı lo que tenemos es unamatriz. En el caso particular de la distribucion normal esto tiene facil solucion.

Supongamos que queremos obtener una muestra aleatoria de una variable normalX = (X1,. . . ,Xp) con vector de medias µ y matriz de varianzas-covarianzas Σ, valiendonos

Page 67: Theory (1.75 MB)

2.9 Sucesiones de variables aleatorias 57

de distribuciones N(0,1) (faciles de generar aleatoriamente). En este caso tenemos la sigu-iente propiedad, si encontramos una matriz L tal que Σ = LLt, entonces si Z = (Z1,. . . ,Zp)es un vector de normales estandar independientes, la variable X = µ+LZ tiene distribu-cion N(µ,Σ), como estabamos buscando. De modo que para simular la variable X nosbastarıa con simular p normales N(0,1) y aplicarles la correspondiente transformacion.La matriz L juega ahora el papel que en las tipificaciones unidimensionales jugaba ladesviacion tıpica (es, en cierto modo, la raız de la matriz de varianzas-covarianzas). Elunico problema tecnico es como hallar esta matriz L, aunque hay multitud de algoritmoseficientes que nos permiten calcularla.

2.9. Sucesiones de variables aleatorias

Hasta ahora hemos estudiado los conceptos de variable aleatoria unidimensional Xy vector aleatorio (X1, ..., Xn), una n-tupla de variables aleatorias. Ahora necesitaremostrabajar con cantidades infinitas de variables, por eso introducimos el concepto de suce-sion de variables aleatorias Xn∞n=1, teniendo como objetivo principal estudiar laconvergencia de las mismas. En este contexto hemos de definir criterios de convergenciaque deben ser distintos de aquellos del analisis matematico, debido al caracter aleatoriode estas sucesiones. Dada la sucesion de variables aleatorias Xn∞n=1, con funciones dedistribucion Fn∞n=1, y la variable aleatoria X con funcion de distribucion F , tenemoslos siguientes tipos de convergencia de la sucesion a la variable X:

Convergencia en distribucion:

XnD−→ X ⇔ lım

n→∞Fn(x) = F (x) ∀x, punto de continuidad de F.

Las funciones de distribucion han de converger puntualmente (donde hay continuidad).

Convergencia en probabilidad:

XnP−→ X ⇔ lım

n→∞P (ω ∈ Ω/ |Xn(ω) −X(ω)| < ε) = 1, ∀ε > 0.

La probabilidad de que los valores de las variables disten mas de un determinadovalor ha de tender a 0.

Convergencia casi segura:

Xnc.s.−→ X ⇔ P (ω ∈ Ω/ lım

n→∞Xn(w) = X(w)) = 1.

Ahora se pide que haya convergencia puntual entre las variables con probabilidad 1.

Veamos una pequena explicacion de la diferencia entre estos dos ultimos tipos deconvergencia. Definamos el suceso An = ω ∈ Ω/ |Xn(ω) −X(ω)| > ε, lo que nos dice laconvergencia en probabilidad es que P (An) → 0, a medida que n aumenta, pero ojo ¡Estono implica ninguna convergencia puntual!, es decir, podemos tener P (An+1) < P (An), sinque estos dos sucesos tengan sucesos elementales en comun. Sin embargo, la convergencia

Page 68: Theory (1.75 MB)

58 2. Modelos de distribucion de probabilidad

casi segura anadirıa a mayores la condicion1 An+1 ⊆ An, para asegurar que tenemosconvergencia puntual con probabilidad 1.

La relacion entre estas tres convergencias es la siguiente:

Xnc.s.−→ X ⇒ Xn

P−→ X ⇒ XnD−→ X.

2.9.1. Leyes de los Grandes Numeros

Ley Debil de los Grandes Numeros

Diremos que una sucesion de variables aleatorias Xn∞n=1 satisface la Ley Debilde los Grandes Numeros si existe una sucesion de numeros reales An∞n=1, y otra denumeros positivos Bn∞n=1 tal que lımn→∞Bn = +∞ verificando que

n∑k=1

Xk −An

Bn

P−→ 0.

El papel de la sucesion An es el de asegurar que la media de la sucesion lımite sea 0,es decir, sirve para controlar la “centralizacion”. Por su parte la sucesion Bn tiene unadoble funcion; por un lado controla la escala y por otro evita la divergencia de la serie.En gran medida esto es parecido a lo que se hace al tipificar una variable aleatoria, eneste caso tenıamos que µ era el parametro de localizacion y σ el de escala.

Como ejemplo tenemos el resultado de Markov que nos dice que si la sucesionXn∞n=1, cumple que todas sus componentes son incorreladas dos a dos, todas las mediasy varianzas son finitas y ademas lım

n→∞1n2

∑nk=1 σ

2k = 0 entonces se satisface la Ley Debil

para Xn∞n=1 con An =∑n

k=1E(Xk), y Bn = n. Es decir, toda sucesion de variablesaleatorias en estas condiciones verifica que

n∑k=1

Xk −n∑

k=1

E(Xk)

n

P−→ 0.

Aquı estamos diciendo que la variable aleatoria que se obtiene en cada paso tiende ala variable aleatoria degenerada en 0.

Ley Fuerte de los Grandes Numeros

Diremos que una sucesion de variables aleatorias Xn∞n=1 satisface la Ley Fuertede los Grandes Numeros si existe una sucesion de numeros reales An∞n=1, y otra denumeros positivos Bn∞n=1 tal que lımn→∞Bn = +∞ verificando que

n∑k=1

Xk −An

Bn

c.s.−→ 0.

1 Esta condicion no esta escrita con todo rigor. Se ha puesto de esta manera para proporcionar una

mejor intuicion de lo que esta pasando.

Page 69: Theory (1.75 MB)

2.9 Sucesiones de variables aleatorias 59

2.9.2. Teorema Central del Lımite

Diremos que una sucesion de variables aleatorias Xn∞n=1 satisface el TeoremaCentral del Lımite si existe una variable aleatoria X, una sucesion de numeros realesAn∞n=1, y otra de numeros positivos Bn∞n=1 tal que lımn→∞Bn = +∞ verificandoque

n∑k=1

Xk −An

Bn

D−→ X.

Esto da lugar al siguiente resultado, de gran utilidad para la estadıstica, tanto a nivelteorico como practico: Sea Xn∞n=1 una sucesion de variables aleatorias independientese identicamente distribuidas con media µ y desviacion tıpica σ, entonces verifica lashipotesis del teorema central del lımite con X ∈ N(0, 1), An = nµ y Bn =

√nσ. Es

decir:

n∑k=1

Xk − nµ

σ√n

n→∞−→ N(0, 1).

O lo que es lo mismo, la distribucion de∑n

k=1Xk se puede aproximar por unaN(nµ, σ

√n) cuando n es suficientemente grande. De hecho, si dividimos numerador y

denominador por n el anterior lımite se puede escribir

(X − µ

)

σ/√n

n→∞−→ N(0, 1),

siendo X = 1n

∑nk=1Xk la media de las variables. En esta nueva expresion se ve de

una forma mas transparente el papel de µ y σ y la analogıa con la tipificacion de unavariable aleatoria. Este resultado nos dice que la suma de variables aleatorias iguales(misma distribucion) e independientes acaba ajustandose a una distribucion normal, sinimportar la naturaleza de las variables que estemos sumando, de hecho. Este resultado esel que justifica las aproximaciones de la binomial y la Poisson por la normal enunciadascuando se introdujeron dichas distribuciones.

En este primer ejemplo vemos que el ajuste de la binomial no es bueno, esto esporque p = 0,4, y es necesario tener p < 0,1 y n > 30 para tener buenos ajustes.

x<-seq(0,30,by=1)

plot(x,dbinom(x,40,0.4),pch=2,col=2,ylab="",xlab="",main="N(16,4)")

points(x,dpois(x,16),pch=3,col=3)

x<-seq(0,30,by=0.01)

lines(x,dnorm(x,16,4))

leg.txt=c("Binomial(40,0.4)","Pois(16)")

legend(22,0.12,leg=leg.txt,pch=c(2,3),col=c(2,3))

Page 70: Theory (1.75 MB)

60 2. Modelos de distribucion de probabilidad

0 5 10 15 20 25 30

0.00

0.02

0.04

0.06

0.08

0.10

0.12

N(16,4)

Binomial(40,0.4)Pois(16)

En el segundo grafico tenemos un ajuste mucho mejor ya que la probabilidad es maspequena y n mas grande.

x<-seq(0,40,by=1)

plot(x,dbinom(x,320,0.05),ylab="",xlab="",pch=2,col=2,main="N(16,4)")

points(x,dpois(x,16),pch=3,col=3)

x<-seq(0,40,by=0.01)

lines(x,dnorm(x,16,4))

leg.txt=c("Binomial(320,0.05)","Pois(16)")

legend(28,0.09,leg=leg.txt,pch=c(2,3),col=c(2,3))

0 10 20 30 40

0.00

0.02

0.04

0.06

0.08

0.10

N(16,4)

Binomial(320,0.05)Pois(16)

Page 71: Theory (1.75 MB)

2.10 Anexo: repaso de combinatoria 61

2.10. Anexo: repaso de combinatoria

Para aplicar la regla de Laplace, el calculo de los sucesos favorables y de los sucesosposibles a veces no plantea ningun problema, ya que son un numero reducido y se puedencalcular con facilidad. Sin embargo a veces es necesario echar mano de alguna herramien-ta matematica para realizar dichos calculos, aquı es donde entra la combinatoria.

Ejemplo: 5 matrimonios se sientan aleatoriamente a cenar y queremos calcular la prob-abilidad de que al menos los miembros de un matrimonio se sienten juntos. En este caso,determinar el numero de casos favorables y de casos posibles es complejo.

Las reglas matematicas que nos pueden ayudar son las combinaciones, las variacionesy las permutaciones.

2.10.1. Combinaciones

Dado un conjunto de “n” elementos, las combinaciones nos permiten calcular elnumero de subgrupos de “m” elementos (m < n) que se pueden formar con ellos. Cadasubgrupo se diferencia del resto en los elementos que lo componen, el orden no influye.

Para calcular el numero de combinaciones se aplica la siguiente formula:

Cmn =

(nm

)=

n!

m!(n−m)!.

El termino “n!” se denomina “factorial de n” y es la multiplicacion de todos losnumeros que van desde 1 hasta n. La expresion Cm

n se lee: combinaciones de “n” elemen-tos tomados de “m” en “m”.

Ejemplo: ¿Cuantos grupos de 5 alumnos pueden formarse con los treinta alumnos deuna clase? (Un grupo es distinto de otro si se diferencia de otro por lo menos en unalumno)

No importa el orden (son grupos de alumnos). No puede haber dos alumnos iguales en ungrupo evidentemente, luego sin repeticion. Por tanto, se pueden formar 142506 gruposdistintos:

C530 =

(305

)=

30!

5!(30 − 5)!= 142506.

Tambien podemos analizar que ocurrirıa con el calculo de las combinaciones en elsupuesto de que al formar los subgrupos los elementos pudieran repetirse.

2.10.2. Combinaciones con repeticion

Para calcular el numero de combinaciones con repeticion se aplica la siguiente formu-la:

CRmn = Cm

n+m−1 =(n+m− 1)!

m!(n− 1)!.

Page 72: Theory (1.75 MB)

62 2. Modelos de distribucion de probabilidad

Ejemplo: En una confiterıa hay cinco tipos diferentes de pasteles. ¿De cuantas formasse pueden elegir cuatro pasteles?No importa el orden (son pasteles). Puede haber dos o mas pasteles de un mismo tipoen un grupo, luego con repeticion. Por tanto, se pueden formar 70 grupos distintos:

CR45 =

(5 + 4 − 1

4

)=

8!

4!(5 − 1)!= 70.

2.10.3. Variaciones

Dado un conjunto de “n” elementos, las variaciones nos permiten calcular el numerode subgrupos de “m” elementos (m < n) que se pueden formar con ellos. Cada subgrupose diferencia del resto en los elementos que lo componen o en el orden de los mismos, elorden influye.

Para calcular el numero de variaciones se aplica la siguiente formula:

V mn =

n!

(n−m)!.

Ejemplo: ¿Cuantos numeros de tres cifras distintas se pueden formar con las nuevecifras significativas del sistema decimal?Al tratarse de numeros el orden importa y ademas nos dice “cifras distintas” luego nopueden repetirse. Por tanto, se pueden formar 504 numeros : V 3

9 = 9!(9−6)! = 9 ·8 ·7 = 504.

2.10.4. Variaciones con repeticion

Nos indican el numero de subgrupos distintos de “m” elementos que se pueden formarcon los “n” dados. Se llaman variaciones con repeticion porque un mismo elemento puedeentrar mas de una vez en cada subgrupo. La formula es

V Rmn = nm.

Ejemplo: ¿Cuantos numeros de tres cifras se pueden formar con las nueve cifras signi-ficativas del sistema decimal?Al tratarse de numeros el orden importa y ademas no dice nada sobre “cifras distintas”luego sı pueden repetirse. Se pueden formar 729 numeros : V R3

9 = 93 = 729.

2.10.5. Permutaciones

Dado un conjunto de “n” elementos, las permutaciones nos dan el numero de posiblesordenaciones de los mismos.

Para calcular el numero de permutaciones se aplica la siguiente formula:

Pn = V nn = n!.

Ejemplo: Con las letras de la palabra DISCO ¿cuantas palabras distintas (con o sinsentido) se pueden formar?

Page 73: Theory (1.75 MB)

2.11 Ejercicios resueltos 63

Evidentemente, al tratarse de palabras el orden importa. Y ademas n = m, es decirtenemos que formar palabras de cinco letras con cinco elementos D, I, S, C, O que noestan repetidos. Por tanto, se pueden formar 120 palabras : P5 = 5! = 120.

2.10.6. Permutaciones con repeticion

Dado un conjunto de “n” elementos, si queremos calcular las posibles ordenaciones delos mismos, permitiendo que se repitan r1, r2,. . . ,rn veces respectivamente. Sea k = r1 +r2+. . . +rn, para calcular el numero de permutaciones con repeticion se aplica:

PRr1,r2,...,rn

k =k!

r1!r2!...rn!.

Ejemplo: ¿De cuantas maneras distintas pueden colocarse en lınea nueve bolas de lasque 4 son blancas, 3 amarillas y 2 azules?El orden importa por ser de distinto color, pero hay bolas del mismo color (estan repeti-das) y ademas n = m, i.e. colocamos 9 bolas en lınea y tenemos 9 bolas para colocar.Por tanto, tenemos 1260 modos de colocarlas : PR4,3,2

9 = 9!4!3!2! = 1260.

TABLA RESUMEN:

Agrupaciones Tipo ¿Importa ¿Pueden Elem. Elem. FORMULAorden? repetirse? grupo total

VariacionesSinrep.

SINO V m

n = n!(m−n)!

Conrep.

SI V Rmn = nm

PermutacionesSinrep.

SINO Pn = n!

Conrep.

SI m n P a,b,c,...n = n!

a!b!c!...

CombinacionesSinrep.

NONO

Cmn =

(nm

)= n!

m!(n−m)!

Cmn = V m

nPn

Conrep.

SI CRmn = Cm

n+m−1 = (n+m−1)!m!(n−1)!

Una pagina web en la que estos conceptos de combinatoria figuran explicados masdetalladamente es http://thales.cica.es/rd/Recursos/rd99/ed99-0516-02/practica/

2.11. Ejercicios resueltos

Ejercicio: En un examen de tipo test, un estudiante contesta a una pregunta que ofrecetres soluciones posibles. La probabilidad de que el estudiante conozca la respuesta es 0,8.

Page 74: Theory (1.75 MB)

64 2. Modelos de distribucion de probabilidad

a) Si el estudiante contesta correctamente la pregunta, ¿cual es la probabilidad deque realmente sepa la respuesta correcta?

b) Si el examen consta de 100 preguntas, los aciertos valen un punto y los fallos restan1/3 y el alumno responde a todas las preguntas, ¿cual es la probabilidad de queobtenga al menos un notable, si para ello debe obtener al menos 70 puntos?

Solucion:

a) Consideramos los sucesos

S = “el alumno conoce la respuesta”,

C = “el alumno contesta correctamente a la pregunta”.

Sabiendo que el alumno ha contestado correctamente a la pregunta, la probabilidadde que el alumno realmente supiese la respuesta es P (S/C), que por el teorema deBayes se calcula como:

P (S/C) =P (C/S)P (S)

P (C/S)P (S) + P (C/Sc)P (Sc).

Evidentemente P (C/S) = 1, pues es la probabilidad de que el alumno conteste cor-rectamente a la pregunta teniendo en cuenta que la sabe. Por otra parte, el enuncia-do del ejercicio establece que P (S) = 0,8 y en consecuencia P (Sc) = 1−P (S) = 0,2(P (Sc) representa la probabilidad de que el alumno no sepa la respuesta). Por ulti-mo P (C/Sc) representa la probabilidad de que el alumno conteste correctamente ala pregunta teniendo en cuenta que no sabe la respuesta. Como cada pregunta ofrece3 posibles respuestas, el alumno elegira al azar una de esas respuestas. La probabil-idad de acertar la correcta es entonces 1/3 y, por lo tanto, P (C/Sc) = 1/3 = 0,33.En definitiva

P (S/C) =P (C/S)P (S)

P (C/S)P (S) + P (C/Sc)P (Sc)=

1 · 0,81 · 0,8 + 0,33 · 0,2 = 0,923.

b) SeaN = “Nota obtenida por el alumno en el examen”.

Ası definida N es una variable aleatoria. Nos interesa determinar P (N ≥ 70), esdecir, la probabilidad de que el alumno obtenga una nota mayor de 70 puntos yque es la condicion necesaria para sacar por lo menos un notable. Pero, ¿comodeterminamos la nota de un alumno? Necesitamos saber cuantas preguntas hacontestado correctamente. Sea

X = “Numero de respuestas correctas contestadas”.

Entonces, como se establece en el enunciado, la nota del alumno se calcula como

N = 1 ·X − 1

3(100 −X).

Page 75: Theory (1.75 MB)

2.11 Ejercicios resueltos 65

Por tanto,

P (N ≥ 70) = P

(X − 1

3(100 −X) ≥ 70

)= P

(4

3X − 100

3≥ 70

)= P (X ≥ 77,5).

Es facil ver que X sigue una distribucion binomial de parametros n = 100 yp = P (C) = P (“el alumno contesta correctamente a la pregunta”). Fıjate que elexamen es la repeticion de n = 100 experimentos (preguntas) independientes demanera que para todos ellos la probabilidad de exito p (probabilidad de acertar lapregunta) es la misma. ¿Y cuanto vale dicha probabilidad? El alumno puede acertaruna pregunta bien porque la sabe o bien porque aunque la desconoce, la echa asuertes y acierta. Para calcular P (C) usaremos el teorema de las probabilidadestotales. Ası

P (C) = P (C/S)P (S) + P (C/Sc)P (Sc) = 1 · 0,8 + 0,33 · 0,2 = 0,8666.

Por lo tanto X ∈ B(100, 0,8666) y

P (X ≥ 77,5) = 1 − P (X < 77,5) = 1 − 0,0058 = 0,9941.

El valor de P (X < 77,5) lo hemos calculado en R con el comando

> pbinom(77.5,100,0.8666)

[1] 0.005816317

Tambien se puede calcular el valor de P (X < 77,5) aproximando por una distribu-cion normal N(np,

√np(1 − p)), por ser n > 30 y 0,1 < p < 0,9. Y tipificando la

variable obtenemos

P (X < 77,5) = P

(X − 86,66√

100 · 0,8666 · 0,1334<

77,5 − 86,66√100 · 0,8666 · 0,1334

)

= P (Z < −2, 69),

donde Z se aproxima a una N(0,1). Mirando en las tablas de la distribucion normalestandar obtenemos que P (Z < −2, 69) = 0,0035 y, por lo tanto, P (X ≥ 77,5) =1−0,0035 = 0,996. Fıjate que el resultado obtenido al aproximar por la normal nodifiere mucho del que se obtenıa utilizando la distribucion binomial.

En definitiva obtenemos que la probabilidad de que el alumno saque al menos unnotable es de 0.996.

Ejercicio: Consideremos una variable aleatoria bidimensional (X,Y ) con funcion dedensidad conjunta

f(x, y) =

kx(1 − y2) , si 0 ≤ x ≤ 1, 0 ≤ y ≤ 1,0 , en otro caso.

Page 76: Theory (1.75 MB)

66 2. Modelos de distribucion de probabilidad

a) Determinar el valor de k para que f sea funcion de densidad.

b) Calcular las funciones de densidad marginal de X e Y . ¿Son ambas variables in-dependientes?

c) Calcular la funcion de densidad de la variable Z = X/Y .

Solucion:

a) Dadas dos variables aleatorias continuasX e Y , definidas sobre el mismo espacio deprobabilidad, la funcion de densidad conjunta de la variable aleatoria bidimensional(X,Y ) es una funcion f verificando,

i) f(x, y) ≥ 0,

ii)∫∞−∞

∫∞−∞ f(x, y)dxdy = 1.

Por lo tanto, para que f tal y como esta definida en el enunciado del ejercicio seafuncion de densidad, debemos garantizar que integra 1 en el dominio de definicion.Entonces, teniendo en cuenta que el conjunto de valores donde f es no nula coincidecon el cuadrado unidad

(x, y) ∈ R2 : 0 ≤ x ≤ 1, 0 ≤ y ≤ 1,

se debe verificar

1 =

∫ 1

0

∫ 1

0kx(1 − y2)dxdy.

Resolviendo la integral,

1 =

∫ 1

0

∫ 1

0kx(1 − y2)dxdy =

∫ 1

0k(1 − y2)

[x2

2

]x=1

x=0

dy =

=

∫ 1

0

k(1 − y2)

2dy =

k

2

[y − y3

3

]y=1

y=0

=k

2

(1 − 1

3

)=k

3.

Por lo tanto, despejando el valor de k obtenemos que f es funcion de densidadpara k=3. Se muestra en la Figura 2.1 la representacion grafica de f para dichovalor de k.

b) Dada una variable aleatoria bidimensional (X,Y ) con densidad conjunta f , sedefina la funcion de densidad marginal de X como

fX(x) =

∫ ∞

−∞f(x, y)dy.

En nuestro caso, fijado x ∈ [0, 1], la variable y se mueve entre 0 y 1. Por lo tanto,para 0 ≤ x ≤ 1,

fX(x) =

∫ 1

03x(1 − y2)dy = 3x

[y − y3

3

]y=1

y=0

= 3x

(1 − 1

3

)= 2x.

Page 77: Theory (1.75 MB)

2.11 Ejercicios resueltos 67

x

y

z

Figura 2.1: Representacion de la funcion f para k = 3.

Para x < 0 o x > 1, la funcion f es nula y tambien lo sera entonces fX(x). Endefinitiva

fX(x) =

2x , si 0 ≤ x ≤ 1,0 , en otro caso.

De forma analoga, se define la funcion de densidad marginal de Y como

fY (y) =

∫ ∞

−∞f(x, y)dx.

Ahora, fijado y ∈ [0, 1], la variable x se mueve entre 0 y 1. Por lo tanto, para0 ≤ y ≤ 1,

fY (y) =

∫ 1

03x(1 − y2)dx = 3(1 − y2)

[x2

2

]x=1

x=0

=3

2

(1 − y2

).

Para y < 0 o y > 1, la funcion f es nula y tambien lo sera entonces fY (y). Endefinitiva

fY (y) =

32

(1 − y2

), si 0 ≤ y ≤ 1,

0 , en otro caso.

Por ultimo, X e Y son independientes si la densidad conjunta es igual al productode las densidades marginales, es decir, si

f(x, y) = fX(x) · fY (y).

En nuestro caso

fX(x)fY (y) =

2x · 3

2

(1 − y2

)= 3x

(1 − y2

), si 0 ≤ x ≤ 1, 0 ≤ y ≤ 1,

0 , en otro caso,

que coincide con f(x, y). Por lo tanto podemos concluir que las variables X e Yson independientes.

Page 78: Theory (1.75 MB)

68 2. Modelos de distribucion de probabilidad

c) La variable Z = X/Y se obtiene como transformacion de la variable (X,Y ). Ası,podemos escribir

(Z, T ) = g(X,Y ) = (g1(X,Y ), g2(X,Y )),

siendo

z = g1(x, y) = x/y,

t = g2(x, y) = y.

Tanto g1 como g2 admiten inversas u1 y u2, siendo

x = u1(z, t) = zt,

y = u2(z, t) = t.

Podemos aplicar el teorema de cambio de variable, siendo el determinante jacobiano

J =

∣∣∣∣∂x∂z

∂x∂t

∂y∂z

∂y∂t

∣∣∣∣ =∣∣∣∣t z0 1

∣∣∣∣ = t.

Teniendo en cuenta que 0 ≤ y ≤ 1 y 0 ≤ x ≤ 1 determinamos el campo de variacionde (Z, T ). Ası,

t = y ⇒ 0 ≤ t ≤ 1.

x = zt⇒ z = x/t⇒ 0 ≤ z ≤ 1/t.

En definitiva, la densidad conjunta w de la variable bidimensional (Z, T ) sera

w(z, t) = f(u1(z, t), u2(z, t)) |J | = 3zt(1 − t2)t = 3zt2(1 − t2),

para (z, u) verificando 0 ≤ t ≤ 1 y 0 ≤ z ≤ 1/t. (Ver Figura 2.2).

Finalmente, integrando con respecto a t se obtiene la funcion de densidad marginalde la variable Z = X/T . Debemos tener cuidado al definir los extremos de inte-gracion. A la vista de la Figura 2.2, la variable Z toma valores en [0,∞). Sin em-bargo debemos tener en cuenta que la variable T tiene distinto campo de variaciondependiendo del valor de Z. Ası, para 0 ≤ z ≤ 1 se tiene que 0 ≤ t ≤ 1. Por otraparte, para z > 1 se tiene que 0 ≤ t ≤ 1/z. Por lo tanto

wZ(z) =

∫ ∞

−∞w(z, t)dt =

∫ 10 3zt2(1 − t2)dt = 2z

5 , si 0 ≤ z ≤ 1,∫ 1/t0 3zt2(1 − t2)dt = 5z2−3

5z4 , si z > 1.

Ejercicio: Supongamos que la funcion de distribucion conjunta de dos variables x e yes la siguiente:

f (x, y) = c(x2 + y

), 0 ≤ y ≤ 1 − x2.

Determınese:

Page 79: Theory (1.75 MB)

2.11 Ejercicios resueltos 69

0 1 2 3 4 5

0.0

0.2

0.4

0.6

0.8

1.0

1.2

z

t

Figura 2.2: Campo de variacion de (Z, T ).

a) El valor de la constante c y P (0 ≤ x ≤ 1/2).

b) P (y ≤ 1 − x) y P(y ≥ x2

).

Solucion:

a) Para este apartado, lo primero que hay que tener claro es el area donde la funcionde densidad toma valores no nulos. Esta area se puede ver en la figura adjunta yse corresponde con el area bajo la curva y = 1 − x2 (roja) y los dos ejes.

−1.0 −0.5 0.0 0.5 1.0

0.0

0.2

0.4

0.6

0.8

1.0

x

y

Para resolver el primer apartado debemos usar que la integral de la densidad debe

Page 80: Theory (1.75 MB)

70 2. Modelos de distribucion de probabilidad

ser 1 y por tanto,

c

1∫

−1

1−x2∫

0

(x2 + y

)dydx = c

1∫

−1

[x2y +

y2

2

]1−x2

0

dx =

= c

1∫

−1

x2 (1 − x)2 +

(1 − x2

)2

2dx =

= c

1∫

−1

1 − x4

2dx = c

[x− x5

5

2

]1

−1

= c4

5= 1

y despejando tenemos que c = 5/4. La segunda parte del apartado a) basta consustituir y resolver,

P (0 ≤ x ≤ 1/2) =5

4

1/2∫

0

1 − x4

2dx =

5

4

[x− x5

5

2

]1/2

0

=5

4

12 − ( 1

2)5

5

2= 0,3085.

b) Para este apartado simplemente tenemos que ser cuidadosos a la hora de establecerlos lımites de integracion. Ası la primera parte es integrar en el area bajo la lıneaazul y los dos ejes, como se muestra en la siguiente figura:

−1.0 −0.5 0.0 0.5 1.0

0.0

0.2

0.4

0.6

0.8

1.0

x

y

Page 81: Theory (1.75 MB)

2.11 Ejercicios resueltos 71

P (y ≤ 1 − x) =1

2+

5

4

1∫

0

1−x∫

0

(x2 + y

)dxdy =

1

2+

5

4

1∫

0

[x2y +

y2

2

]1−x

0

dx =

=1

2+

5

4

1∫

0

(x2 (1 − x) +

(1 − x)2

2

)dx =

1

2+

5

4

1∫

0

(x2 − x3 +

1 − 2x+ x2

2

)dx =

=1

2+

5

4

1∫

0

(1

2− x+

3

2x2 − x3

)dx =

1

2+

5

4

[x

2− x2

2+x3

2− x4

4

]1

0

=

=1

2+

5

4

[1

2− 1

2+

1

2− 1

4

]=

1

2+

5

4· 1

4=

13

16.

El area de integracion para la segunda parte de este apartado se muestra en lasiguiente figura. Habra que integrar entre la curva y = x2 (verde) y la curvay = 1−x2 (roja) teniendo en cuenta que la variable x solo toma valores entre − 1√

2

y 1√2

(donde se cruzan la curva verde y la roja).

−1.0 −0.5 0.0 0.5 1.0

0.0

0.2

0.4

0.6

0.8

1.0

x

y

Page 82: Theory (1.75 MB)

72 2. Modelos de distribucion de probabilidad

Por tanto, la probabilidad pedida es:

P(y ≥ x2

)=

5

4

1√

2∫

− 1√

2

1−x2∫

x2

(x2 + y

)dydx =

5

4

1√

2∫

− 1√

2

[x2y +

y2

2

]1−x2

x2

dx =

=5

4

1√

2∫

− 1√

2

[x2(1 − x2

)+

(1 − x2

)2

2− x4 − x4

2

]dx =

=5

4

1√

2∫

− 1√

2

[x2 − x4 +

1 − 2x2 + x4

2− x4 − x4

2

]dx =

=5

4

1√

2∫

− 1√

2

(1

2− 2x4

)dx =

5

4

[1

2x− 2

5x5

] 1√

2

− 1√

2

=

=5

4

[1√2− 1

5√

2

]=

5

4

[5 − 1

5√

2

]=

1√2.

Page 83: Theory (1.75 MB)

Capıtulo 3

Inferencia parametrica

3.1. Introduccion a la Inferencia Estadıstica

Una vez asentadas las bases de teorıa de probabilidad podemos intentar inferir de lapoblacion, es decir, extraer informacion sobre las distintas caracterısticas de interes deuna cierta poblacion de la que se ha observado un conjunto de datos. Ası, puede ser deinteres estimar los parametros de la distribucion de probabilidad asociada a la poblacion,construir intervalos de confianza, predecir valores futuros o verificar si ciertas hipotesisson coherentes con los datos observados. Por tanto, la inferencia comprende alguna de lasfases del metodo estadıstico. Estas fases son recogida y depuracion de datos, estimacion,contrastes de simplificacion, diagnosis y validacion del modelo. Respecto al objetivode estudio dividiremos la inferencia en parametrica, cuando el objeto de interes seanlos parametros de la distribucion de probabilidad que se supone conocida, y en noparametrica, cuando nuestro interes se centra en caracterısticas mas generales de ladistribucion de probabilidad no referenciados en parametros.

Otra clasificacion de la inferencia se tiene atendiendo al tipo de informacion consid-erada que nos clasificarıa la inferencia en clasica y bayesiana. El enfoque clasico o fre-cuentista trata los parametros poblacionales desconocidos como valores fijos que debenser estimados. El enfoque bayesiano considera que los parametros desconocidos son vari-ables aleatorias para las cuales debe fijarse una distribucion inicial (a priori). Mezclandola distribucion a priori con la informacion muestral los metodos bayesianos hacen uso dela regla de Bayes para ofrecer una distribucion a posteriori de los parametros.

3.2. Conceptos

Denominaremos poblacion a un conjunto homogeneo de individuos sobre los quese estudian una o varias caracterısticas. Es frecuente que no se pueda observar todala poblacion por un sinfın de motivos (empezando por el economico) de manera quenormalmente trabajaremos con un subconjunto de la poblacion que se denominara lamuestra. Llamaremos tamano muestral al numero de elementos de la muestra. Unmetodo de muestreo sera el procedimiento empleado para la obtencion de la muestra.

Page 84: Theory (1.75 MB)

74 3. Inferencia parametrica

El objetivo de los metodos de muestreo es que la muestra represente a la poblacion dela mejor manera posible.

El muestreo aleatorio simple es aquel en el que cada vez que seleccionamos unindividuo de la muestra, este tiene la misma probabilidad de ser elegido para formar partede la muestra que cualquier otro independientemente de que otros individuos hayan sidoya seleccionados. Por tanto, bajo muestreo aleatorio simple un individuo podrıa apareceren la muestra mas de una vez (con reemplazamiento). En este caso las variables aleatoriasque conforman la muestra pueden suponerse independientes e identicamente distribuidas(segun la distribucion poblacional).

El muestreo sistematico consiste en utilizar una lista u orden que presenten losdatos. Dada una poblacion de N individuos de la que se quiere extraer n elementos, elmuestreo sistematico consiste en elegir aleatoriamente un valor l en el conjunto 1,...,k,donde k denota la parte entera de N/n. A partir de ese valor de l consideramos todosaquellos situados en la lista en las posiciones (i−1)k + l. Desde el punto de vista com-putacional este muestreo es mas sencillo e incluso puede ser obtener una muestra masrepresentativa que el muestreo aleatorio simple sin embargo un serio inconveniente puededarse si en la muestra existen periodicidades que coincidan con la longitud del salto enla lista.

Otro tipo de muestreo es el muestreo estratificado que ocurre cuando es posibledividir la muestra en grupos o estratos entre los que existen diferencias importantes.En este caso se trata de obtener un cierto numero de individuos (afijacion) de cadaestrato segun muestreo aleatorio simple. Si el numero que selecciono en cada estrato esel mismo se dira que utilizamos una afijacion simple. Si el numero se elige proporcionalal tamano del estrato se dira que usamos una afijacion proporcional. La afijacionoptima consiste en elegir la muestra segun la formula siguiente:

ni =Niσi

/√ci

k∑j=1

Njσj

/√cj

,

donde Ni es la tamano del estrato, ci es el coste de muestrear una unidad en el estrato i-esimo y σi es la desviacion tıpica de la caracterıstica en el estrato i-esimo. Esta manera deseleccionar la muestra minimiza la varianza de la caracterıstica analizada en la muestra.

En el muestreo por conglomerados la poblacion se divide en conglomerados quese suponen homogeneos entre ellos de manera que se puede seleccionar de algunos con-glomerados para obtener una muestra representativa (en vez de seleccionar de todos losconglomerados).

Otros tipos de muestreo serıan el muestreo polietapico (que mezcla varios delos anteriores), el muestreo opinatico (cada elemento se elige subjetivamente), elmuestreo por cuotas (opinatico por estratos), el muestreo semialeatorio y elmuestreo por rutas. Estos tipos de muestreo sacrifican propiedades deseables de lamuestra en aras de facilidad de obtencion o menor coste y en general no podran medircon el mismo rigor que tipos de muestreo anteriores pudiendo producir sesgos en lamuestra. Otro problema es que a menudo el causante de los problemas en la representa-

Page 85: Theory (1.75 MB)

3.3 Distribucion muestral y funcion de verosimilitud 75

tividad de la muestra viene causado por el diseno del cuestionario o la propia esencia deobtencion del dato. Ası, en un cuestionario demoscopico debemos tener en cuenta quelas preguntas sean entendidas por todos los entrevistados sin lugar a la interpretacionpersonal o que factores culturales induzcan diferencias, que las preguntas no introduzcanen su formulacion o en su orden elementos de sesgo que influyan sobre la respuesta o queno provoquen efectos anımicos o de conciencia que afecten a la calidad de las respuestas,su sinceridad o su pertinencia.

3.3. Distribucion muestral y funcion de verosimilitud

A partir de este punto trataremos mas profundamente la inferencia parametricadonde podemos pensar que estamos interesados en el estudio de una variable aleato-ria X, cuya distribucion, F , es en mayor o menor grado desconocida. Conociendo ladistribucion podemos extraer conclusiones acerca de la poblacion en estudio. En la infer-encia parametrica suponemos que tenemos una familia de distribuciones cuya distribu-cion de probabilidad se supone conocida salvo los valores que toman ciertos coeficientes(parametros), es decir, F =

Fθ|θ ∈ Θ ⊂ R

k

(a Θ se le llama espacio parametrico). Paratratar de conocer F tomamos una muestra x1,...,xn. El metodo de muestreo emplea-do influira decisivamente en los pasos posteriores ya que la distribucion conjunta de lamuestra F (x1,...,xn) sera necesaria para el proceso de inferencia. Llamaremos muestraaleatoria simple de tamano n de una variable aleatoria X con distribucion teorica Fa n variables aleatorias x1,...,xn independientes e igualmente distribuidas con distribu-cion comun F . Consecuentemente, la funcion de distribucion conjunta de la muestra esF (x1,...,xn) = F (x1) × F (x2)×...×F (xn). Llamaremos espacio muestral al conjuntode muestras posibles que pueden obtenerse al seleccionar una muestra de un tamano de-terminado de una cierta poblacion. Llamaremos estadıstico a cualquier funcion T de lamuestra. El estadıstico T (x1,...,xn) como funcion de variables aleatorias, es tambien unavariable aleatoria y tendra por tanto una distribucion de probabilidad que llamaremosdistribucion en el muestreo de T .

Ejemplos de estadısticos serıan:

La media muestral: T (x1, · · · , xn) = 1n

n∑i=1

xi.

La varianza muestral: T (x1, · · · , xn) = 1n

n∑i=1

(xi − x)2.

La cuasivarianza muestral: T (x1, · · · , xn) = 1n−1

n∑i=1

(xi − x)2.

En general, usaremos la notacion θn = T (x1, · · · , xn) para referirnos a un estadıstico.A continuacion presentamos algunas propiedades deseables en un estadıstico:

Centrado o insesgado: Si se cumple que E(θn) = θ. Llamaremos Sesgoθ(θ) =

E(θn) − θ.

Page 86: Theory (1.75 MB)

76 3. Inferencia parametrica

Asintoticamente insesgado: Si lımn→∞

E(θn

)= θ.

Consistente en media cuadratica: lımn→∞

ECM(θn

)= 0 siendo ECM(θn) =

Sesgoθ(θ)2 + Var(θn).

Eficiencia: Efic(θn

)= 1/

ECM(θn

).

Suficiencia: Cuando el estadıstico utiliza toda la informacion de la muestra.

Llamaremos funcion de distribucion empırica a la funcion de distribucion queresulta de suponer a la muestra como toda la poblacion. Es por tanto, una funcion dedistribucion discreta y vendra definida como

Fn(x) =

0 si x < x(1),rn si x(r) ≤ x < x(r+1),

1 si x ≥ x(n).

donde la notacion x(i) significa el dato de la muestra que ordenado ocupa la posicioni-esima.

Las medidas muestrales habituales se pueden escribir ahora en funcion de la distribu-cion empırica. Ası, la media muestral se escribira como

x =1

n

n∑

i=1

xi =

∫xdFn(x) = EFn(x),

que resulta ser la esperanza bajo la distribucion empırica.

Una propiedad relevante de la funcion de distribucion empırica viene dada por elteorema de Glivenko-Cantelli que nos asegura que si n tiende a infinito entonces

supx

|Fn(x) − F (x)| c.s.→ 0.

Esta propiedad nos dice que la funcion de distribucion de la muestra converge uni-formemente a la funcion de distribucion de la poblacion y por tanto cualquier funcionalde la funcion de distribucion empırica (cumpliendo algunas propiedades) convergera alfuncional de la distribucion de la poblacion. Esto asegura que, obteniendo muestras masgrandes, podemos aproximarnos al parametro de interes de la distribucion tanto comoqueramos.

Para construir un estimador podemos emplear varios metodos. El mas clasico es elmetodo de los momentos que consiste en que si suponemos que la distribucion de unavariable X viene caracterizada por k parametros (θ1,...,θk), estos tambien influiran enlos momentos poblacionales (E(Xj) = gj(θ1, ..., θk)). De manera que si estamos intere-sados en un determinado estimador una solucion puede venir de considerar el sistemade ecuaciones de igualar los momentos poblacionales con los momentos muestrales. Si elsistema tiene solucion ese estimador sera el estimador por el metodo de los momentos.

Page 87: Theory (1.75 MB)

3.4 Distribuciones en el muestreo de poblaciones normales 77

Supongamos ahora una variable aleatoria continua X con funcion de densidad f (·|Θ)donde se especifica Θ para indicar que depende de ciertos parametros desconocidos. Sitenemos una muestra aleatoria simple x1,...,xn llamaremos funcion de verosimilituda la funcion de densidad conjunta de la muestra, es decir, ℓ(Θ, x1, ..., xn) =

∏f (xi|Θ).

Esta funcion, dada una muestra particular, nos proporcionarıa la probabilidad para cadavalor Θ de obtener la muestra dada. El objetivo en la inferencia es obtener informacionsobre la poblacion a partir de una muestra. En este planteamiento aquel valor Θ quemaximice esta funcion, sera el mejor estimador de los parametros desconocidos de lapoblacion. El estimador ası construido se llamara estimador maximo-verosımil. Entrelas propiedades que tienen los estimadores maximo-verosımiles en distribuciones cuyosrangos de valores no depende de parametros estan:

Asintoticamente centrados.

Asintoticamente normales.

Asintoticamente de varianza mınima (eficientes).

Si existe un estadıstico suficiente, el estimador maximo-verosımil es suficiente.

3.4. Distribuciones en el muestreo de poblaciones normales

Supongamos en lo que sigue, y salvo indicacion en contra, que estamos muestreandode una poblacion normal de la que obtenemos una muestra x1,...,xn. Calculemos losestadısticos mas habituales y sus propiedades.

3.4.1. Estimacion de la media de una poblacion

Supongamos que la muestra proviene de una variable aleatoria normal con media µ yvarianza σ2. Un estimador razonable del parametro µ es la media muestral x = 1

n

∑ni=1 xi

que verifica las siguientes propiedades:

Insesgado: E(x) = E

(1n

n∑i=1

xi

)= 1

n

n∑i=1

E(xi) = 1n

n∑i=1

µ =µ.

Consistente: Var(x) = Var

(1n

n∑i=1

xi

)= 1

n2

n∑i=1

Var(xi) = 1n2

n∑i=1

σ2 =σ2

n .

Por tanto, la media muestral es una suma de variables normales con la misma mediay varianza y por tanto sera normal con media µ y varianza σ2/n.

En el caso de que la poblacion de partida no sea normal, por el teorema central delımite si el tamano de la muestra es grande (≥ 30) la distribucion de la media muestralse aproximara a la normal.

Page 88: Theory (1.75 MB)

78 3. Inferencia parametrica

3.4.2. Estimacion de la varianza de una poblacion

En el mismo supuesto del apartado anterior un estimador razonable de la varianzade la poblacion puede ser la varianza muestral: S2 = 1

n

∑ni=1 (xi − x)2 que presenta las

siguientes propiedades:

Es asintoticamente insesgado:

E(nS2) = E

(n∑

i=1

(xi − x)2

)= E

(n∑

i=1

(xi − µ)2 − n(µ− x)2

)= (n− 1)σ2.

E(S2) =n− 1

nσ2.

Es consistente: Bajo hipotesis de normalidad se puede demostrar que nS2

σ2 ∈ χ2n−1

y por tanto Var(

nS2

σ2

)= 2(n− 1) ⇒ Var(S2) = 2(n−1)

n2 σ4.

Al efecto de corregir el sesgo de la varianza muestral se utiliza la cuasivarianzao varianza muestral corregida como S2 = 1

n−1

∑ni=1 (xi − x)2 que presenta mejores

propiedades:

Es un estimador insesgado de σ2: E(S2) = σ2.

Es un estimador consistente de σ2: Var(S2) = 2n−1σ

4.

(n−1)S2

σ2 ∈ χ2n−1.

Ademas la media muestral y la cuasivarianza muestral son variables aleatoriasindependientes.

Si la poblacion de partida de la muestra no es normal entonces se mantienen laspropiedades para la media de los estimadores pero no para la varianza que presentarıauna formula que depende de los coeficientes de asimetrıa y curtosis. Tampoco serıanvalidas las propiedades que ligan la distribucion de la varianza muestral (o cuasivarianza)con la distribucion χ2.

3.4.3. Estimacion de una proporcion

Supongamos una poblacion en la que una proporcion de individuos p tiene una de-terminada caracterıstica y supongamos que deseamos estimar esa proporcion. Para elloobtenemos una muestra x1,...,xn donde cada xi es un valor cero si no posee la car-acterıstica y uno si la posee. Por tanto tenemos una muestra aleatoria simple de unaBernouilli de parametro p. Un estimador razonable de p es la proporcion de elementosde la muestra que presentan la caracterıstica, es decir, p = 1

n

∑ni=1 xi.

Este caso es un caso particular de la estimacion de la media de una poblacion conE(xi) = p y Var(xi) = p(1 − p) y por tanto las propiedades de la media se derivan delapartado anterior.

Page 89: Theory (1.75 MB)

3.5 Intervalos de confianza 79

3.5. Intervalos de confianza

En muchos casos una estimacion puntual no es suficiente ya que no nos proporciona elerror que se comete en la estimacion. Para tener mas informacion veremos a continuacioncomo calcular un intervalo numerico que con cierta “seguridad” contenga al valor delparametro en la poblacion.

Definicion: Se llama intervalo de confianza (IC) para el parametro θ con nivelo coeficiente de confianza 1 − α, con 0 < α < 1, a un intervalo aleatorio (a,b) talque P (a < θ < b) = 1−α. La aleatoriedad del intervalo (a,b) proviene de la muestra, esdecir, a y b son funciones de la muestra.

En general, para construir un intervalo de confianza para un parametro θ utilizaremosel metodo de la cantidad pivotal que consiste en seleccionar una muestra y considerarun estadıstico T (x1, . . . , xn; θ), cuya distribucion en el muestreo no dependa de θ. Dichoestadıstico se denomina estadıstico pivote. Fijado un nivel de confianza 1 − α sedeterminan las constantes a y b tal que cumplen P (a < T (x1, . . . , xn; θ) < b) = 1−α. Sies posible despejar θ de la expresion anterior obtendremos dos valores que determinanel intervalo, es decir,

P(T−1(x1, . . . , xn; a) < θ < T−1(x1, . . . , xn; b)

)= 1 − α.

3.5.1. Intervalo de confianza para la media de una poblacion normal

Apliquemos los anteriores conceptos a la estimacion por intervalo de la media deuna poblacion normal. Sea una muestra aleatoria simple x1,...,xn de una distribucionteorica N(µ,σ). Hemos visto que x ∈ N(µ, σ/

√n). Como estadıstico pivote podemos

considerar,

T (x1, . . . , xn;µ) =x− µ

σ/√n,

cuya distribucion en el muestreo es N(0, 1) y por tanto no depende de µ. Ası, fijado elnivel de confianza y llamando zα/2 al cuantil α/2 de la normal, se tendra que

1 − α = P

(−zα/2 ≤ x− µ

σ/√n≤ zα/2

)= P

(x− zα/2

σ√n≤ µ ≤ x+ zα/2

σ√n

),

donde hemos despejado µ en funcion de la varianza teorica σ y del tamano muestral.Por supuesto, este intervalo solo se puede calcular cuando se conoce la varianza teorica.

Si no se conoce la varianza teorica de la poblacion entonces el estadıstico pivote quedebemos utilizar serıa

x− µ

σ/√n

/√(n− 1)S2

σ2(n− 1)=

x− µ

S/√

n∈ tn−1,

que no depende ahora de σ. Por tanto con los mismos pasos anteriores el intervalo deconfianza sera: (

x− tn−1,α/2S√n≤ µ ≤ x+ tn−1,α/2

S√n

).

Page 90: Theory (1.75 MB)

80 3. Inferencia parametrica

Una cuestion interesante es determinar el tamano muestral para obtener un intervalode una determinada longitud. Esta cuestion solo se puede resolver propiamente suponien-do la varianza conocida. En este caso la longitud del intervalo es L = 2zα/2σ/

√n y por

tanto despejando n se tiene

n =4z2

α/2σ2

L2.

Si la varianza no es conocida en la formula anterior hay que sustituir la varianza teoricapor la cuasivarianza y el valor crıtico de la normal por el de una t de Student. El valorcrıtico de la t depende de n aunque para n grande se puede aproximar por el de la normal.La cuasivarianza tiene el problema de que se conoce una vez obtenida la muestra cuandola cuestion planteada es previa a la obtencion de la muestra. Se puede solventar estadificultad bien obteniendo una muestra preliminar o bien obteniendo informacion previade estudios anteriores.

3.5.2. Intervalo de confianza para la varianza de una poblacion normal

Para calcular el intervalo de confianza para la varianza de poblaciones normalespodemos considerar el estadıstico pivote

(n− 1)S2

σ2=nS2

σ2∈ χ2

n−1,

ya visto en apartados anteriores y que solo depende de σ. Procediendo como en el casode la media podemos obtener el intervalo

1 − α = P

(χ2

n−1,α/2≤ nS2

σ2≤ χ2

n−1,1−α/2

)= P

(nS2

χ2n−1,α/2

≤ σ2 ≤ nS2

χ2n−1,1−α/2

)

donde(χ2

n−1,α/2, χ2

n−1,1−α/2

)son los cuantiles de la χ2.

3.5.3. Intervalo de confianza para la diferencia de medias de pobla-

ciones normales

El objetivo de este apartado es construir intervalos de confianza no solo para lamedia de la poblacion sino tambien para la comparacion de dos poblaciones mediante sumedia. Como vimos, la media es una medida de resumen de la poblacion de tal maneraque si obtenemos diferencias significativas entre las medias de dos poblaciones podremosinferir que las poblaciones son diferentes. En este apartado tendremos dos muestrasx1,...,xn e y1,...,ym procedentes de dos poblaciones que pueden ser independientes oapareadas. En el caso de muestras independientes los individuos en los que se ha medidola variable X son diferentes de aquellos en los que se mide la variable Y entendiendoque la obtencion de la primera muestra no afecta a la segunda. En el caso de muestrasapareadas se ha medido para un mismo grupo de individuos la variable X y la variableY que se pretenden comparar. En este caso m = n y se supone una cierta dependenciaentre cada valor de la primera muestra y su homologo de la segunda.

Page 91: Theory (1.75 MB)

3.5 Intervalos de confianza 81

3.5.4. Muestras independientes, varianzas poblacionales conocidas

Tenemos una muestra x1,...,xn de una variable X ∈ N(µX , σX) y otra muestray1,...,ym de la variable Y ∈ N(µY , σY ). En este caso las medias muestrales (x, y) sonindependientes y normales y por tanto su diferencia tambien tendra una distribucionnormal.

x ∈ N(µX , σX/√n)

y ∈ N(µY , σY /√m)

⇒ x− y ∈ N

(µX − µY ,

√σ2

X

n+σ2

Y

m

).

Con esta propiedad podemos calcular ya el intervalo que vendrıa dado por:

1 − α = P

((x− y) − zα/2

√σ2

X

n+σ2

Y

m≤ µX − µY ≤ (x− y) + zα/2

√σ2

X

n+σ2

Y

m

).

3.5.5. Muestras independientes, varianzas desconocidas e iguales

Como en el caso del intervalo de confianza para la media cuando la varianza es de-sconocida se pasa de trabajar con valores crıticos de la normal a trabajar con valorescrıticos de una t de Student ya que se estima esta varianza. De igual forma se pro-cede ahora. Si suponemos que las varianzas de las dos poblaciones son iguales el mejorestimador de la varianza sera:

S2T =

(n− 1)S2X + (m− 1)S2

Y

n+m− 2,

que no es mas que una adecuada ponderacion de los mejores estimadores de cadapoblacion. Como en casos anteriores se puede demostrar bajo normalidad que

(n+m− 2)S2T

σ2∈ χ2

n+m−2.

Ası, el intervalo de confianza para la diferencia de medias sera

((x− y) − tn+m−2,α/2ST

√1

n+

1

m≤ µX − µY ≤ (x− y) + tn+m−2,α/2ST

√1

n+

1

m

).

3.5.6. Muestras independientes, varianzas desconocidas y desiguales

Ahora no podemos tener una estimacion global de la varianza ası que el estadısticopivote que debemos utilizar es:

W =(x− y) − (µX − µY )√

S2Xn +

S2Y

m

,

que asintoticamente tiene una distribucion N(0,1) aunque la convergencia es lenta y portanto poco precisa para valores muestrales pequenos. Para este caso (n o m < 30) se

Page 92: Theory (1.75 MB)

82 3. Inferencia parametrica

suele utilizar la aproximacion de Welch segun la cual el estadıstico pivote sigue unadistribucion t con g = n+m− 2 − δ, siendo δ el entero mas proximo a:

ψ =

[(m− 1)

S2Xn − (n− 1)

S2Y

m

]2

(m− 1)

(S2

Xn

)2

+ (n− 1)

(S2

Ym

)2 .

3.5.7. Muestras apareadas, varianzas poblacionales conocidas

Para el caso de muestras apareadas no podemos utilizar los intervalos vistos anteri-ormente ya que estos suponen independencia de las poblaciones. En el caso de muestrasapareadas precisamente se supone que hay dependencia entre las poblaciones lo queproduce que cuando se calcule la varianza de la diferencia de medias: Var(x − y) =Var(x) + Var(y) − 2Cov(x, y) no debamos olvidarnos del termino de la covarianza. Lomejor en este caso en trabajar con la variable D = X − Y y realizar el intervalo deconfianza para la media de esta variable que usando lo ya conocido vendra dado por:

(d− tn−1,α/2

SD√n≤ µD ≤ d+ tn−1,α/2

SD√n

).

3.5.8. Intervalo de confianza para la razon de varianzas de poblaciones

normales

Hemos visto hace un momento dos situaciones diferentes para el caso de diferencia demedias de poblaciones normales con muestras independientes. La eleccion de la situacionen la que nos encontramos depende de plantear si las varianzas desconocidas de las dospoblaciones pueden o no ser iguales. Para esto se plantea este intervalo de confianza derazon de varianzas, es decir, σ2

Y

/σ2

X . Si este intervalo de confianza incluye al 1 entoncespodemos suponer que ambas varianzas son iguales y por tanto decidirnos a utilizar elintervalo de confianza para la diferencia de medias supuestas las varianzas desconocidase iguales. Teniendo en cuenta que las poblaciones son normales tenemos que

(n− 1)S2X

σ2X

∈ χ2n−1 y

(m− 1)S2Y

σ2Y

∈ χ2m−1

y, dado que las poblaciones son independientes, podemos considerar el estadıstico pivote:

W =

(n−1)S2X

σ2X(n−1)

(m−1)S2Y

σ2Y (m−1)

=S2

Xσ2Y

S2Y σ

2X

,

que por construccion sigue una distribucion Fn−1,m−1. Por tanto el intervalo de confianzavendra dado por (

Fn−1,m−1,1−α/2S2

Y

S2X

, Fn−1,m−1,α/2S2

Y

S2X

)

Page 93: Theory (1.75 MB)

3.6 Contrastes de hipotesis 83

donde Fn−1,m−1,1−α/2 y Fn−1,m−1,α/2 son los cuantiles de la distribucion de orden 1−α/2y α/2.

3.6. Contrastes de hipotesis

Se trata en este apartado de comprobar empıricamente alguna hipotesis inicial so-bre la poblacion en estudio a partir de la informacion extraıda de la muestra. Este eshabitualmente el objetivo de la experimentacion: avalar o rechazar afirmaciones que in-volucren alguna caracterıstica desconocida de la poblacion. Esta toma de decisiones laenglobaremos bajo el nombre de pruebas o contrastes de hipotesis. Se trata de formularuna hipotesis sobre la poblacion, se experimenta (se obtiene una muestra adecuada dela poblacion) y por ultimo se juzga si los resultados apoyan la hipotesis de partida.

3.6.1. Hipotesis estadıstica

Se denomina hipotesis estadıstica a cualquier conjetura sobre una o varias carac-terısticas de interes de un modelo de probabilidad. Ejemplos de este tipo de hipotesissera concretar un valor o rango de valores, establecer comparaciones entre parametros dedistintas poblaciones, especificar alguna caracterıstica sobre la forma de la distribucion,asumir que una muestra ha sido tomada al azar, etc. Una hipotesis parametrica esuna afirmacion sobre los valores de parametros poblacionales desconocidos. Una hipotesisparametrica se dice simple si especifica un unico valor para cada parametro poblacionaldesconocido. Se dice compuesta si asigna un conjunto de valores posibles a parametrospoblacionales desconocidos. Se denomina hipotesis nula que habitualmente se denotapor H0 a la hipotesis que se contrasta. La hipotesis nula debe ser la hipotesis que elexperimentador asume como correcta y que no necesita ser probada (de ahı el nom-bre de nula). Cuando se acepta la hipotesis nula es porque no hay evidencia suficientepara refutarla. En este sentido si el experimentador quiere respaldar con contundenciaun determinado argumento solo podra hacerlo a traves del rechazo del argumento con-trario (el establecido en H0). Rechazar la hipotesis nula implica asumir como correctauna conjetura o hipotesis complementaria que se conoce como hipotesis alternativa ysuele denotarse como H1. La eleccion de la hipotesis alternativa tambien puede condi-cionar las propiedades analıticas del criterio probabilıstico seleccionado para discernirentre H0 y H1. Una funcion de los datos muestrales y del valor del parametro especifi-cado por la hipotesis nula, con distribucion conocida cuando H0 es cierta, se denominaestadıstico de contraste o medida de discrepancia. Habitualmente el estadısti-co de contraste tomara valores “pequenos” cuando la hipotesis nula es cierta y valores“grandes” cuando es cierta la alternativa. Por tanto, la manera de razonar sera: “Prefe-rimos la hipotesis nula salvo que la medida de discrepancia sea suficientemente grandeen cuyo caso preferiremos la hipotesis alternativa”. En este proceso podemos cometerdos tipos de errores. El error tipo I se produce cuando se toma la decision de rechazarla hipotesis nula siendo esta cierta. El error tipo II es el que se comete al no rechazarla hipotesis nula cuando esta es falsa. Asumido que toda decision esta sujeta a error y

Page 94: Theory (1.75 MB)

84 3. Inferencia parametrica

establecidos los dos tipos de error posibles, parece claro que cualquier criterio para optarpor una u otra hipotesis atendera a controlar el riesgo de equivocarse. El planteamientoclasico del contraste de hipotesis consiste en controlar el riesgo de cometer un error tipoI. Este enfoque significa que el que decide otorga su credito inicial a la hipotesis nula ysolo esta dispuesto a rechazarla si la evidencia en su contra es muy importante (como enun juicio penal). Con esta forma de proceder y dado que el estadıstico de contraste tienedistribucion conocida cuando H0 es cierta bastara con prefijar de antemano la probabil-idad de cometer un error tipo I. Llamaremos nivel de significacion de un contraste (α) ala probabilidad de cometer un error tipo I, es decir, α = P (rechazar H0/H0 es cierta).Los valores mas habituales para este nivel son 0,01, 0,05 y 0,1. Una eleccion cualquieradividira en dos regiones el conjunto de posibles valores del estadıstico de contraste: unade probabilidad α (bajo H0) que se llamara region de rechazo o crıtica y otra deprobabilidad 1−α que llamaremos region de aceptacion. Si el estadıstico toma valoresen la region de aceptacion diremos que el contraste es estadısticamente no significativo.Si por el contrario toma valores en la region de rechazo diremos que el contraste esestadısticamente significativo. La ubicacion y forma de las regiones dependera del tipode hipotesis alternativa. Si la region de rechazo esta formada por las dos colas de ladistribucion del estadıstico de contraste bajo H0 se dice un contraste bilateral. Si por elcontrario la region de rechazo esta formada por una cola de la distribucion del estadısticobajo H0 se dira un contraste unilateral.

Cuando sea necesario controlar el error tipo II hay que tener en cuenta que normal-mente la hipotesis alternativa es una hipotesis compuesta y por tanto este error tipo IIes una funcion de los elementos que pudieran estar bajo la hipotesis H1. El error tipo IIse denota normalmente por β.

Los pasos a seguir para realizar un contraste son:

1. Especificar las hipotesis nula (H0 ) y la alternativa (H1).

2. Elegir un estadıstico de contraste apropiado.

3. Fijar el nivel de significacion α en base a como de importante se considere el errortipo I.

4. Prefijado α y el estadıstico, construir las regiones de rechazo y aceptacion.

5. Determinar cual es el primer valor de la hipotesis alternativa que, de ser correcto,deseamos detectar con el contraste. Especificar el tamano del error tipo II queestamos dispuestos a asumir.

6. En base a las probabilidades α y β calcular el tamano muestral adecuado paragarantizar ambas probabilidades de error.

7. Tomar la muestra y evaluar el estadıstico de contraste.

8. Concluir si el test es estadısticamente significativo o no al nivel de significacion αsegun se ubique en la region de rechazo.

Page 95: Theory (1.75 MB)

3.6 Contrastes de hipotesis 85

Los pasos 5 y 6 solo se ejecutaran si es necesario controlar el error tipo II.Se llama nivel crıtico o p-valor a la probabilidad de obtener una discrepancia

mayor o igual que el estadıstico de contraste cuando H0 es cierta. Claramente, cuandoel nivel crıtico sea mayor que el valor de α, se aceptara la hipotesis nula en tanto quevalores menores que α no decantan por la hipotesis alternativa.

Se llama funcion de potencia a la probabilidad de rechazar H0 en funcion delparametro de interes. Se suele denotar por π(θ). Por tanto, para los valores de la hipotesisalternativa π(θ) = 1−β(θ) y para los valores de la hipotesis nula π(θ) ≤ α (Si la hipotesisnula es simple entonces π(θ) = α).

3.6.2. Contraste de hipotesis para la media de una poblacion normal

Sea una muestra aleatoria simple x1,...,xn de una distribucion teorica N(µ,σ). Nosocuparemos ahora de hipotesis del estilo: H0 : µ = µ0 contra alternativas compuestas(H1 : µ 6= µ0, H1 : µ < µ0, H1 : µ > µ0). Para ello utilizaremos los estadısticos pivoteestudiados en anteriores apartados:

x−µ0

σ/√

n∈ N(0, 1), si la varianza poblacional es conocida.

x−µ0

S/√

n∈ tn−1, si la varianza poblacional es desconocida.

Ambos estadısticos miden la discrepancia entre la informacion muestral (x) y elvalor conjeturado por la hipotesis nula (µ0) y ademas sabemos las distribuciones deambos si H0 es cierta. Por tanto lo unico que nos quedara por hacer es calcular lasregiones de aceptacion y rechazo para cada una de las posibles alternativas. En el casode la primera hipotesis alternativa la region de aceptacion coincide con el intervalode confianza para la media de una poblacion normal y por tanto la region de rechazosera

(−∞,−zα/2

)∪(zα/2,+∞

). En el caso de la hipotesis alternativa de las otras hipotesis

alternativas la region de rechazo sera, respectivamente, (−∞,−zα) y (zα,+∞).Otra cuestion interesante es averiguar el tamano que debe tener la muestra para que

el contraste realizado a un nivel α resulte significativo cuando el valor real de µ seaµ0 + ε tenga una potencia fijada de antemano 1−β(µ0 + ε). Consideremos la alternativaH1 : µ > µ0 y supondremos conocida la varianza (el caso mas simple). El estadısticopivote

x− µ0

σ/√n

sigue una N(0,1) si H0 es cierta pero ahora se quiere calcular

P (no rechazar H0/H1 es cierta).

Por tanto, bajo la hipotesis de que H1 es cierta tenemos que la verdadera media esµ = µ0 + ε y el estadıstico pivote

x− µ0

σ/√n

∈ N

σ/√n, 1

).

Page 96: Theory (1.75 MB)

86 3. Inferencia parametrica

La probabilidad que queremos calcular es por tanto

P

(x− µ0

σ/√n

≤ zα

∣∣∣∣H1

)= P

(Z ≤ − ε

σ/√n

+ zα

∣∣∣∣N(0, 1)

)

⇒ − ε

σ/√n

+ zα = z1−β(µ0+ε) = −zβ(µ0+ε)

de donde se deduce que

n =

(zα + zβ(µ0+ε)

ε

)2

σ2,

que especifica el tamano muestral como funcion del nivel de significacion y del error tipoII cuando µ = µ0 + ε. Este tamano es el tamano muestral mınimo para que con ciertaseguridad (100(1− β)%) que realicemos el contraste con significacion α detectemos quela verdadera media dista ε de µ0.

Si la varianza no fuese conocida entonces tenemos la dificultad de calcular la dis-tribucion bajo H1 ya que esta serıa una t no central cuyo centro serıa ε/σ. Como σ esdesconocida solo podrıamos resolver el problema cuando ε = k σ.

Si la poblacion de partida no fuese normal, el teorema central de lımite garantiza quepara un tamano muestral grande la distribucion de la media se aproxima a la normal.Por supuesto para muestras pequenas deberıamos utilizar otros contrastes.

data(sleep);attach(sleep)

x<-extra[group==1];alpha<-0.05

test.stat<-t.test(x,y=NULL,mu=mean(x),paired=F,conf.level=1-alpha)

bound.left<--3.0;bound.right<-3.0

df<-length(x)-1

xaxis<-seq(bound.left,bound.right,length=1000)

yaxis<-dt(xaxis-test.stat$estimate,df)

plot(xaxis,yaxis,type="l",xlab="",ylab="Densidad t")

crit.left<-test.stat$conf.int[1]

crit.right<-test.stat$conf.int[2]

xaxis<-seq(bound.left,crit.left,length=100)

yaxis<-c(dt(xaxis-test.stat$estimate,df),0,0)

xaxis<-c(xaxis,crit.left,bound.left)

polygon(xaxis,yaxis,density=25)

xaxis<-seq(crit.right,bound.right,length=100)

yaxis<-c(dt(xaxis-test.stat$estimate,df),0,0)

xaxis<-c(xaxis,bound.right,crit.right)

polygon(xaxis,yaxis,density=25)

points(test.stat$null.value,0.01,pch="*",cex=1.5)

text(test.stat$null.value,0.04,"Hipotesis",adj=1)

text(bound.left,0.08,"Region de \nRechazo",adj=0)

text(bound.right,0.08,"Region de \nRechazo",adj=1)

text((bound.left+bound.right)/2,0.16,"Region de aceptacion")

Page 97: Theory (1.75 MB)

3.6 Contrastes de hipotesis 87

xaxis<-c(rep(crit.left,2),rep(crit.right,2))

yaxis<-c(0.12,0.14,0.14,0.12)

lines(xaxis,yaxis)

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Den

sida

d t

*

Hipotesis

Región de Rechazo

Región de Rechazo

Region de aceptación

3.6.3. Contraste de hipotesis para la varianza de una poblacion normal

Sea una muestra aleatoria simple x1,...,xn de una distribucion teorica N(µ,σ). Nosocuparemos ahora de hipotesis del estilo: H0 : σ2 = σ2

0 contra las usuales alternativascompuestas (H1 : σ2 6= σ2

0, H1 : σ2 > σ20, H1 : σ2 < σ2

0). Para ello utilizaremos elestadıstico pivote

(n− 1)S2

σ2∈ χ2

n−1

estudiado anteriormente. Las regiones de rechazo seran, respectivamente,

(0, χ2

n−1,1−α/2

)∪(χ2

n−1,α/2,+∞

),(0, χ2

n−1,1−α

)y(χ2

n−1,α,+∞

)

a imitacion del caso anterior.

data(sleep);attach(sleep)

x<-extra[group==1];alpha<-0.05

bound.left<-0.0;bound.right<-3*var(x)

df<-length(x)-1;H0<-5.0

xaxis<-seq(bound.left,bound.right,length=1000)

yaxis<-dchisq(xaxis,df)

plot(xaxis,yaxis,type="l",xlab="",ylab=" Densidad chi cuadrado")

crit.left<-qchisq(0.025,df=df)

Page 98: Theory (1.75 MB)

88 3. Inferencia parametrica

crit.right<-qchisq(0.975,df=df)

xaxis<-seq(bound.left,crit.left,length=100)

yaxis<-c(dchisq(xaxis,df),0,0)

xaxis<-c(xaxis,crit.left,bound.left)

polygon(xaxis,yaxis,density=25)

xaxis<-seq(crit.right,bound.right,length=100)

yaxis<-c(dchisq(xaxis,df),0,0)

xaxis<-c(xaxis,bound.right,crit.right)

polygon(xaxis,yaxis,density=25)

estad<-var(x)*(length(x)-1)/H0

points(estad,0.01,pch="*",cex=1.5)

text(estad,0.04,"Hipotesis",adj=1)

text(bound.left,0.06,"Region de \nRechazo",adj=0)

text(bound.right,0.06,"Region de \nRechazo",adj=1)

text((bound.left+bound.right)/2,0.08,"Region de aceptacion")

xaxis<-c(rep(crit.left,2),rep(crit.right,2))

yaxis<-c(0.12,0.14,0.14,0.12)

lines(xaxis,yaxis)

0 2 4 6 8

0.00

0.02

0.04

0.06

0.08

0.10

Den

sida

d ch

i cua

drad

o

*

Hipotesis

Region de Rechazo

Region de Rechazo

Region de aceptación

3.6.4. Contraste de hipotesis para la diferencia de medias de pobla-

ciones normales

Sean dos muestras aleatorias simples x1,...,xn y y1,...,ym de distribuciones teori-cas N(µX ,σX) y N(µY ,σY ). Nuestro objetivo ahora sera contrastar la hipotesis nulaH0 : µX = µY . El contraste se puede plantear equivalentemente como H0 : µX − µY = 0.

Page 99: Theory (1.75 MB)

3.6 Contrastes de hipotesis 89

Debemos distinguir las diferentes situaciones que ya consideramos en el caso de intervalosde confianza.

Muestras independientes, varianzas poblacionales conocidas

Ya sabemos que el estadıstico que la diferencia de medias de muestras independientessigue la distribucion normal que ademas bajo H0 significa que

x− y ∈ N

(0,

√σ2

X

n+σ2

Y

m

),

lo que nos sugiere como estadıstico de contraste a:

x− y√σ2

Xn +

σ2Y

m

∈ N (0, 1) .

Las regiones de rechazo son como en el caso del contraste para la media.

Muestras independientes, varianzas desconocidas e iguales

Imitando el apartado homologo en intervalos de confianza ahora el estadıstico decontraste sera

x− y

ST

√1n + 1

m

∈ tn+m−2,

donde como antes

ST =(n− 1)S2

X + (m− 1)S2Y

n+m− 2.

La region de aceptacion sera entonces

((x− y) − tn+m−2,α/2ST

√1

n+

1

m, (x− y) + tn+m−2,α/2ST

√1

n+

1

m

).

data(sleep);attach(sleep)

x<-extra[group==1];y<-extra[group==2]

df<-length(x)+length(y)-2;alpha<-0.05

bound.left<-min((min(x)-max(y)),(min(y)-max(x)))

bound.right<-max((max(x)-min(y)),(max(y)-min(x)))

test.stat<-t.test(x,y,paired=F,conf.level=1-alpha)

xaxis<-seq(bound.left,bound.right,length=1000)

yaxis<-dt(xaxis-test.stat$statistic,df)

plot(xaxis,yaxis,type="l",xlab="",ylab=" Densidad t")

crit.left<-test.stat$conf.int[1]

crit.right<-test.stat$conf.int[2]

xaxis<-seq(bound.left,crit.left,length=100)

Page 100: Theory (1.75 MB)

90 3. Inferencia parametrica

yaxis<-c(dt(xaxis-test.stat$statistic,df),0,0)

xaxis<-c(xaxis,crit.left,bound.left)

polygon(xaxis,yaxis,density=25)

xaxis<-seq(crit.right,bound.right,length=100)

yaxis<-c(dt(xaxis-test.stat$statistic,df),0,0)

xaxis<-c(xaxis,bound.right,crit.right)

polygon(xaxis,yaxis,density=25)

points(test.stat$null.value,0.01,pch="*",cex=1.5)

text(test.stat$null.value,0.04,"Hipotesis",adj=1)

text(bound.left,0.08,"Region de \nRechazo",adj=0)

text(bound.right,0.08,"Region de \nRechazo",adj=1)

text((bound.left+bound.right)/2,0.16,"Region de aceptacion")

xaxis<-c(rep(crit.left,2),rep(crit.right,2))

yaxis<-c(0.12,0.14,0.14,0.12)

lines(xaxis,yaxis)

−6 −4 −2 0 2 4 6

0.0

0.1

0.2

0.3

0.4

Den

sida

d t

*

Hipotesis

Region de Rechazo

Region de Rechazo

Region de aceptación

Muestras independientes, varianzas desconocidas y desiguales

Como en intervalos de confianza, el estadıstico de contraste sera:

W =(x− y)√S2

Xn +

S2Y

m

,

cuya distribucion bajo H0 tiende lentamente a la N(0,1). Para muestras pequenas (no m < 30) se suele utilizar la aproximacion de Welch segun la cual el estadıstico pivotesigue una distribucion t con g = n+m− 2 − δ siendo δ el entero mas proximo a:

Page 101: Theory (1.75 MB)

3.6 Contrastes de hipotesis 91

ψ =

[(m− 1)

S2Xn − (n− 1)

S2Y

m

]2

(m− 1)

(S2

Xn

)2

+ (n− 1)

(S2

Ym

)2 .

Muestras apareadas, varianzas poblacionales conocidas

Al igual que se hizo anteriormente la solucion natural para este problema es consider-ar la variable D = X−Y y tratar ahora el contraste H0 : d = 0, (no debemos olvidarnosde lo conocido para Var(x− y) en este caso) suponiendo varianza desconocida. Por tantoel estadıstico de contraste sera

d

SD

/√n∈ tn−1.

3.6.5. Contraste de hipotesis para la razon de varianzas de poblaciones

normales

Sean dos muestras aleatorias simples x1,...,xn y y1,...,ym de distribuciones teoric-as N(µX ,σX) y N(µY ,σY ). Se trata ahora, siguiendo el paralelismo empleado en intervalosde confianza, de verificar la hipotesis de igualdad de varianzas mediante el estadısticorazon de varianzas, es decir, σ2

Y

/σ2

X . Si se puede aceptar el valor uno como pertenecientea la hipotesis nula podemos suponer que las varianzas de ambas poblaciones son iguales.Como ya se ha razonado anteriormente el estadıstico pivote que vamos a utilizar es:

W =

(n−1)S2X

σ2X(n−1)

(m−1)S2Y

σ2Y (m−1)

=S2

Xσ2Y

S2Y σ

2X

,

que sigue una distribucion Fn−1,m−1. Por tanto la region de aceptacion en el caso de untest bilateral vendra dada por

(Fn−1,m−1,1−α/2

S2Y

S2X

, Fn−1,m−1,α/2S2

Y

S2X

),

donde Fn−1,m−1,1−α/2 y Fn−1,m−1,α/2 son los cuantiles de la distribucion de orden 1−α/2y α/2. En el caso de hipotesis unilaterales, las regiones de aceptacion seran

(0, Fn−1,m−1,α

S2Y

S2X

)o

(Fn−1,m−1,1−α

S2Y

S2X

,∞)

dependiendo del sentido de la desigualdad en la hipotesis nula.

data(sleep);attach(sleep)

x<-extra[group==1];y<-extra[group==2]

Page 102: Theory (1.75 MB)

92 3. Inferencia parametrica

df<-length(x)+length(y)-2;alpha<-0.05

test.stat<-var.test(x,y,ratio=1,conf.level=1-alpha)

bound.left<-0

bound.right<-3*var(y)/var(x)

xaxis<-seq(bound.left,bound.right,length=1000)

yaxis<-df(xaxis,df1=length(y)-1,df2=length(x)-1)

plot(xaxis,yaxis,type="l",xlab="",ylab=" Densidad F")

crit.left<-test.stat$conf.int[1]

crit.right<-test.stat$conf.int[2]

xaxis<-seq(bound.left,crit.left,length=100)

yaxis<-c(df(xaxis,df1=length(y)-1,df2=length(x)-1),0,0)

xaxis<-c(xaxis,crit.left,bound.left)

polygon(xaxis,yaxis,density=25)

xaxis<-seq(crit.right,bound.right,length=100)

yaxis<-c(df(xaxis,df1=length(y)-1,df2=length(x)-1),0,0)

xaxis<-c(xaxis,bound.right,crit.right)

polygon(xaxis,yaxis,density=25)

points(test.stat$null.value,0.01,pch="*",cex=1.5)

text(test.stat$null.value,0.04,"Hipotesis",adj=1)

text(bound.left,0.08,"Region de \nRechazo",adj=0)

text(bound.right,0.08,"Region de \nRechazo",adj=1)

text((bound.left+bound.right)/2,0.16,"Region de aceptacion")

xaxis<-c(rep(crit.left,2),rep(crit.right,2))

yaxis<-c(0.12,0.14,0.14,0.12)

lines(xaxis,yaxis)

0 1 2 3

0.0

0.2

0.4

0.6

Den

sida

d F

*Hipotesis

Region de Rechazo

Region de Rechazo

Region de aceptación

Page 103: Theory (1.75 MB)

3.7 Ejercicio resuelto 93

3.6.6. Relacion entre intervalos de confianza y contrastes de hipotesis.

A la vista de lo explicado hasta este momento, parece evidente que existe relacionentre los intervalos de confianza y los contrastes de hipotesis. De hecho, las regiones deaceptacion de los diversos contrastes a nivel de significacion α son intervalos de confianzaa nivel de confianza 1 − α. Estamos hablando de las dos caras de la misma moneda. Siun determinado valor θ0 pertenece al intervalo de confianza 1 − α, entonces la hipotesisnula H0 : θ = θ0 sera aceptada frente a la alternativa H1 : θ 6= θ0 cuando el contraste serealiza a nivel α. Y viceversa. Esta analogıa responde, ademas de a la similitud de ambosplanteamientos, al hecho de que los estadısticos pivotes utilizados para la construccion deintervalos de confianza coinciden con los estadısticos de contraste empleados en contrastede hipotesis.

3.7. Ejercicio resuelto

Ejercicio: En 20 dıas lectivos y a la misma hora se ha observado el numero de terminalesde una universidad conectados a Internet. Los resultados son los siguientes

1027, 1023, 1369, 950, 1436, 957, 634, 821, 882, 942,

904, 984, 1067, 570, 1063, 1307, 1212, 1045, 1047, 1178.

Se pide:

a) Calcular el intervalo de confianza al 95 % para el numero medio de terminalesconectados a Internet.

b) Calcular el intervalo de confianza al 95 % para la varianza del numero de terminalesconectados a internet.

c) ¿Que tamano muestral es necesario para obtener el intervalo de confianza al 95 %para el numero medio de terminales conectados a Internet con una longitud inferiora 30 unidades?

Solucion:

a) Para este apartado necesitamos los estadısticos basicos de la muestra que son:n = 20, x = 1020,9, y s = 215,74. El intervalo de confianza para la media vienedeterminado por el estadıstico pivote:

−tα/2n−1 ≤ x− µ

s√n

≤ tα/2n−1 =⇒ µ ∈

[x± t

α/2n−1

s√n

].

Haciendo los calculos

µ ∈[x± t

α/2n−1

s√n

]=

[1020,9 ± 2,09 × 215,74√

20

]= [920,08, 1121,72] .

Page 104: Theory (1.75 MB)

94 3. Inferencia parametrica

b) Para el segundo apartado usaremos el estadıstico,

(n− 1) s2

σ2∈ χ2

n−1 =⇒ σ2 ∈[

(n− 1) s2

χ2n−1,α/2

,(n− 1) s2

χ2n−1,1−α/2

].

Entonces

σ2 ∈[

(n− 1) s2

χ2n−1,α/2

,(n− 1) s2

χ2n−1,1−α/2

]=

[884331,2

32,9,884331,2

8,91

]= [26879,37, 99251,54] .

c) Para este apartado, si conociesemos la varianza, la longitud del intervalo viene dadapor L = 2zα/2

σ√n. En este caso no conocemos σ, pero como el tamano muestral

que vamos a necesitar va a ser mayor que el que tenemos del apartado 1 (ese tienelongitud 201.68), la t que vamos a necesitar tendra muchos mas grados de libertady podremos aproximarla por la distribucion normal estandar. Por tanto buscamosn tal que:

L = 2zα/2σ√n< 30 =⇒ √

n > 2zα/2σ

30

=⇒ √n > 2 × 1,96 × 215,74

30= 28,19 =⇒ n > 795.

Page 105: Theory (1.75 MB)

Capıtulo 4

Inferencia no parametrica

4.1. Introduccion

En general, al estimar los parametros de una poblacion se supone que los datossiguen una distribucion conocida. Esto permite extraer conclusiones que logicamentedependen de esas suposiciones iniciales. A estas hipotesis se las conoce como hipotesisestructurales. Por ejemplo, si queremos construir un intervalo de confianza para la vari-anza de una poblacion, debemos recordar que la formula vista en apartados anteriores essolamente aplicable cuando la poblacion es normal. Si esta suposicion falla, esta formulasolo nos dara buenos resultados cuando tengamos muchos datos. Por tanto, convienetener herramientas que nos permitan estudiar si estas hipotesis basicas estan o no encontradiccion con los datos.

En concreto, nos fijaremos en las siguientes hipotesis

Hipotesis sobre la distribucion.

Hipotesis sobre la posicion de dos o mas grupos.

Hipotesis de independencia.

Hipotesis de homogeneidad.

4.2. Hipotesis sobre la distribucion

En muchos de los contrastes parametricos se hacen suposiciones de normalidad quepueden no cumplirse en la practica. De hecho, las inferencias sobre la varianza sonmuy sensibles a la hipotesis de normalidad. Nuestro interes estara centrado ahora encomprobar si los datos provienen de una distribucion determinada y esto se conseguira atraves de dos contrastes basicos: el χ2 de Pearson y el test de Kolmogorov-Smirnov.Tambien se comentaran los tests especıficos para normalidad.

Page 106: Theory (1.75 MB)

96 4. Inferencia no parametrica

4.2.1. El contraste χ2 de Pearson

Es el contraste de ajuste a una distribucion mas antiguo debido a Pearson, cuyaidea es comparar las frecuencias observadas en un histograma o diagrama de barras conlas especificadas por el modelo teorico que se contrasta. Sirve tanto para distribucionescontinuas como discretas, a diferencia del test de Kolmogorov-Smirnov que veremos luegoque solo sirve para distribuciones continuas.

El test se plantea en los siguientes terminos, contrastamosH0 : X ∈ F0

H1 : X /∈ F0

Como en cualquier problema de contraste de hipotesis a H0 la llamaremos hipotesisnula, y aH1 la llamaremos hipotesis alternativa. A partir de una muestraX = (x1, . . . , xn)aleatoria simple de n datos (n ≥ 25) debemos determinar cual de los dos hipotesis ante-riores es preferible.

El contraste se realiza como sigue:

1. Agrupar los n datos en k clases, donde k ≥ 5. Las clases se eligen de manera quecubran todo el rango posible de valores de la variable y que cualquier posible datoquede clasificado sin ambiguedad. Es conveniente ademas, cuando esto sea posible,intentar elegirlas con el mismo numero de datos en cada clase. Cada clase debecontener al menos tres datos. Llamaremos Oi al numero de datos de la muestraque caen en la clase i (observados en dicha clase).

2. Calcular la probabilidad pi que el modelo supuesto (distribucion H0) asigna a cadaclase y calcular para cada clase Ei = npi (esperados en dicha clase).

3. Calcular la discrepancia entre lo observado y lo esperado mediante

X2 =k∑

i=1

(Oi − Ei)2

Ei,

que se distribuye como una χ2 cuando el modelo especificado en H0 es correcto. Losgrados de libertad de esta distribucion seran k − r−1 donde r son los parametrosestimados de la distribucion especificada en H0.

4. Rechazaremos el modelo cuando la probabilidad de obtener una discrepancia mayoro igual que la observada sea suficientemente baja. Es decir, cuando X2 ≥ χ2

k−r−1,α

para un cierto α pequeno (en general α = 0,05). (χ2k−r−1,α representa el valor

crıtico de una χ2 con k− r−1 grados de libertad que deja a la derecha un area α).

Notas:

Por supuesto, cuantas mas clases tengamos (con las limitaciones mencionadas antes)mejor funcionara el test puesto que mas grados de libertad tendra la distribucion delestadıstico. Un inconveniente de este contraste es que dos modelos distintos, que asignenla misma probabilidad a las mismas clases obtendran las mismas discrepancias, y portanto el mismo resultado.

Page 107: Theory (1.75 MB)

4.2 Hipotesis sobre la distribucion 97

Tambien resulta interesante comprobar el signo de Oi − Ei para detectar posiblestendencias de la distribucion.

Ejemplo: Se han recogido 6115 grupos de 12 individuos de una especie de mosquitocontandose para cada grupo el numero de machos y hembras. Los resultados fueron lossiguientes:

M-H 12-0 11-1 10-2 9-3 8-4 7-5 6-6 5-7 4-8 3-9 2-10 1-11 0-12Obs. 7 45 181 478 829 1112 1343 1033 670 286 104 24 3

Se trata de comprobar si puede suponerse que existe la misma proporcion de machosque de hembras en dicha especie.

Solucion: Si estamos contando el numero de machos y hembras que hay en cada grupode 12, podemos pensar que estamos realizando un experimento aleatorio de 12 tiradasdonde el exito del experimento es el numero de machos que tenemos (o de hembras, esindiferente). Bajo este punto de vista, estos experimentos sabemos que siguen una dis-tribucion binomial de tamano 12 y probabilidad de exito p (ahora desconocida) (B(n,p)).Tambien como es conocido la probabilidad de obtener i exitos en una distribucion B(n,p)es:

P (X = i) = P (i) =

(ni

)pi(1 − p)n−i.

Queremos contrastar que existe la misma proporcion de machos que de hembras,por tanto para determinar nuestra distribucion supondremos p=0.5. De manera que laprobabilidad de cada grupo con i machos sera:

P (i) =

(12i

)0,5i(1 − 0,5)12−i.

Como hemos hecho el experimento 6.115 veces, el numero de grupos esperado decada clase con i machos sera E(i) = 6.115×P (i). Por tanto, tendremos llamando X2

i =(Oi − Ei)

2/Ei y calculando el signo del numerador antes de elevar al cuadrado:

No 12 11 10 9 8 7 6 5 4 3 2 1 0

Oi 7 45 181 478 829 1112 1343 1033 670 286 104 24 3Ei 1,49 17,92 98,5 328,4 738.9 1182,4 1379,5 1182,4 738,9 328,4 98,53 17,92 1,49X2

i 20,4 40,92 69,03 68,10 10,98 4,19 0,96 18,87 6,43 5,48 0,30 2,06 1,53Signo + + + + + - - - - - + + +

Podemos calcular ahora el valor del estadıstico X2 sin mas que sumar la 4a fila yobtenemos X2 = 249,23. Este valor debemos compararlo con el teorico χ2

k−r−1,α, dondek = 13 (numero de clases), r = 0 (no estimamos ningun parametro) y α = 0,05 (habitualcuando no se dice nada). χ2

12,0,05 = 21,0 (se mira en las tablas de la χ2 donde cruzan 12

y 0,95). Como X2 = 249,23 > χ20,05(12) = 21,0 entonces rechazamos la hipotesis de que

exista la misma proporcion de machos que de hembras. Ademas, si nos fijamos en la fila

Page 108: Theory (1.75 MB)

98 4. Inferencia no parametrica

de los signos, primero tenemos una racha de varios signos +, luego otra de varios signos−, y finalmente una ultima racha de tres signos +. Esto indicarıa que hay una ciertatendencia a que existan mas machos que hembras en esta especie, aunque los ultimossignos + podrıan indicar una subpoblacion dentro de la especie de este mosquito, dondela hembra predomine.

> golesdep<-c(2,3,5,2,2,3,2,1,0,1,2,1,2,2,1,2,1,0,4)

> lambda<-mean(golesdep)

> oi<-table(factor(golesdep,0:3))

> oi<-c(oi,sum(table(factor(golesdep)))-sum(oi))

> probs<-dpois(0:3,lambda=lambda)

> probs<-c(probs,1-sum(probs))

> probs*sum(oi)

[1] 2.856800 5.412884 5.127996 3.238734 2.363586

> chisq.test(oi,p=probs,simulate.p.value=T)

Chi-squared test for given probabilities

data: oi

X-squared = 2.4267, df = 4, p-value = 0.6578

4.2.2. El test de Kolmogorov-Smirnov

Este constraste compara la funcion de distribucion teorica con la empırica y soloes valido para variables continuas. El test se plantea en los mismos terminos que el dePearson visto anteriormente:

H0 : X ∈ F0.H1 : X /∈ F0.Suponemos que tenemos una muestra X = (x1, . . . , xn) aleatoria simple que proviene

de un modelo continuo F (x). El contraste se realiza como sigue:

1. Ordenar los valores muestrales en orden creciente: x(1) ≤ x(2) ≤ . . . ≤ x(n).

2. Calcular la funcion de distribucion empırica de la muestra Fn(x), con :

Fn(x) =

0 si x < x(1),rn si x(r) ≤ x < x(r+1),

1 si x ≥ x(n).

3. Calcular la discrepancia maxima entre las funciones de distribucion observada (oempırica) y teorica con el estadıstico:

Dn = max |Fn(x) − F (x)|,

cuya distribucion, bajo H0 se ha tabulado. Si la distancia calculada Dn es mayorque la encontrada en las tablas fijado α, (D(α,n)), rechazaremos el modelo F (x).

Page 109: Theory (1.75 MB)

4.2 Hipotesis sobre la distribucion 99

Notas

Este contraste tiene la ventaja de que no es necesario agrupar los datos.

Si estimamos los parametros de la poblacion mediante la muestra, la distribucionde Dn es solo aproximada convirtiendose en un contraste conservador (es decir,tendente a aceptar siempre). Existen versiones de este test para esos casos (vertest de Kolmogorov-Smirnov-Lilliefors para normalidad).

Para calcular el estadısticoDn dada una muestra hay que pensar que la distribucionempırica es constante por tramos, de manera que la maxima distancia entre Fn(x)y F (x) se da en los puntos de salto (los puntos de la muestra). En un punto de lamuestra xh la distancia entre las funciones Fn(x) y F (x), Dn(xh), se calcula como:

Dn(xh) = max |Fn(xh−1) − F (xh)| , |Fn(xh) − F (xh)| .

y para calcular Dn solo hay que calcular el maximo de los Dn(xh).

> library(stats)

> y<-rnorm(100)

> plot(ecdf(y),do.points=F)

> x<-seq(-3.5,3.5,length=100)

> lines(x,pnorm(x),col=2)

> ks.test(y,"pnorm",mean=0,sd=1)

One-sample Kolmogorov-Smirnov test

data: y

D = 0.0801, p-value = 0.5423

alternative hypothesis: two-sided −2 −1 0 1 2

0.0

0.2

0.4

0.6

0.8

1.0

ecdf(y)

x

Fn(

x)

4.2.3. El contraste de Shapiro-Wilks

Este contraste mide el ajuste de la muestra al dibujarla en papel probabilıstico normala una recta. Se rechaza normalidad cuando el ajuste es malo que se corresponde a valorespequenos del estadıstico. El estadıstico que se utiliza es:

w =1

ns2

h∑

j=1

aj,n

(x(n−j+1) − x(j)

)

2

=A2

ns2.

donde ns2 =∑

(xi − x)2; h es la parte entera de n/2; los coeficientes aj,n estan tabuladosy x(j) es el valor ordenado en la muestra que ocupa el lugar j. La distribucion de westa tabulada y se rechazara normalidad cuando el valor calculado es menor que el valorcrıtico dado en las tablas.

Page 110: Theory (1.75 MB)

100 4. Inferencia no parametrica

4.2.4. Contrastes de asimetrıa y curtosis

El coeficiente de asimetrıa muestral viene dado por la expresion: α1 =∑

(xi−x)3

ns3 dondes es la desviacion tıpica de los datos. Si la hipotesis de normalidad es cierta, entonces lapoblacion es simetrica y el coeficiente de asimetrıa debe acercarse a cero. Para muestrasgrandes (de al menos 50 datos) la distribucion de α1 es aproximadamente normal conmedia 0 y varianza aproximadamente igual a 6/n. Esta propiedad nos permite contrastarla hipotesis de que los datos proceden de una distribucion simetrica.

El grado de apuntamiento o curtosis -concentracion de probabilidad cerca de la moda-

se mide por el coeficiente: α2 =∑

(xi−x)4

ns4 . Este coeficiente toma el valor 3 para una dis-tribucion normal. Para muestras grandes -mas de 200 datos- este coeficiente se distribuyeasintoticamente como una distribucion normal con media 3 (valor teorico del coeficientede curtosis bajo distribucion normal) y varianza aproximadamente igual a 24/n. Denuevo esta propiedad nos permite contrastar la hipotesis de que los datos presentan unapuntamiento similar al de la distribucion normal.

Tambien se puede elaborar un test conjunto para las dos caracterısticas sin masque estandarizar cada una de las distribuciones y sumarlas. En este caso, se obtiene la

siguiente expresion: X22 =

nα21

6 + n(α2−3)2

24 ∼ χ22 que puesto que resulta la suma de dos

N(0,1) independientes sigue una distribucion χ2 con dos grados de libertad. Este test seconoce habitualmente con el nombre de Jarque-Bera.

4.2.5. Transformaciones para conseguir normalidad

Una posible solucion cuando no hemos conseguido aceptar la hipotesis de que losdatos son normales es transformar estos para que su distribucion se parezca lo masposible a la normal. La siguiente familia de transformaciones para conseguir normalidadha sido propuesta por Box y Cox:

x(λ) =

(x+m)λ−1

λ si λ 6= 0,ln(x+m) si λ = 0,

siendo x+m > 0.

donde λ es el parametro de la transformacion que serıa necesario estimar y la constantem se elige de tal forma que x + m sea siempre positivo. La estimacion de λ se suelehacer por maxima-verosimilitud que en este caso serıa obtener el maximo de la siguientefuncion:

ℓ(λ) = −n2

ln σ(λ)2 + (λ− 1)n∑

i=1

ln(xi),

donde σ(λ)2 representa la varianza de los datos transformados. Usualmente se sueleobtener el valor de esta funcion para valores entre −2 y 2.

Page 111: Theory (1.75 MB)

4.3 Contrastes de posicion 101

4.3. Contrastes de posicion

Se trata en este apartado de verificar si dos poblaciones podrıan ser homogeneas encuanto a su posicion. Basicamente estamos en la misma situacion que el contraste deigualdad de medias vista en el apartado de inferencia parametrica salvo que ahora laposicion no se medira con la media de la poblacion sino con otras medidas. Como enaquel caso diferenciaremos los casos de muestras independientes y muestras apareadas.

4.3.1. Test de los signos y rangos para muestras apareadas

Supongamos que tenemos una muestra (x1,y1),. . . ,(xn,yn) tomada sobre n individ-uos donde suponemos una cierta dependencia entre ellas (debido al efecto individuo). Elcontraste que pretendemos es H0 : “las dos muestras provienen de la misma poblacion”contra su alternativa. Si es cierta H0 la distribucion de la variable X − Y sera simetricarespecto al origen y por tanto la P (X > Y ) = P (Y > X) = 0,5. Por tanto el numero deveces que se espera que la variable X-Y tome valores positivos debe seguir una distribu-cion binomial de parametros n y p = 0,5. Para n > 10 se puede aproximar la binomialpor una normal de parametros µ = n/2 y σ2 = n/4. Por tanto si llamamos ns al numerode veces que ocurre X − Y > 0 entonces

Z =ns− n/2√

n/4∼ N(0, 1)

y por tanto las regiones de aceptacion seran |Z| ≤ zα/2, Z ≤ zα y Z ≤ −zα.Tambien se utiliza para comparar datos apareados el test del signo-rango de Wilcoxon

que ademas del signo se utiliza la magnitud de las diferencias entre los valores de cada par.Tomaremos las diferencias di = xi −yi y ordenarlas de menor a mayor prescindiendo delsigno y asignarles rango desde 1, 2, . . . ,n. Consideramos el estadıstico T = mın(T+,T−)siendo T+ la suma de los rangos correspondientes a las diferencias positivas y T− la sumade los rangos correspondientes a las diferencias negativas. Se rechaza la hipotesis nula deque las dos muestras provienen de la misma poblacion si T es igual o menor que el valorcrıtico de la tabla de Wilcoxon. Para n > 25 se puede aproximar T (bajo la hipotesisnula) a una normal de media µ = n(n+ 1)/4 y varianza σ2 = n(n+ 1)(2n+ 1)/24. Losvalores iguales a cero se ignoran y si varias di son iguales se les asigna el rango promediode los valores empatados.

4.3.2. Test de Mann-Whitney-Wilcoxon para muestras independientes

Supongamos que tenemos dos muestras x1,. . . ,xn y y1,. . . ,ym que creemos prove-nientes de la misma poblacion (hipotesis nula). Si esto es cierto entonces como se ra-zono para el anterior test P (X > Y ) = P (Y > X) = 0,5. Dado que tenemos n×m paresel numero esperado de pares donde se cumpla la condicion x < y sera n×m/2. Se conocecomo el estadıstico U de Mann-Whitney al numero observado de pares con la anteriorpropiedad. Para calcularlo rapidamente se ordenan las dos muestras conjuntamente y seasignan rangos 1, 2, . . . , n+m de menor a mayor. Entonces U = W− m(m+1)/2 donde

Page 112: Theory (1.75 MB)

102 4. Inferencia no parametrica

W es la suma de los rangos correspondientes de la segunda muestra. (Simetricamente sepuede razonar con la otra muestra). Si n > 10 y m > 10, entonces U se puede aproximara una distribucion normal de media n×m/2 y varianza n×m(n+m+1)/12. Los posiblesempates en los rangos se resuelven asignando a las observaciones empatadas el promediode los rangos empatados. En este caso se modifica levemente la varianza del estadısticoaunque la diferencia es muy pequena si el numero de empates es pequeno.

4.3.3. Test de Kruskal-Wallis para multiples muestras independientes

Supongamos que tenemos ahora k muestras de tamano n1,. . . ,nk. Se ordenan conjun-tamente y se asignan rangos a la muestra ordenada conjunta. Llamemos Ri a la suma delos rangos de los ni elementos de la muestra i−esima. Si existe homogeneidad entre lasdistribuciones de los k grupos y no hay observaciones repetidas, entonces el estadıstico

H =

(12

n(n+ 1)

k∑

i=1

R2i

ni

)− 3(n+ 1) ∼ χ2

k−1

si ni > 5. Para valores pequenos de n es necesario consultar tablas especiales. Si existenobservaciones repetidas se promedian los rangos repetidos como en el test de Mann-Whitney y se le asigna ese promedio como rango a todas las observaciones repetidas. Eneste ultimo caso el estadıstico H se corrige dividiendo por

1 −empates∑

i=1

(t3i − ti

)/(n3 − n

)

donde ti es el numero de observaciones que empatan en un rango dado.

4.4. Hipotesis de independencia

Cuando las observaciones son dependientes, las expresiones obtenidas para los distin-tos estimadores cambian radicalmente. Ası, por ejemplo, la propiedad que asegura quela varianza de la media muestral de n observaciones N(µ,σ) independientes es σ2/n escompletamente falsa. De hecho, en funcion de como sea esa dependencia esta varianzapuede ser mucho mas grande o mucho mas pequena. Es por esto que la hipotesis de inde-pendencia se convierte entonces en una de las hipotesis mas importantes a contrastar yaque de ella suele depender la fiabilidad de las estimaciones posteriores. En general, estahipotesis debe contrastarse cuando los datos mediante su procedimiento de muestreoprocedan de una secuencia temporal o espacial.

Lo primero que se debe hacer con un conjunto de valores es dibujarlo respecto a suorden.

En las figuras siguientes se muestran dos ejemplos de dos sucesiones de valores noindependientes; la primera presenta una clara tendencia decreciente, la segunda muestraoscilaciones respecto a un valor fijo y cada dato tiene diferente signo que el anterior. Enuna secuencia independiente no debemos ver patrones reconocibles respecto al orden,mostrando el dibujo de la secuencia un comportamiento erratico.

Page 113: Theory (1.75 MB)

4.4 Hipotesis de independencia 103

0 2 4 6 8

2.5

3.0

3.5

4.0

4.5

5.0

5.5

0 2 4 6 8

−1.

5−

1.0

−0.

50.

00.

51.

01.

5

4.4.1. Contraste de rachas

Definamos racha como una secuencia de valores que cumplen una condicion logica.Por ejemplo, que esten por encima o por debajo de un valor o que formen una secuenciamonotona (creciente o decreciente). Vamos a examinar distintos tipos de rachas paracontrastar la independencia.

Sea una sucesion de observaciones X=(x1, ..., xn) para la cual construimos la sigu-iente sucesion zi:

zi =

1 si xi < xi+1,0 si xi > xi+1.

Esta nueva sucesion mantiene la informacion de si estamos en una racha creciente (1)o decreciente (0). Ademas para contar el numero de rachas en la sucesion solo debemoscontar cuantas veces se cambia de valor y sumarle 1. En el ejemplo de las sucesionesdibujadas anteriormente, la primera imagen corresponde al caso extremo donde soloexiste una racha y la segunda a cuando en cada dato se cambia la racha. Por tanto, unnumero corto o excesivo de rachas significa dependencia.

Asintoticamente, el numero de rachas de una sucesion bajo independencia sigue ladistribucion:

no rachas ∼ N

(2n− 1

3,

√16n− 29

90

).

Tambien se puede establecer el numero esperado de rachas de longitud k crecienteso decrecientes por la siguiente expresion:

E (RUk +RDk) =2(k2 + 3k + 1

)n−

(k3 + 3k2 − k − 4

)

(k − 3)!, k ≤ n− 2,

Page 114: Theory (1.75 MB)

104 4. Inferencia no parametrica

E (RUn−1 +RDn−1) =2

n!.

Aunque estas expresiones solo sirven para realizar un ajuste visual (especialmenteutil cuando el test rechaza la hipotesis de independencia).

Otro tipo de rachas que podemos controlar es por encima o debajo de la mediana.Es decir, definimos la siguiente secuencia:

si =

1 si xi < mediana,0 si xi > mediana.

De nuevo, el numero de rachas se cuenta como los cambios de valor de la secuenciasi +1. Bajo independencia el numero de rachas por encima o por debajo de la medianasigue la siguiente distribucion:

no rachas mediana ∼ N

(s+ 1,

√s(s− 1)

2s− 1

),

donde s es el numero de ceros que tiene la secuencia (igual al numero de 1’s). Tambiense puede calcular el valor esperado de tener una racha de longitud k que tendrıa lasiguiente expresion: E (Rk) = (n− k + 3)× 2−(k+1). De nuevo, esta ultima propiedad esutil cuando se rechaza la hipotesis de que la secuencia es independiente.

4.4.2. Contraste de autocorrelacion

Partiendo de una muestra (x1, ..., xn) se define el coeficiente de autocorrelacion linealde orden uno r(1) por:

r(1) =

∑ni=2 (xi − x) (xi−1 − x)∑n

i=1 (xi − x)2.

Este coeficiente viene a ser aproximadamente el coeficiente de correlacion lineal delas variables (x2, ..., xn) y (x1, ..., xn−1) y mide la correlacion lineal entre las observa-ciones y sus observaciones precedentes. Analogamente podemos definir el coeficiente deautocorrelacion lineal de orden k por:

r(k) =

∑ni=k+1 (xi − x) (xi−k − x)∑n

i=1 (xi − x)2.

Su interpretacion es tambien analoga a la del coeficiente de orden uno.Se denomina correlograma a la representacion de estos coeficientes de autocorrelacion

lineal en funcion de k (normalmente llamado retardo). Cuando las observaciones son in-dependientes y proceden de una distribucion normal, los coeficientes de autocorrelacionmuestrales siguen aproximadamente una distribucion normal con media cero y varianza1/n. Por lo tanto, podemos considerar significativamente distintos de cero aquellos co-eficientes que no esten en el intervalo (−1, 96/

√n, 1, 96/

√n). Si n es grande (n > 50),

podemos realizar un contraste conjunto de los primeros coeficientes de autocorrelacion.

Page 115: Theory (1.75 MB)

4.5 Hipotesis sobre la homogeneidad 105

Si H0 es la hipotesis de independencia, entonces cada r(k) se distribuye aproximadamentesegun N(0, 1/

√n) y, por lo tanto,

Q =

m∑

k=1

(r(k)

1/√n

)2

= n

m∑

k=1

(r(k))2,

sigue, aproximadamente, una distribucion χ2 con m−1 grados de libertad (notese quehay que estimar un parametro: la media). Este contraste ha sido mejorado por Ljung yBox que han demostrado que una aproximacion mas exacta es considerar el estadıstico

Q = n(n+ 2)m∑

k=1

(r(k))2

n− k

que, como el anterior, si H0 es cierta, se distribuye aproximadamente como una χ2 conm−1 grados de libertad.

4.4.3. Test de Durbin-Watson

El test se basa en calcular el estadıstico

R =

n−1∑

i=1

(xi+1 − xi)2

/2

n∑

i=1

(xi − x)2

que cuando la correlacion es positiva toma valores cercanos a cero y cuando la correlaciones negativa toma valores cercanos a 2. Este estadıstico esta indicado para detectar au-tocorrelacion de primer orden en el conjunto de datos. Si la muestra es normal y n > 20entonces

R− 1√1

n+1

(1 − 1

n−1

) ∼ N(0, 1),

lo que nos sirve para realizar el contraste.

4.5. Hipotesis sobre la homogeneidad

Diremos que una muestra es heterogenea cuando sus observaciones no provienenpor el mismo modelo de distribucion de probabilidad. Los contrastes de posicion vistosanteriormente se puede considerar de homogeneidad dado que se esta contrastando sila posicion de las muestras es la misma o lo que es lo mismo si prescindiendo de ladivision entre grupos los datos pueden conformar una sola poblacion homogenea. Laheterogeneidad puede venir dada por muchos y diversos motivos. Por ejemplo, puede serque la poblacion sea heterogenea respecto a una posible agrupacion de los datos o a unaclasificacion de variables cualitativas o que lo sea por la introduccion de errores en elproceso de muestreo. En el segundo caso trataremos la homogeneidad en el sentido deausencia de datos atıpicos.

Page 116: Theory (1.75 MB)

106 4. Inferencia no parametrica

4.5.1. Test de homogeneidad en tablas de contingencia

Otro tipo de independencia es la que se puede obtener a partir de variables discretas.Diremos que dos variables cualitativas (o variables agrupadas) son independientes si latabla de contingencia de las frecuencias observadas no presenta pautas de asociacion entrealguna de las clases de estos atributos. En definitiva, se van a comparar las frecuenciasobservadas de la tabla de contingencia con las frecuencias esperadas bajo la hipotesis deindependencia entre atributos. Sean entonces A1,. . . ,Ak las distintas clases de la primeravariable y sean B1,. . . ,Bl las distintas clases de la segunda variable que constituyan unaparticion del espacio Ω1 ×Ω2. Estudiando el numero de veces que se produce cada cruceentre la primera variable con la segunda (nij) tendremos una tabla de contingenciak× l. Bajo la hipotesis de independencia el numero esperado en cada celda es eij = n×ni· × n·j/n2 donde ni· y n·j representan las frecuencias absolutas marginales. Por tanto,podemos construir un test similar al construido para bondad de ajuste mediante elestadıstico:

X2 =

k∑

i=1

l∑

j=1

(nij − eij)2

eij,

que bajo la hipotesis de independencia tendra una distribucion χ2 con (k−1)×(l−1)grados de libertad. Valores grandes de este estadıstico favoreceran la hipotesis alternativamientras que valores bajos favoreceran la hipotesis nula.

4.5.2. Test de valores atıpicos

En la hipotesis de que los datos son normales, el test mas usual para testear lapresencia de datos atıpicos es el conocido como test de Grubb que se basa en calcular elestadıstico:

G = max

∣∣∣∣xi − x

s

∣∣∣∣

que se compara respecto a la tabla que se presenta a continuacion:

n 3 4 5 6 7 8 9 10

α = 0, 05 1,15 1,48 1,78 1,89 2,02 2,13 2,21 2,29

n 11 12 13 14 15 20 25 30

α = 0, 05 2,36 2,41 2,46 2,51 2,55 2,71 2,82 2,91

Si se obtiene un valor G mayor que el de la tabla se supone que existe un datoatıpico (al menos) y se procede eliminando de la muestra el dato que obtuvo el maximodel estadıstico y siguiendo el proceso iterativamente. Usualmente este estadıstico es utilpara muestras pequenas. Para muestras mas grandes se suele utilizar el test de curtosisvisto anteriormente que es capaz de descubrir la presencia simultanea de valores atıpicos.Cuando se observa la presencia de datos atıpicos el coeficiente de apuntamiento tiende a

Page 117: Theory (1.75 MB)

4.6 Ejercicio resuelto 107

hacerse significativamente mas grande. El coeficiente de curtosis es bajo el supuesto detener poblacion normal N(3,24/n) y por tanto para testear la presencia de datos atıpicosconviene realizar el test unilateral de que este coeficiente no es significativamente masgrande.

4.6. Ejercicio resuelto

Ejercicio: El ındice de masa corporal (IMC) se calcula dividiendo el peso en kg. entrela altura al cuadrado en metros. La siguiente tabla contiene las alturas, pesos e IMC de10 hombres:

Altura 172 170 170 168 175 169 171 169 167 174

Peso 63 75 68 70 74 72 67 69 70 84

IMC 21,30 25,95 23,53 24,80 24,16 25,21 22,91 24,16 25,10 27,74

Determinar:

a) Si la distribucion del ındice de masa corporal es normal con media 24 y varianza2,5.

b) ¿Existe algun dato atıpico en la muestra?

c) ¿Son los datos independientes?

Solucion:

a) Para resolver el primer apartado el unico test apropiado es el de Kolmogorov-Smirnov ya que el test χ2 de Pearson no se debe aplicar a menos de 25 datos ylos otros tests de normalidad no contrastan especıficamente los parametros de lanormal.

Para ello, lo primero que debemos hacer el ordenar los datos, escribir en unasegunda columna la funcion de distribucion empırica y en la tercera columna lafuncion de distribucion de cada dato supuesto que sigue una N(24,

√2,5). Para

calcular esta ultima columna se debe estandarizar la variable y mirar en la tablade la normal. El dato que esta repetido (24,16) ocupa una fila ajustando el valorde la funcion de distribucion empırica en el dato. A continuacion, se anade otracolumna con el valor del estadıstico Dn en cada punto, siendo

Dn (h) = max |Fn (xh−1) − F (xh)| , |Fn (xh) − F (xh)| .

El estadıstico de Kolmogorov-Smirnov sera finalmente el maximo de esta columna

Page 118: Theory (1.75 MB)

108 4. Inferencia no parametrica

que compararemos con el valor crıtico que aparece en las tablas.

Datos Fn (x) F0 (x) Dn (xh)

21,30 0,1 0,044 0,05622,91 0,2 0,245 0,14523,53 0,3 0,382 0,18224,16 0,5 0,540 0,24024,80 0,6 0,695 0,19525,10 0,7 0,758 0,15825,21 0,8 0,779 0,07925,95 0,9 0,891 0,09127,74 1,0 0,991 0,091

El maximo de la columna es 0,240 que comparado con el valor crıtico de las tablas0,410 concluye que se puede aceptar que los datos son normales con la media yvarianza dada.

b) Para resolver el segundo apartado podemos aplicar el test de Grubb

G = max

∣∣∣∣xi − x

s

∣∣∣∣ ,

que siempre obtiene su maximo en uno de los extremos de la muestra. Para aplicarel test necesitamos los datos de la media y la cuasidesviacion tıpica que son respec-tivamente, 24,486 y 1,75. El test de Grubb en los extremos de la muestra resultaser 1,92 y 1,96 que comparado con el valor crıtico en las tablas (˜2,29) nos concluyeque no hay datos atıpicos en la muestra.

c) Para resolver el ultimo apartado, el test mas sencillo para calcular es el test delas rachas respecto a la mediana. Para ello simplemente tenemos que calcular lamediana para estos datos, que como son pares, debe ser la media de los dos centralesordenados (mediana=(24,16+24,80)/2=24,48) y colocar un signo mas o menos enla serie original en funcion de estar por encima o por debajo de la mediana. Calcularel numero de rachas resulta simplemente contar en esa secuencia las veces que seproduce cambio de signo+1. Esta secuencia se ve en la siguiente tabla y contandotenemos 8 rachas:

IMC 21,3 25,95 23,53 24,8 24,16 25,21 22,91 24,16 25,1 27,74

Signo − + − + − + − − + +

Debemos comparar ahora este valor con el valor crıtico que aparece en las tablas.Ahora calcularıamos el intervalo de confianza para el numero de rachas y concluri-amos que intervalo de confianza estarıa entre 6 y 12, y puesto que 8 esta claramentedentro de ese intervalo aceptamos la hipotesis de independencia.

Page 119: Theory (1.75 MB)

Capıtulo 5

Modelos de regresion

5.1. Introduccion

El termino regresion procede de los estudios de Galton en biologıa a finales del sigloXIX. Galton estudio la dependencia de la estatura de los hijos (y) respecto a la de suspadres (x), encontrando lo que denomino una “regresion” a la media: los padres altostienen en general hijos altos pero en promedio no tan altos como sus padres y los bajostienen hijos bajos pero en promedio mas altos que sus padres. El termino en ingles queempleo, “regress”, sirve desde entonces para nombrar todos aquellos modelos estadısticosque explican la dependencia de una variable (y) respecto a otra/s (x). El planteamientode estos modelos se basa en calcular la esperanza condicionada de la variable y conrespecto a la variable x, ya que esta esperanza condicionada (media condicionada) esla mejor prediccion que podemos dar de la variable y conociendo la x. Si x no tieneinformacion relevante de y, la esperanza condicionada de y respecto a x sera simplementela media de y.

El problema de regresion se concretara en obtener las relaciones entre las variables Xe Y a partir de n pares de observaciones (x1,y1),..., (xn,yn). Como conjunto de ejemplovamos a utilizar el conjunto cars disponible en el paquete base de R (data(cars)) quetiene dos variables speed y dist que son respectivamente velocidad del coche y distanciade frenado para pruebas hechas con varios modelos de coches.

5 10 15 20 25

020

4060

8010

012

0

speed

dist

La primera herramienta que utilizaremospara investigar la posible relacion entre lasvariables sera la conocida como nube de pun-tos que no es mas que representar en un ejecartesiano estos pares de puntos. La nubede puntos de las variables indicadas apareceen la figura adjunta. De la observacion dela nube de puntos podemos obtener la con-clusion de que la velocidad tiene una ciertarelacion lineal con la distancia de frenado.Segun crece la velocidad, crece la distancia

Page 120: Theory (1.75 MB)

110 5. Modelos de regresion

y de hecho si dibujamos una recta casi diagonal (entre (0,0) y (25,100)) de esquina inferi-or izquierda a la esquina superior derecha, esta podrıa ser el mejor ajuste que podrıamoshacer de esta nube de puntos. Esta es precisamente la idea central de los modelos deregresion: encontrar una funcion f tal que, al representar y = f(x), el ajuste con respectoa la nube de puntos sea bueno.

5.2. Planteamiento e hipotesis basicas

El planteamiento que se debe seguir para estimar un modelo de regresion puede verseen la siguiente figura.

Este proceso de decision deja claro que el modelo de regresion va a ser funciontanto de las hipotesis planteadas como de los datos que hemos medido. Esta dobledependencia hace que, por un lado, los estimadores sean variables aleatorias con unacierta distribucion (por las hipotesis de partida) y, por otro, demos su valor mas probablecomo estimacion numerica (usando los datos reales).

Hipotesis basicas Asumir nuevo modelo

Mejor estimacion

verificando hipotesis

a partir de los datos

NO

¿modeloadecuado?

SIDatos realesUsar el modelo para

inferir y predecir

FIN

5.2.1. Hipotesis basicas iniciales

1. Existencia.Para cualquier valor de x, y es una variable aleatoria que tiene media y varianzafinita, es decir, la variable y|x tiene momentos de orden 2 finitos. Esta propiedadnos asegura que lo que hacemos tiene sentido.

2. Independencia.Los valores de la variable y son estadısticamente independientes unos de otros.

Page 121: Theory (1.75 MB)

5.3 Estimacion 111

3. Forma lineal . El valor medio de la variable y|x es una funcion lineal de x. Es decirE(y|x) = β0 + β1x⇔ y = β0 + β1x+ ε donde ε es una variable aleatoria de media(condicionada a x) cero.

4. Homocedasticidad.La varianza de y|x es constante para todo x, es decir σ2

y|x = σ2.

5. Normalidad. ε ≈ N(0, σ).

Asumir las hipotesis anteriores simultaneamente nos lleva a que y ≈ N(β0 + β1x, σ).Una vez determinadas las hipotesis que vamos a utilizar, suponemos que vamos a

usar un conjunto de datos de tamano n, que denotaremos por xi, yii=1,...,n y queson homogeneos respecto al estudio que se quiere realizar. Siguiendo el esquema antesplanteado debemos unir las hipotesis con los datos para obtener la “mejor estimacion”.Esta vendra determinada por la medida de discrepancia entre el modelo teorico y losdatos. La medida de discrepancia mas clasica y utilizada es la que viene dada por∑e2i =

∑(yi − β0 − β1xi)

2 (mınimos cuadrados) y por tanto los mejores parametrosseran aquellos que hagan mınima esta cantidad.

5 10 15 20 25

020

4060

8010

012

0

speed

dist

En la figura adjunta se tiene el mis-mo ejemplo visto anteriormente donde se hadibujado la mejor recta y los errores cometi-dos (las lıneas verticales que van desde ca-da punto a la recta de regresion). Para estecaso la mejor estimacion es β0 = −17,58 yβ1 = 3,93. Por supuesto, elegir otra medi-da de discrepancia nos llevarıa a otros esti-madores de los parametros y a otra recta deregresion. A estos estimadores se les conocecomo estimadores mınimo-cuadraticos.

5.3. Estimacion

El procedimiento a seguir para calcular los estimadores mınimo-cuadraticos es, portanto, encontrar aquellos que minimicen

∑e2i =

∑(yi − β0 − β1xi)

2. Para minimizarrespecto a los parametros derivaremos respecto a ellos e igualamos a cero. Entonces nosqueda:

∂∑e2i

∂β0= −2

∑(yi − β0 − β1xi);

∂∑e2i

∂β1= −2

∑(yi − β0 − β1xi)xi.

De aquı se deduce que los estimadores deben cumplir las dos siguientes propiedades:∑(

yi − β0 − β1xi

)= 0;

∑(yi − β0 − β1xi

)xi = 0.

De la primera se deduce que y = β0 + β1x lo que significa que la recta de regresionsiempre pasara por el punto (x, y).

Page 122: Theory (1.75 MB)

112 5. Modelos de regresion

Sustituyendo esta primera expresion en la segunda nos queda:

∑(yi − y + β1x− β1xi

)xi = 0

⇒∑(

yi − y + β1x− β1xi

)(xi − x+ x) = 0

Realizando los calculos, obtenemos

∑(yi − y) (xi − x) + x

∑(yi − y)

︸ ︷︷ ︸=0

=∑(

β1 (xi − x))

(xi − x) + x∑(

β1 (xi − x))

︸ ︷︷ ︸=0

,

donde tenemos terminos iguales a cero por las propiedades de la media muestral. Sidividimos ahora las dos expresiones por n nos queda:

1

n

∑(yi − y) (xi − x) = β1

1

n

∑(xi − x) (xi − x) ⇒ Sxy = β1S

2x ⇒ β1 = Sxy

/S2

x,

con lo que tenemos el estimador del parametro pendiente. Para obtener el parametroordenada en el origen basta con sustituir en la primera expresion y resulta:

β0 = y − β1x = y − Sxyx/S2

x.

Ademas, dado que estamos minimizando las distancias verticales de los puntos muestralesa la recta vemos que, en general, las rectas de regresion de y|x y de x|y no seran iguales.Se puede tener la tentacion de razonar de la siguiente forma: “puesto que tengo la rectaregresion y|x despejo x y tengo la recta de regresion x|y”. Esta afirmacion es falsa yaque estamos minimizando distancias verticales y, por tanto, los mejores estimadores sonaquellos que hacen menor esta distancia. La recta de regresion x|y minimizarıa distanciashorizontales viendo de igual manera el grafico que hemos visto. Si lo comprobamoshaciendo calculos (solo para el parametro pendiente) y despejamos en funcion de x larecta de regresion obtenida, tendrıamos que el parametro pendiente ası despejado serıa:

βx|y1 =

1

βy|x1

=S2

x

Sxy

y por otro lado, si hacemos la regresion como debe ser, tenemos que

βx|y1 =

Sxy

S2y

.

Igualando las dos expresiones tenemos que S2x

Sxy6= Sxy

S2y

, salvo en el caso en que la relacion

entre x e y sea perfecta, en cuyo caso S2xy = S2

xS2y y el coeficiente de correlacion es

exactamente igual a 1 o −1.

Page 123: Theory (1.75 MB)

5.3 Estimacion 113

5.3.1. Propiedades de los estimadores

El estimador de la pendiente de la recta puede escribirse de la siguiente forma:

β1 =Sxy

S2x

=

n∑i=1

(xi − x)(yi − y)

nS2x

=

n∑

i=1

(xi − x)

nS2x

(yi − y) =

n∑

i=1

wxi (yi − y),

donde se ve claramente que tiene la forma de una suma de valores que solo dependende wx

i (yi − y). De esta manera sabemos que si hemos supuesto que la variable y esnormal (Hip. 5) entonces el estimador de la pendiente tambien sera normal porquees combinacion lineal de normales independientes. Por ello bastara simplemente condeterminar su media y varianza.

E(β1

)= E

(n∑

i=1

wxi (yi − y)

)=

n∑

i=1

wxi E ((yi − y))

hip,3=

n∑

i=1

(xi − x)

nS2x

β1 (xi − x) = β1

y por tanto este estimador es insesgado. Analogamente si calculamos su varianza ten-emos:

Var(β1

)= Var

(n∑

i=1

wxi (yi − y)

)hip,2=

n∑

i=1

(wxi )2 Var ((yi − y))

hip,4=

n∑

i=1

(xi − x)2

n2S4x

σ2 =σ2

nS2x

.

Por tanto, de esta varianza podemos deducir que: i) sera mas pequena cuantos masdatos tengamos, ii) disminuira con la varianza muestral de x y iii) aumentara propor-cionalmente a la varianza original de los datos.

Haciendo lo mismo para el parametro ordenada en el origen tenemos:

β0 = y − Sxy

S2x

x =

∑yi

n− x

n∑

i=1

wxi yi + x

n∑

i=1

wxi y

︸ ︷︷ ︸=0

=n∑

i=1

(1

n− xwx

i

)yi =

n∑

i=1

rxi yi,

que tambien es normal por ser combinacion lineal de normales independientes. Procedi-endo como en el caso anterior se calcula media y varianza y tenemos:

E(β0

)= E

(n∑

i=1

rxi yi

)=

n∑

i=1

rxi E (yi)

hip,3=

n∑

i=1

(1

n− x

(xi − x)

nS2x

)(β0 + β1xi)

= β0

∑ 1

n− β0x

nS2x

∑(xi − x)

︸ ︷︷ ︸=0

+β1

∑ xi

n− β1x

nS2x

∑(xi − x)xi

︸ ︷︷ ︸=nS2

x

= β0 + β1x− β1x = β0,

Page 124: Theory (1.75 MB)

114 5. Modelos de regresion

Var(β0

)= Var

(n∑

i=1

rxi yi

)hip,2=

n∑

i=1

(rxi )2 Var (yi)

hip,4=

n∑

i=1

(1

n− x (wx

i )

)2

σ2

= σ2∑(

1

n2+ x2 (wx

i )2 − 2x (wxi )

n

)= σ2

(1

n+

x2

nS2x

).

En este caso, la varianza β0 es mas peculiar ya que siempre es mas grande que σ2/n(el segundo sumando siempre es positivo) y solamente puede tomar este valor inferiorcuando x = 0. Fijemonos que si la media de x es cero entonces el estimador ordenadaen el origen esta estimando la media de y, y es bien conocida la propiedad de que lavarianza de la media de n datos es σ2/n.

Tambien cabe preguntarse cual serıa la covarianza entre estos dos estimadores:

Cov(β0, β1

)= Cov

(n∑

i=1

rxi yi,

n∑

i=1

wxi yi

)hip,2=

n∑

i=1

rxi w

xi Var (yi)

hip,4=

n∑

i=1

(1

n− xwx

i

)wx

i σ2

= σ2∑

((xi − x)

n2S2x

− x(xi − x)2

n2S4x

)= − xσ

2

nS2x

.

De la expresion de la covarianza se deduce que los estimadores solamente seranindependientes cuando tengamos que x = 0. En este caso β0 = y que por supuesto nodepende de la pendiente de la recta.

Una vez determinadas medias y varianzas de los estimadores y usando las hipotesis2, 3, 4 y 5, podemos concluir que:

β0 ≈ N

(β0, σ

√(1

n+

x2

nS2x

))y β1 ≈ N

(β1,

σ√nSx

),

lo que nos permitira hacer inferencias sobre los parametros.

En cualquiera de los dos casos tenemos una relacion que involucra al estimadordel parametro con una distribucion conocida en funcion de los parametros teoricos delmodelo. Para construir un intervalo de confianza al (1 − α) % se utilizan las relacionessiguientes:

βi ≈ N (βi, σ (βi)) ⇒ βi − βi ≈ N (0, σ (βi)) ⇒βi − βi

σ (βi)≈ N (0, 1) .

La varianza del estimador depende directamente de la varianza del error que, en general,sera desconocida y por tanto necesitaremos estimarla. El estimador natural de la varianzadel error podrıa ser simplemente la varianza muestral del error, es decir, σ2 = 1

n

∑ni=1 e

2i .

Sin embargo, si calculamos la esperanza de este estimador tenemos:

Page 125: Theory (1.75 MB)

5.3 Estimacion 115

E(σ2)

= E

(1

n

n∑

i=1

e2i

)= E

(σ2

n

n∑

i=1

e2iσ2

)=σ2

nE

(n∑

i=1

e2iσ2

)

=σ2

nE(χ2

n−2

)=σ2

n(n− 2) ,

donde el sumatorio que es de normales(0,1) (hip.5) e independientes (hip.2) es una χ2

con tantos grados de libertad como sumandos independientes. Como se han consumido2 grados de libertad correspondientes a los parametros β, (las dos restricciones paraminimizar la suma de cuadrados) la χ2 tiene n−2 grados de libertad. Ası tenemos que laesperanza de ese estimador NO es el parametro teorico. Realmente lo unico que debemoshacer para subsanar este inconveniente es ajustar los grados de libertad del estimador ypor eso se suele considerar como mejor estimador de la varianza del error a

S2R =

1

n− 2

n∑

i=1

e2i ,

cuya unica diferencia es que ahora se divide por los grados de libertad adecuados. Ası cal-

culando ahora la esperanza de este estimador se tiene que: E(S2

R

)= σ2 y ademas

(n− 2) S2R

σ2≈ χ2

n−2.

Esta ultima propiedad que nos servira para hacer inferencias sobre la varianza del error.Las propiedades mas importantes de los estimadores insesgados que hemos visto se

resumen en la siguiente tabla:

Parametro Estimador Varianza Distribucion

β0 β0 = y − Sxy

S2xx (3) σ2

(1n + x2

nS2x

)(2), (4) Normal (5)

β1 β1 =Sxy

S2x

(3) σ2

nS2x

(2), (4) Normal (5)

σ2 S2R = 1

n−2

n∑i=1

e2i (2), (3), (4) 2n−2σ

2 χ2n−2

Si aplicamos estas propiedades al ejemplo que hemos visto tenemos:

Estimador D.T. t Sig. Lım. inferior 95 % Lım. superior 95 %

β0 −17,5791 6,7584 −2,601 ,0123 −31,168 −3,990

β1 3,9324 0,4155 9,464 ,000 3,105 4,759

La columna t refleja el estadıstico pivote de suponer que el parametro es cero y lacolumna de Sig. la probabilidad de que bajo la hipotesis nula se produzca un valor mas

Page 126: Theory (1.75 MB)

116 5. Modelos de regresion

alto que el estadıstico pivote (significacion). Va a ser equivalente que dicha significacionsea inferior a 0,05 y que el correspondiente intervalo de confianza al 95 % no incluyaal cero. De la tabla podemos deducir que ninguno de los parametros (a la vista de losdatos) puede ser igual a cero. Particularmente es importante el correspondiente a β1

porque este parametro refleja la importancia que la variable x tiene sobre la prediccionde y.

5.4. Contrastes de regresion y de las hipotesis

En este apartado analizaremos herramientas especıficas para el analisis del modelo deregresion. Suponemos ahora que hemos estimado un modelo de regresion y trataremosde comprobar si este modelo que hemos estimado es consistente con las hipotesis que noshemos planteado. El primer objetivo sera verificar si el modelo propuesto no es trivial,es decir, si la variable x aporta informacion relevante sobre y. La forma de hacerlo es atraves del procedimiento conocido como analisis de la varianza, viendo la descomposicionde la variabilidad total, es decir:

VT =n∑

i=1(yi − y)2 =

n∑i=1

(yi − yi + yi − y)2 =n∑

i=1(yi − yi)

2 +n∑

i=1(yi − y)2+

+n∑

i=1(yi − yi) (yi − y) = VNE + VE +

n∑i=1

ei (yi − y) = VNE + VE

Vemos que la variabilidad total se puede descomponer en dos sumandos positivos(son funciones al cuadrado): por un lado tenemos la variabilidad explicada (VE), quedepende de la diferencia que resulta de explicar y con la informacion de x a no tenerdicha informacion y por otro lado tenemos la variabilidad residual (VR) que representalo que x no puede explicar de y. Cuanto mas grande es uno, mas pequeno debe serotro. Esto significa que cuanto mas explica x, de y menos queda por explicar. Ası, lavariabilidad total funciona como una gran tarta que se puede repartir en funcion de lainformacion que se tenga de la variable a traves de sus explicaciones. Si dividimos todala expresion anterior por VT tenemos 1 = VR/V T +VE/VT que, llamando coeficiente de

determinacion a r2 = VE/VT, equivale a 1−r2 = VR/VT. El coeficiente de determinaciontiene una interpretacion sencilla ya que es la proporcion de variabilidad total explicaday es un numero entre 0 y 1. Ademas, en este caso es el cuadrado del conocido coeficientede correlacion r = Sxy/SxSy

. En efecto,

r2 =n∑

i=1

(yi − y)2/n∑

i=1

(yi − y)2 =1

n

n∑

i=1

β12(xi − x)2/

1

n

n∑

i=1

(yi − y)2

= β12S2

x/S2y = S2

x,y/S2xS

2y .

De la descomposicion obtenida se puede calcular un contraste de regresion de la maneraque sigue: por un lado tenemos que VR = (n− 2)S2

R es, por construccion, como hemos

Page 127: Theory (1.75 MB)

5.4 Contrastes de regresion y de las hipotesis 117

visto antes, una χ2 con (n − 2) grados de libertad. Sin embargo, el sumando VE solosera una χ2 con 1 grado de libertad si el modelo no explica, es decir, si la mejor estimacionque podemos hacer de yi es la media de y. Por tanto,

VE/1

VR/n− 2=

VE

S2R

seguira una distribucion F con 1 y n− 2 grados de libertad solamente cuando el numer-ador sea una χ2 con 1 grado de libertad. Ademas, cuando nos alejemos de esta hipotesisy por tanto la variable x explique apreciablemente a la y, la cantidad VE tendera a sermas grande de lo que debiera (y VR mas pequena de lo que debiera) y forzara a esteultimo termino a tomar valores grandes.

Por el contrario valores pequenos de VE favorecen la hipotesis de que la regresionplanteada es inutil ya que la parte explicada no es suficiente.

Con todo esto en mente, para decidir si un modelo de regresion es o no util se plantealo siguiente: valores altos de ese cociente favorecen a la hipotesis alternativa (la regresionexplica), valores bajos favorecen a la hipotesis nula (la regresion es inutil). Como siempretomando el nivel de confianza del (1−α) % (normalmente el 95 %) determinaremos aquelpunto a partir del cual rechazaremos la hipotesis nula como el cuantil (1 − α) % de ladistribucion de la F .

0 1 2 3 4 5 6

0.0

0.5

1.0

1.5

2.0

F−test

F(1

,48)

El punto para un caso de una F con 1y 48 grados de libertad y confianza del 95 %(se corresponde con el ejemplo que venimostratando) es 4,04.

Para este caso VE/S2

R = 89,57 que al ser

mucho mayor que 4.04 rechaza claramente lahipotesis nula de que la variable regresora notiene informacion de la variable dependiente.Lo habitual es escribir este contraste en for-ma de tabla ANOVA siguiendo las directri-ces habituales en el diseno de experimentos.La tabla ANOVA de regresion quedarıa en-tonces conformada de la siguiente manera:

Fuente de variacion Suma de cuadrados g.l. Varianzas Cociente Crıtico

Variacion explicada VE =n∑

i=1

(yi − y)2

1 S2

e = VE/1 VE/S2

R F1,n−2

Variacion no explicada VNE =n∑

i=1

(yi − yi)2

n−2 S2

R = VNE/n− 2

Variacion total VT = VNE + VE n−1 S2

Y = VT/n− 1

El trabajo que queda por delante es la comprobacion de las hipotesis del modelo deregresion mediante el analisis de los residuos de la regresion. Si las hipotesis planteadasson ciertas la distribucion de los residuos es normal de media cero y varianza S2

R. Esta

Page 128: Theory (1.75 MB)

118 5. Modelos de regresion

varianza debe ser constante y no depender de x ni de ninguna otra causa asignable.Ademas deben ser homogeneos en el sentido de que no se deben apreciar datos atıpi-cos y deben ser independientes. Tambien del estudio de los residuos podemos obtenerconclusiones acerca de la calidad del modelo lineal.

Para contrastar normalidad e independencia hemos visto tests en el capıtulo anteriorque se pueden aplicar ahora para contrastar estas hipotesis. La hipotesis de homocedas-ticidad se puede detectar con un grafico de los residuos frente a los valores previstos.

0 50 100 150 200 250

−0.

6−

0.4

−0.

20.

00.

20.

40.

6

Residuals vs Fitted

Fitted values lm(formula=y~x)

Res

idua

ls

En el grafico mostrado a la derecha seobserva claramente como a medida que au-menta el valor ajustado la nube de puntosse hace mas ancha evidenciando mayor vari-abilidad. Este serıa un caso claro de hetero-cedasticidad. Si la hipotesis de homocedasti-cidad es cierta el grafico deberıa mostrar unanube de puntos equidistante del centro (elcero) y de igual anchura en cualquier pun-to. Tambien en este grafico no deben encon-trarse pautas respecto a la lınea central. Siesto ocurriera tendrıamos evidencia de quenecesitamos un modelo mas complejo paraexplicar los datos.

Para contrastar la presencia de datos atıpicos, aunque se pueden utilizar los testvistos en el capıtulo anterior, en este apartado se mirara con mas cuidado los valoresatıpicos que resulten de la relacion existente entre x e y. Es decir, aparte de que losdatos sean atıpicos por ser de una u otra poblacion nos fijaremos especialmente enaquellos casos que resulten atıpicos por la relacion lineal establecida entre las variables.Hablaremos entonces de datos influyentes como aquellos que tienen excesiva importanciaen la regresion y que podrıan ser candidatos a ser datos atıpicos. Veamos como analizarlas observaciones influyentes. Dado que

yi = y + β1 (xi − x) =n∑

j=1

yj

n+

n∑

j=1

wxj yj (xi − x) =

n∑

j=1

hijyj

donde (hij) = H es la matriz cuyos elementos son

hij =1

n+

(xi − x) (xj − x)n∑

k=1

(xk − x)

y que medirıan la influencia que ejerce la observacion j-esima en la prediccion de la i-esima. En particular, los elementos de la diagonal de esta matriz hii cumplen la propiedadde que son positivos y su suma es 2. Por tanto, la influencia media de cada observaciondeberıa ser 2/n. Estos elementos de la diagonal serıan la influencia de cada dato enla prediccion de si mismo considerandose en la practica que un valor es influyente si

Page 129: Theory (1.75 MB)

5.5 Prediccion 119

hii > 4/n. Tambien para detectar datos atıpicos se puede analizar distintas funcionesrelacionadas con los residuos o con distancias relevantes como por ejemplo:

Residuos: ei = yi − yi = (1 − hii)yi −∑j 6=i

hijyj ∼N(0,SR).

Residuos estandarizados: zi = ei

SR

√1−hii

∼N(0,1).

Residuos estudentizados: ti = ei

S(i)R

√1−hii

∼ tn−3.

Residuos eliminados: e(i)i = yi − y

(i)i .

Residuos eliminados estudentizados: t(i)i =

e(i)i

S(i)R

.

Estadıstico D de Cook: Di =

n∑j=1

(yj−y

(i)j

)2

2S2R

.

Distancia de Mahalanobis: Mi = (xi−x)2

S2x

.

5.5. Prediccion

Hablaremos de dos tipos de prediccion: estimar las medias de las distribuciones dey condicionadas para cada valor de la variable x y prever futuros valores de la variablerespuesta o dependiente. Ambas predicciones se obtienen sustituyendo en la recta elvalor de x y calculando el valor previsto. Sin embargo, veremos que la precision de lasdos estimaciones es diferente.

5.5.1. Prediccion de la media condicionada a x

Estamos prediciendo la media condicionada (mh) a un valor de la variable x = xh.Como ya hemos mencionado el mejor estimador de la media es yh = y + β1(xh − x) quecumple:

E(yh) = E(y + β1(xh − x)

)= mh.

Var(yh) = Var(y + β1(xh − x)

)= σ2

n + σ2(xh−x)2

nS2x

= σ2

n

(1 + (xh−x)2

S2x

)= σ2

nh, donde

nh =n

1 + (xh−x)2

S2x

.

Al valor nh se le llama numero equivalente de observaciones. Por tanto y procediendocomo en apartados anteriores

yh −mh

SR

/√nh

∼ tn−2,

Page 130: Theory (1.75 MB)

120 5. Modelos de regresion

lo que nos servira para hacer intervalos de confianza para la media. Dado que nh decrececon la distancia respecto a la media de la variable x el intervalo de confianza crecera amedida que nos alejamos de la media.

5.5.2. Prediccion de una nueva observacion condicionada a x

Como ya hemos mencionado, la prediccion de una nueva observacion se realiza tam-bien a traves del estimador yh = y + β1(xh − x). La motivacion es que, como en el casode la media condicionada, a falta de otra informacion la media es la mejor prediccionpara una poblacion. Sin embargo, lo que resulta diferente es la precision respecto a unanueva observacion. En caso de predecir una nueva observacion la varianza viene dadapor:

E((yh − yh)2

)= E

((yh −mh +mh − yh)2

)= E

((yh −mh)2

)+ E

((yh −mh)2

)

+ 2E ((yh −mh)(yh −mh))=0 = Var(yh) + Var(yh) = σ2

[1 +

1

nh

].

Procediendo como en el apartado anterior, el intervalo de confianza para la prediccionde una nueva observacion vendra dado por

yh − yh

SR

/√1 + 1

nh

∼ tn−2.

En la siguiente figura se muestra para el ejemplo descrito los correspondientes inter-valos de confianza para la media y para la prediccion.

5 10 15 20 25

020

4060

8010

012

0

speed

dist

RectaI.C. MediaI.C. Pred

Page 131: Theory (1.75 MB)

5.6 Ejercicio resuelto 121

5.6. Ejercicio resuelto

Ejercicio: La siguiente tabla contiene las alturas y pesos de 10 hombres:

Altura 172 170 170 168 175 169 171 169 167 174

Peso 63 75 68 70 74 72 67 69 70 84

Se pide:

a) Dar la mejor prediccion del peso de un hombre si su altura es 170 cm.

b) ¿Que porcentaje de la variabilidad del peso es explicado por la altura?. ¿Influye laaltura en la informacion que tenemos del peso?

c) Contrastar si el parametro pendiente de la recta es 1.

d) Determinar el intervalo de confianza para una nueva observacion con altura iguala 170 cm.

Solucion:

a) Denotaremos por a la variable Altura y por p la variable Peso. Para resolver elprimer apartado, necesitamos los datos basicos relevantes que son n = 10, a =170,5, p = 71,2, s2a = 5,85, s2p = 28,96 y sap = 5,2. Resolviendo la recta deregresion tenemos:

β1 =sap

s2a=

5,2

5,85= 0,8888,

β0 = p− β1a = 71,2 − 0,8888 × 170,5 = −80,355.

Por lo tanto, la prediccion para un hombre de 170 cm. de altura es

yh = −80,355 + 0,8888 × 170 = 70,755.

b) Para resolver el segundo apartado, el porcentaje de variabilidad viene dado por elcoeficiente de determinacion:

r2 =s2ap

s2as2p

= 0,1596,

y por tanto el 15,96 % de la variabilidad del peso es explicado por la altura. Para

decidir si influye la altura en el peso debemos usar el estadıstico F = s2ǫ

s2R, que bajo

la hipotesis de que la altura no influye en el peso sigue una distribucion F1,n−2. Portanto, debemos calcular ambos terminos del estadıstico. Para calcular el numeradorusaremos la siguiente formula:

V E = r2V T = r2ns2p = 0,1596 × 10 × 28,96 = 46,22.

Page 132: Theory (1.75 MB)

122 5. Modelos de regresion

El denominador de ese estadıstico es:

s2R =V NE

n− 2=

(1 − r2

)ns2p

n− 2=

0,8404 × 10 × 28,96

8= 30,42.

Por tanto, el valor del estadıstico F es:

F =s2ǫs2R

=46,22

30,42= 1,52,

que debemos comparar contra el valor crıtico de una F1,8 que es 5,31. Al ser masgrande permite aceptar la hipotesis de que la altura no tiene suficiente informacionsobre el peso para esta muestra.

c) Para resolver el tercer apartado, para contrastar si el parametro pendiente puedevaler 1 usamos el estadıstico:

β1 − β1

sR√nsa

∼ tn−2,

de donde despejando tenemos:

β1 ∈[β1 ± tn−2,α/2

sR√nsa

],

y si 1 pertenece a este intervalo de confianza entonces podremos aceptar la hipotesisde que el 1 puede ser el parametro de la recta. Para calcular este intervalo necesitoantes calcular:

sR =√

30,42 = 5,52,

y ası el intervalo es:

β1 ∈[0,8888 ± 2,31

5,52√10 · 2,4187

]= [0,8888 ± 1,6658] = [−0,777, 2,554] ,

que claramente incluye al 1 lo que supone la aceptacion de la hipotesis.

d) Para resolver el ultimo apartado, usaremos el estadıstico:

yh − yh

sR

√1 + 1

nh

∼ tn−2,

que despejando nos queda,

yh ∈[yh ± tn−2,α/2sR

√1 +

1

nh

],

Page 133: Theory (1.75 MB)

5.6 Ejercicio resuelto 123

donde,

nh =n

1 + (xh−a)2

s2a

=10

1 + (170−170,5)2

5,85

= 9,59,

y yh = −80,355 + 0,8888 × 170 = 70,755. Por lo tanto el intervalo para una nuevaobservacion con altura 170 cm es:

yh ∈[70,755 ± 2,31 × 5,516 ×

√1 +

1

9,59

]= [70,755 ± 13,39] = [57,36, 84,14] .

Page 134: Theory (1.75 MB)
Page 135: Theory (1.75 MB)
Page 136: Theory (1.75 MB)