100 Problemas de Estadistica Multivariante_

206

Transcript of 100 Problemas de Estadistica Multivariante_

  • 100 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    (IMPLEMENTADOS EN MATLAB)

  • cerca de las autoras

    Amparo Ballo Moreno es licenciada y doctora en Matemticas por la Univer-sidad Autnoma de Madrid, donde trabaja actualmente como investigadora postdoctoral del programa SIMUMAT financiado por la Comunidad de Madrid. Posee un mster en Finanzas Cuantitativas por la Escuela de Finanzas Aplica-das y ha trabajado en el rea de Riesgos del Grupo Santander. Cuenta con varias publicaciones cientficas en revistas internacionales de impacto y ha participado en distintos proyectos de I+D financiados en convocatorias pblicas nacionales. Desde 1998 ha impartido docencia en las universidades Autnoma de Madrid y Carlos III de Madrid. Aurea Gran Chvez es licenciada y doctora en Matemticas por la Universi-dad de Barcelona. Forma parte del Grupo de Anlisis Multivariante y Clasifica-cin, vinculado a la SEIO. Cuenta con varias publicaciones cientficas en revis-tas internacionales de impacto y ha participado en distintos proyectos de I+D financiados por la Generalitat de Catalunya y en convocatorias pblicas nacio-nales. En 1994 empez a impartir docencia en el Departamento de Estadstica de la Universidad de Barcelona y actualmente es profesora del Departamento de Estadstica de la Universidad Carlos III de Madrid, donde imparte la asignatura Estadstica Multivariante en la Diplomatura de Estadstica.

    A

  • 100 PROBLEMAS RESUELTOS DE ESTADSTICA

    MULTIVARIANTE (IMPLEMENTADOS EN MATLAB)

    AMPARO BAILLO MORENO Facultad de Ciencias

    UNIVERSIDAD AUTNOMA DE MADRID

    AUREA GRAN CHVEZ Facultad de Ciencias Jurdicas y Sociales UNIVERSIDAD CARLOS III DE MADRID

  • 100 EJERCICIOS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    (IMPLEMENTADOS EN MATLAB)

    AMPARO BAILLO MORENO AUREA GRAN CHVEZ

    Editor gerente Fernando M. Garca Tom Diseo de cubierta Mizar Publicidad, S.L. Preimpresin Delta Publicaciones Impresin Jacaryan Avda. Pedro Dez, 3. Madrid (Espaa)

    Copyright 2008 Delta, Publicaciones Universitarias. Primera edicin C/Luarca, 11 28230 Las Rozas (Madrid) Direccin Web: www.deltapublicaciones.com 2008 La autora

    Reservados todos los derechos. De acuerdo con la legislacin vigente podrn ser castigados con penas de multa y privacin de libertad quienes reprodujeren o plagiaren, en todo o en parte, una obra literaria, artstica o cientfica fijada en cualquier tipo de soporte sin la preceptiva autorizacin. Ninguna de las partes de esta publicacin, incluido el diseo de cubierta, puede ser reproducida, almacenada o transmitida de ninguna forma, ni por ningn medio, sea electrnico, qumico, mecnico, magneto-ptico, grabacin, fotocopia o cualquier otro, sin la previa autorizacin escrita por parte de la editorial.

    ISBN 84-96477-73-8 Depsito Legal (0907-60)

  • A Manolo y Pep

  • Presentacin

    El anlisis estadstico multivariante es una herramienta de investigacin y generacinde conocimiento extraordinariamente valiosa, tanto en las ciencias naturales como enlas ciencias sociales. Este libro es una valiosa aportacin a la literatura en espaol so-bre este tema. Muchos de los interesantes problemas que contiene ayudan a compren-der y apreciar el potencial de las tcnicas clsicas de anlisis multivariante, mientrasque otros guan al lector para profundizar en aspectos metodolgicos de inters de lastcnicas estudiadas. Un atractivo especial de este libro es la inclusin de numerosasrutinas de Matlab que permiten aplicar de forma fcil y flexible las tcnicas considera-das a distintos conjuntos de datos reales. Las autoras, Amparo Ballo y Aurea Gran,tienen gran experiencia en la enseanza de estas tcnicas y el libro muestra claramentesu gran experiencia en el anlisis de datos reales y en la presentacin de los resultadosdel anlisis.Recomiendo este libro a todos los interesados en las aplicaciones del anlisis multiva-riante y, muy especialmente, a las personas que deseen disponer de un lenguaje potentey flexible, como Matlab, que les permita escribir sus propias rutinas de programacin,liberndose del esquema rgido de los programas convencionales. Estoy seguro de queencontrarn este libro muy til para este objetivo.

    Daniel PeaCatedrtico de EstadsticaUniversidad Carlos III de Madrid

  • Introduccin

    El objetivo de este libro es ayudar a comprender todo un conjunto de tcnicas ex-ploratorias y estadsticas que permiten sintetizar, representar e interpretar los datosobtenidos de la observacin simultnea de varias variables estadsticas. As pues ellibro se centra en el anlisis estadstico de matrices de datos, con el fin de extraer deforma rpida la informacin ms relevante contenida en ellas. Los datos de tipo mul-tivariado aparecen actualmente en contextos muy diversos, como son el mundo de laEconoma y las Finanzas, las Ciencias Experimentales y la Ingeniera o tambin en lasCiencias Humanas y Sociales.Los temas que se tratan pueden clasificarse en tres apartados:

    Inferencia multivariante.

    Tcnicas de representacin y de reduccin de la dimensin.

    Tcnicas de clasificacin: anlisis de conglomerados y anlisis discriminante.

    Los problemas intentan recoger la diversidad de los campos de aplicacin menciona-dos anteriormente y, en este sentido, se ha procurado buscar conjuntos de datos quefueran interesantes para un pblico de procedencia muy diversa.Este libro es fruto de las experiencias docentes de las autoras en la Diplomatura enEstadstica y la Licenciatura en Administracin y Direccin de Empresas de la Uni-versidad Carlos III de Madrid y en la Diplomatura en Estadstica, la Licenciatura enMatemticas y la Licenciatura en Biologa de la Universidad de Barcelona. En gene-ral, este libro est dirigido a estudiantes y docentes de cualquier disciplina en la quesea necesario extraer informacin de un conjunto de datos multivariantes.Para un seguimiento adecuado del libro se requieren conocimientos bsicos de Clculode Probabilidades y de Inferencia Estadstica. Adems son deseables buenos conoci-mientos de lgebra lineal, ms all de la resolucin de sistemas de ecuaciones linealeso de un leve contacto con formas cuadrticas en el contexto del clculo de extremos deuna funcin real de varias variables. Es quiz demasiado suponer este conocimientoprevio y por ello se aade un tema adicional necesario para el desarrollo del libro.

  • X PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    Este libro consta de nueve captulos. Los tres primeros son introductorios y estn de-dicados, respectivamente, a una ampliacin de conceptos de lgebra lineal, a familiari-zarse con las matrices de datos y una introduccin a la inferencia normal multivariante.El resto de captulos estn dedicados al estudio de tcnicas multivariantes clsicas,como son: el anlisis de componentes principales, el escalado multidimensional, elanlisis de conglomerados, el anlisis factorial, el anlisis cannico de poblaciones yel anlisis discriminante.

    Soporte informticoEl volumen de clculo requerido para el anlisis de datos multivariantes hace impracti-cable su realizacin manual, no slo para los clculos con datos reales, sino incluso sise trata de ejemplos sencillos con datos simulados que ilustren y motiven los conceptostericos.Ya desde los aos 70, coincidiendo con la evolucin de los ordenadores y la apari-cin de los primeros paquetes comerciales de programas de Estadstica (SPSS, BMDP,SAS), algunos de los autores de libros dedicados al Anlisis Multivariante, conscien-tes de esta situacin, han incluido listados de programas para realizar los clculoscorrespondientes a las tcnicas expuestas.Por ello hemos credo conveniente disponer de un software que permita programar deforma muy sencilla las tcnicas que el usuario desea implementar. Esto es posible a tra-vs de programas comerciales como MATLAB1 y S-Plus, o bien sus clnicos gratuitoscomo OCTAVE y R, por citar algunos. Todos ellos tienen incorporadas estructuras yoperaciones matriciales, fundamentales en el Anlisis Multivariante, adems de innu-merables subrutinas para clculos ms especficos. Puede parecer que el uso de estosprogramas aade complicaciones a la comprensin de las tcnicas expuestas. Pero, enbase a la experiencia, hay que decir que ocurre justamente lo contrario: el lenguajede programacin que utilizan se asemeja considerablemente a la notacin matricial, loque contribuye a una mayor asimilacin y aprendizaje de las mismas.

    Amparo y Aurea

    1Matlab es una marca registrada de The MathWorks, Inc., http://www.mathworks.com

  • ContenidoCAPTULO 1lgebra matricial bsica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1CAPTULO 2Estadsticos descriptivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    CAPTULO 3Distribuciones multivariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    CAPTULO 4Anlisis de componentes principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    CAPTULO 5Distancias estadsticas y escalado multidimensional (MDS) . . . . . . . . . . 93CAPTULO 6Anlisis de conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

    CAPTULO 7Anlisis factorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

    CAPTULO 8Anlisis cannico de poblaciones (MANOVA) . . . . . . . . . . . . . . . . . . . . . . . 143CAPTULO 9Anlisis discriminante y clasificacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

    Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187

    ndice de funciones y cdigo Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

    ndice de conceptos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

  • CAPTULO1lgebra matricial bsica

    En este primer captulo se repasan algunos conceptos de lgebra matricial que sernextremadamente tiles para el tratamiento de datos multivariantes. Las matrices ayu-dan a plantear los mtodos de estadstica multivariante de manera concisa y facilitansu implementacin en programas de ordenador.Comenzaremos trabajando con normas de vectores, productos escalares y proyeccio-nes ortogonales. A continuacin recordaremos el clculo de matrices inversas, deter-minantes, autovalores y autovectores y otros conceptos bsicos del lgebra de matri-ces. El captulo concluye determinando el signo de algunas formas cuadrticas.

    PROBLEMA 1.1

    Sean u = (1, 2), v = (2, 3) y w = (3,5) tres vectores de R2. Evalense lassiguientes expresiones, donde a b denota el producto escalar entre los vectores a yb y a = a a denota la norma o longitud del vector a.

    (a) (u 2v) w(b) u + v + w

    (c) u+ v + w(d) (u v) (v w)

    SOLUCINPara introducir los vectores en Matlab escribimos

    u = [1 ; 2]; v = [-2 ; 3]; w = [3 ; -5];

    (a) (u 2v) w = (u 2v)w = 35. Para calcularlo en Matlab escribimos(u-2*v)*w

  • 2 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    (b) u + v + w = 2. Para calcular la norma de un vector u podremos utilizar la ordende Matlab norm(u). Tambin podemos escribir el cdigo nosotros mismos mediante unafuncin Matlab, que denominaremos, por ejemplo, norma. Para utilizar esta funcin dentrode Matlab, la guardaremos en un fichero con el mismo nombre y extensin .m, en este casonorma.m :

    function nu = norma(u)u = u(:) ;nu = sqrt(u*u) ;

    Para resolver este apartado, en la ventana de comandos de Matlab escribiremos:

    norma(u+v+w)

    Comprubese que se llega al mismo resultado utilizando la funcin interna de Matlab norm.(c) u+ v + w = 2.2361. En Matlab

    norm(u) + norm(v) + norm(w)

    (d) (u v) (v w) = (u v)(v w) = 23. Con Matlab se calculara as(u-v)*(v-w)

    PROBLEMA 1.2Dados dos vectores de Rp, u y a, encuntrese la proyeccin ortogonal del vector usobre el vector a, para:

    (a) u = (8, 3), a = (4,5),(b) u = (2, 1,4), a = (5, 3, 11) .

    SOLUCINLa proyeccin ortogonal de u sobre la direccin determinada por a viene dada por el vector(Figura 1.1):

    v =u aa2 a = (u c) c,

    donde c = a/a es el vector de longitud 1 en la direccin de a. Por tanto, u c es la longitudde la proyeccin v (esto lo utilizaremos en el Problema 2.9).El siguiente cdigo (que debe guardarse en el fichero ProyOrto.m) permite calcular la pro-yeccin ortogonal de un vector u sobre a:

    function v = ProyOrto(u,a)u = u(:); a = a(:);v = (u*a)*a /norm(a) ;

  • LGEBRA MATRICIAL BSICA 3

    u

    a

    u

    v

    Figura 1.1.El vector v es la proyeccin ortogonal de u sobre a.

    (a) Dentro de Matlab escribimos:u = [8,3]; a = [4,-5];v = ProyOrto(u)

    y obtenemos v = (1.6585,2.0732).(b) Anlogamente, haciendo:

    u = [2,1,-4]; a = [-5,3,11];v = ProyOrto(u,a)

    obtenemos v = (1.6452,0.9871,3.6194).

    PROBLEMA 1.3Calclense los valores de k que hacen que los siguientes vectores u y v sean ortogo-nales.

    (a) u = (2, k,4), v = (1, 3, k) ,(b) u = (2, k,k), v = (1, 3, k) .

    SOLUCINLos vectores u y v son ortogonales (o perpendiculares) entre s, si su producto escalar

    u v = uv = vu

    es 0. Estableciendo esta condicin sobre los vectores u y v del enunciado, obtendremos unaecuacin de la que despejaremos k.

  • 4 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    (a) 0 = uv = (2, k,4) 13

    k

    = 2 + 3k 4k = 2 k k = 2.(b) 0 = uv = k2 + 3k 2 k = 3

    9 4(1)(2)

    2= 2 1.

    PROBLEMA 1.4Calclese la inversa de las matrices

    A =

    1 0 013 4 012 3 2

    , B =

    9 1 0 00 8 2 00 0 7 30 0 0 6

    .

    SOLUCINUno de los objetivos de este ejercicio es comprobar que la inversa de una matriz triangularinferior (resp. superior) es tambin una matriz triangular inferior (resp. superior). Recordemosque la inversa de una matriz se calcula mediante la frmula

    A1 = |A|1 adj(A) ,

    donde | | y adj() denotan, respectivamente, el determinante y la matriz adjunta. Concreta-mente |A| = 8 y

    A1 =1

    8

    8 0 0 23 2 01 3 4

    .Para hacer estos clculos en Matlab escribimos las siguientes lneas de cdigo

    A = [ 1 0 01/3 4 01/2 3 2 ] ;

    Inv_A = inv(A)

    El determinante se calcula mediante det(A). Anlogamente, |B| = 3024 y

    B1 =1

    1512

    168 21 6 3

    0 189 54 270 0 216 1080 0 0 252

    .

  • LGEBRA MATRICIAL BSICA 5

    PROBLEMA 1.5Considrense las matrices

    A =

    (4 4.0014.001 4.002

    )y B =

    (4 4.0014.001 4.002001

    ).

    Obsrvese que estas matrices son casi idnticas excepto por una pequea diferenciaen el elemento (2,2). Sin embargo, comprubese que A1 3B1, es decir, quepequeos cambios (tal vez debidos al redondeo en las operaciones) pueden dar lugara inversas muy diferentes.

    SOLUCINCalculamos las inversas con Matlab

    A = [ 4 4.001 ; 4.001 4.002 ] ;Inv_A = inv(A)B = [ 4 4.001 ; 4.001 4.002001] ;Inv_B = inv(B)

    y obtenemos

    A1 = 106( 4.0020 4.0010

    4.0010 4.0000)

    , B1 = 106(

    1.3340 1.33371.3337 1.3333

    ).

    PROBLEMA 1.6Calclense la ecuacin caracterstica y los autovalores de las siguientes matrices

    (a) A1 =(

    1 22 2

    ),

    (b) A2 = 2 0 32 4 0

    1 0 0

    ,(c) A3 =

    2 2 21 1 11 1 1

    ,

    (d) A4 = 2 1 11 2 1

    1 1 2

    .

    SOLUCIN

    (a) Los autovalores de A1 son las races de su polinomio caracterstico

    P () = |A1 I| =1 22 2

    = (1 )(2 ) 4 = 2 + 6.

  • 6 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    El polinomio P () toma el valor 0 para 1 = 2 2 = 3. stos son los autovalores deA1 (conviene ya acostumbrarse a ordenarlos de mayor a menor, pues ms adelante, al calcularcomponentes principales, ser necesario). La ecuacin caracterstica es la que se obtiene deigualar el polinomio caracterstico a cero P () = 0, es decir, la ecuacin 2 + 6 = 0.(b) El polinomio caracterstico de A2 es

    P () = |A2 I|

    =

    2 0 3

    2 4 01 0

    = ( 4)(3 2 2) = ( 4)( + 3)(1 ).

    Por tanto, la ecuacin caracterstica de A2 es ( 4)( + 3)(1 ) = 0. Los autovalores deA2 son la solucin de la ecuacin anterior: 1 = 4, 2 = 1 y 3 = 3.(c) La ecuacin caracterstica de A3 es 0 = P () = |A3 I| = 2(4 ). Entonces losautovalores de A3 son 1 = 4 (autovalor simple) y 2 = 3 = 0 (autovalor doble).(d) La ecuacin caracterstica de A4 es 0 = ( 1)2( 4), por lo que sus autovalores son1 = 4 y 2 = 3 = 1 (autovalor doble).

    PROBLEMA 1.7

    Genrese una matriz X, de dimensin 4 3 y un vector u, 4 1, ambos de nmerosaleatorios y constryanse las matrices simtricas A = XX y B = uu.

    (a) Calclense la traza y el determinante de A y B.

    (b) Obtnganse los autovalores y autovectores de A y B.

    (c) Comprubese que la traza y el determinante de A coinciden respectivamentecon la suma y el producto de los autovalores de A.

    (d) Obtnganse los rangos de A y B y comprubese que coinciden, respectiva-mente, con el nmero de autovalores no nulos de A y B.

    SOLUCINEmpezamos construyendo las matrices A y B a partir de la generacin aleatoria de X y u:

    X = rand[4,3];u = rand[4,1];A = X*X;B = u*u;

  • LGEBRA MATRICIAL BSICA 7

    (a) Las instrucciones trace(A) y det(A) permiten obtener la traza y el determinante deA. Haremos lo mismo para B.

    (b) La instruccin [T,D]=eig(A) permite encontrar la descomposicin espectral de A, esdecir, A = TDT, donde D y T son matrices de la misma dimensin que A, tales que: D esuna matriz diagonal que contiene los autovalores de A, y T es una matriz ortogonal (es decir,TT = TT = I) cuyas columnas son los autovectores de A.Utilizando la misma instruccin obtendremos los autovalores y autovectores de B. Observadque la matriz diagonal que contiene los autovalores de B tiene solamente un elemento diagonalno nulo.

    (c) Hay que comprobar que la suma y el producto de la diagonal de la matriz D, es decir,sum(diag(D)) y prod(diag(D)), coinciden con trace(A) y det(A), respectiva-mente.

    (d) La instruccin rank(A) permite obtener el rango de A, que debe coincidir con el n-mero de elementos no nulos de la diagonal de D. Haremos lo mismo para B. Observad que Bes una matriz de rango uno, tal como caba esperar, puesto que la hemos construido a partir deun nico vector.

    PROBLEMA 1.8Considrense las matrices siguientes:

    A =

    2 1 41 4 12 1 4

    , B = 1 1 10 1 01 0 1

    , C = 2 1 11 2 11 1 2

    .(a) Son idempotentes?

    (b) Calclese su determinante.

    (c) Son definidas positivas?

    (d) Son ortogonales?

    SOLUCIN

    (a) Una matriz cuadrada A es idempotente si A2 = A. En este caso, o bien A es la matrizidentidad, o bien A es singular (es decir, |A| = 0). Asmismo, si A es idempotente entoncesrg(A) = tr(A).Puesto que |A| = 12 = 0 y |C| = 6 = 0, entonces ni A, ni C son idempotentes. Por otrolado, aunque |B| = 0, la matriz B tampoco es idempotente, porque tr(B) = 3 = rg(B) = 2.(b) Est respondido en el apartado anterior.

  • 8 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    (c) Los menores principales de A son

    |2| = 2 > 0 ; 2 11 4 = 9 > 0 ;

    |A| = 12 > 0.Por tanto, por el criterio de Sylvester, A es definida positiva. En cambio, B no lo es puesto que|B| = 0. Para ver que C es definida positiva podemos calcular sus autovalores con Matlab:

    C = [ 2 1 1 ; 1 2 -1 ; -1 -1 2 ];eig(C)

    y vemos que todos son positivos 1 = 3, 2 = 2 y 3 = 1. Por tanto, C es definida positiva.

    (d) Una matriz cuadrada A es ortogonal si

    AA = AA = I .

    Con el cdigo A*A, B*B, C*C, comprobamos que ninguna de las tres matrices verificaesta condicin y, por tanto, ni A, ni B, ni C son ortogonales. Por ejemplo,

    AA =

    21 6 196 18 219 2 21

    .

    PROBLEMA 1.9Calclese la descomposicin espectral de

    A =

    3 2 22 3 22 2 3

    .

    SOLUCINLa descomposicin espectral de una matriz simtrica A de dimensin kk consiste en expre-sar A de la siguiente manera:

    A = 1e1e1 + 2e2e

    2 + . . . + keke

    k, (1.1)

    donde 1, . . . , k son los autovalores de A y e1, . . . , ek son autovectores normalizados de Aasociados respectivamente a 1, . . . , k y ortogonales entre s. Recordemos que esta ltimacondicin se cumple automticamente en una matriz simtrica cuando todos sus autovaloresson distintos. Sin embargo, cuando hay algn autovalor mltiple (como en este caso) hay queescoger los autovectores adecuadamente.

  • LGEBRA MATRICIAL BSICA 9

    Los autovalores de A son las races de la ecuacin caracterstica

    0 = |A I| = ( 1)2(7 ),

    es decir, son 1 = 7 y 2 = 3 = 1. Un autovector x de A asociado al autovalor es unvector que verifica la ecuacin

    (A I)x = 0 .Por ejemplo, para 1 = 7, buscamos un vector x = (x1, x2, x3) tal que 00

    0

    = 3 2 22 3 2

    2 2 3

    7 1 0 00 1 0

    0 0 1

    x1x2x3

    =

    4 2 22 4 22 2 4

    x1x2x3

    ,lo cual equivale al sistema de ecuaciones

    0 = 2x1 + x2 + x3,0 = x1 2x2 + x3.

    De este sistema deducimos que un autovector x correspondiente al autovalor 1 = 7 debecumplir la condicin x1 = x2 = x3. Por ejemplo, podramos tomar el vector (1, 1, 1). Un au-tovector normalizado de A correspondiente al autovalor 1 = 8 es, pues, e1 = (1, 1, 1)/

    3.

    Respecto al autovalor 2 = 1, la ecuacin

    (A 2I)x = 0

    implicax1 + x2 + x3 = 0. (1.2)

    Observemos que el nmero de condiciones que debe cumplir un autovector de A es rg(A), elrango de A, menos la multiplicidad del autovalor correspondiente. En este caso hay slo unaecuacin, pues rg(A) = 3 y = 1 es un autovalor doble. Para la descomposicin espectrales necesario que todos los autovectores ei sean ortogonales entre s, luego debemos buscardos vectores que verifiquen la condicin (1.2) y cuyo producto escalar sea cero. Por ejemplo,e2 = (1,1, 0)/

    2 y e3 = (1, 1,2)/

    6.

    As pues la descomposicin espectral de la matriz A es:

    A =1

    2

    110

    (1,1, 0) + 16

    112

    (1, 1,2) + 73

    112

    (1, 1, 2).Observacin. La definicin 1.1 admite una expresin en forma matricial, tal y como vimosen el Problema 1.7. Dejamos al lector que escriba la descomposicin espectral de A como unproducto de 3 matrices cuadradas.

  • 10 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    PROBLEMA 1.10Dada la matriz

    A =

    3 2 02 3 00 0 3

    (a) Calclense sus autovalores, los de A2 y los de A1.

    (b) Calclese una base ortogonal que la diagonalice.

    SOLUCINPuesto que A es una matriz simtrica, el teorema de descomposicin espectral asegura queexisten una matriz ortogonal T y una matriz diagonal tales que A = TT. La matriz contiene los autovalores de A y la matriz T contiene los autovectores de A. Adems severifica la siguiente propiedad:

    Ap = Tp T ,

    para p Z.Mediante Matlab, obtenemos la descomposicin espectral de A y comprobamos la propiedadanterior para p = 2 y p = 1

    A = [3 2 0; 2 3 0; 0 0 3];[T,Lambda] = eig(A);

    Los resultados que se obtienen son:

    T =

    0.7071 0 0.70710.7071 0 0.70710 1 0

    , = 1 0 00 3 0

    0 0 5

    Observad que las columnas de T forman una base ortogonal que diagonaliza a la matriz A.Calculamos los autovalores de A2 y de A1 con:

    Lambda2 = eig(A*A);Lambdainv = eig(inv(A));

    y obtenemos que los autovalores de A2 son 1, 9 y 25 y los de A1 son 1, 0.33 y 0.2. Podiscomprobar que las instrucciones:

    T*diag(Lambda2)*TT*diag(Lambdainv)*T

    permiten recuperar las matrices A2 y A1 respectivamente.

  • LGEBRA MATRICIAL BSICA 11

    PROBLEMA 1.11Considrese la matriz

    A =

    (2 aa 2

    ).

    (a) Calclense los autovalores y autovectores de A.(b) Para qu valores de a es la matriz A definida positiva?

    SOLUCIN

    (a) Los autovalores de A son 1 = 2+ |a| y 2 = 2|a|. Los correspondientes autovectoresnormalizados son e1 = (sgn(a), 1)/

    2 y e2 = (1,sgn(a))/

    2, siendo sgn(a) = a/|a| el

    signo de a.

    (b) A es definida positiva si y slo si sus autovalores son ambos positivos, es decir, si |a| < 2.

    PROBLEMA 1.12Considrese la siguiente matriz

    A =

    6 1010 61 5

    .(a) Encuntrese la inversa generalizada de Moore-Penrose, A, de A.(b) Comprubese que se cumple la propiedad

    AAA = A. (1.3)

    (c) Comprubese que se cumplen las propiedades(i) AAA = A,

    (ii) AA es simtrica,(iii) AA es simtrica.

    SOLUCIN

    (a) La inversa de Moore-Penrose es aquella matriz A que verifica las condiciones (1.3) y(i)(iii) del apartado (c). La matriz A se obtiene a partir de la descomposicin en valoressingulares de

    A = UD1/2V ,

  • 12 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    es decir,A = VD1/2U .

    La funcin Matlab que calcule esta inversa podra ser

    function B = ginvMP(A)[U,D,V] = svd(A,0) ;B = V*inv(D)*U ;

    Tambin podemos utilizar directamente la funcinB = pinv(A) implementada ya en Matlab.El resultado es:

    A =( 0.0442 0.1337 0.0721

    0.0964 0.0665 0.0871)

    .

    (b) La expresin (1.3) es la propiedad que tiene que cumplir cualquier inversa generalizada.Para comprobar con Matlab que se cumple escribimos:

    B = ginvMP(A) ;A*B*A

    (c) Las propiedades (i)(iii) del apartado (c) se comprueban escribiendo las instruccionesB*A*B, B*A y A*B. El primer producto proporciona la matriz B y el segundo y tercero dan,respectivamente:

    BA = I, AB =

    0.6990 0.1368 0.43780.1368 0.9378 0.19900.4378 0.1990 0.3632

    ,que son matrices simtricas, donde I es la matriz identidad 2 2.

    PROBLEMA 1.13Calclese la matriz simtrica asociada a cada una de las siguientes formas cuadrti-cas y determnese si es definida positiva.

    (a) Q(x1, x2) = 2x21 3x1x2 + 3x22,(b) Q(x1, x2, x3) = x21 + x1x3 + 0.25x23 + 1.6x1x2 + 0.6x22 + 0.8x2x3.

    SOLUCIN

    (a) La matriz simtricaA =

    (a11 a12a12 a22

    )asociada a Q es la que verifica Q(x) = xAx, donde x = (x1, x2). Como

    xAx = (x1, x2)A(

    x1x2

    )= a11x

    21 + a22x

    22 + 2a12x1x2,

  • LGEBRA MATRICIAL BSICA 13

    tenemos que a11 = 2, a22 = 3, 2 a12 = 3. Por tanto,

    A =

    (2 3/2

    3/2 3)

    .

    Para comprobar que A es definida positiva, en Matlab escribimos:

    A = [2 -3/2 ; -3/2 3] ;lambda = eig(A)

    que nos proporciona los autovalores 0.9189 y 4.0811, ambos positivos.

    (b) La matriz simtrica

    A =

    a11 a12 a13a12 a22 a23a13 a23 a33

    asociada a Q es la que verifica Q(x) = xAx, donde x = (x1, x2, x3). Como

    xAx = a11x21 + a22x22 + a33x

    23 + 2a12x1x2 + 2a13x1x3 + 2a23x2x3,

    tenemos que:

    A =

    1 0.8 0.50.8 0.6 0.40.5 0.4 0.25

    .Calculando los autovalores de A obtenemos que uno de ellos es negativo, -0.0266, por lo queA no es definida positiva.

    PROBLEMA 1.14

    Sean x = (x1, x2) un vector y Q(x) = mx22 4x1 x2 + x21 una forma cuadrtica,donde m R.

    (a) Determnese la matriz simtrica A asociada a Q(x).(b) Determnense los valores de m para que A sea definida positiva.(c) Hllense los autovalores y los autovectores asociados a A en el caso de que

    m = 2.

    SOLUCIN

    (a) A =(

    1 22 m

    ).

    (b) A es definida positiva si y slo si todos los menores principales tienen determinantepositivo. Por tanto, m > 4.

    (c) Para el caso m = 2, los autovalores de A son 1 = 2 y 2 = 3. Los autovectoresnormalizados son respectivamente e1 = (2, 1)/

    5 y e2 = (1, 2)/

    5.

  • 14 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    PROBLEMA 1.15Considrense las siguientes matrices simtricas de dimensin 3 3:

    A =

    3 1 01 3 00 0 3

    y B = 0 0 00 0 0

    0 0 2

    .(a) Decdase el signo de la forma cuadrtica q(x) = xAx, donde x R3.(b) Escrbase la expresin explcita de la forma cuadrtica Q(x) = q(x) + xBx.

    Sin calcular los autovalores de A + B decdase el signo de Q(x).

    SOLUCIN

    (a) Con el mismo cdigo que utilizamos en el Problema 1.13 podemos ver que los autovaloresde A son 1 = 4, 2 = 3 y 3 = 2. Por tanto, A y su forma cuadrtica, q, son definidaspositivas.

    (b) La forma Q es definida positiva porque q lo es y B es semidefinida positiva. Es decir,puesto que q(x) > 0 y xBx 0 para x = 0, entonces se verifica que Q(x) > 0 para x = 0.

  • CAPTULO2Estadsticos descriptivos

    Los objetivos de este captulo son sencillos, pero fundamentales (en cuanto a notaciny conceptos) para la posterior comprensin de los captulos restantes. Aprenderemosa manejar datos multivariantes de manera matricial y a representarlos grficamente.Calcularemos las medidas resumen ms utilizadas de localizacin, dispersin y de-pendencia muestrales: el vector de medias, la matriz de varianzas-covarianzas y lamatriz de correlaciones. A lo largo del tema se insiste en la interpretacin intuitiva deestos estadsticos y de los grficos. Quedar patente la utilidad de Matlab para el trata-miento de datos multidimensionales. Tambin se hace especial hincapi en el clculode combinaciones lineales de los vectores observados.

    PROBLEMA 2.1

    Se define la matriz de centrado de dimensin n como H = I 1n11, donde I es la

    matriz identidad de dimensin nn y 1 es un vector n1 de unos. La utilidad de estamatriz H radica en que, como su nombre indica, se usa para centrar configuracionesde datos: si X es una matriz de datos de dimensin np, entonces HX es una matrizcuyas columnas tienen media cero.Utilcese Matlab para comprobar las dos siguientes propiedades de la matriz de cen-trado (tomando, por ejemplo, n = 5):

    (a) H es idempotente,.(b) rg(H) = tr(H) = n 1.

    SOLUCINConstruimos la matriz de centrado de dimensin n = 5:

    n = 5;H = eye(n)-ones(n,n)/n;

    y comprobamos que H2 coincide con H. Las instruccionestrace(H) y rank(H) permitenobtener su traza y su rango, que deben ser n 1 = 4.

  • 16 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    PROBLEMA 2.2Los datos de la Tabla 2.1 corresponden a chalets construidos por diez promotoras queoperan a lo largo de la costa espaola.

    Tabla 2.1.Diez promotoras de la costa espaola (Problema 2.2)

    X1 =Duracin media X2 =Precio medio X3 =Superficie mediaPromotora hipoteca (aos) (millones euros) (m2) de cocina

    1 8.7 0.3 3.12 14.3 0.9 7.43 18.9 1.8 9.04 19.0 0.8 9.45 20.5 0.9 8.36 14.7 1.1 7.67 18.8 2.5 12.68 37.3 2.7 18.19 12.6 1.3 5.910 25.7 3.4 15.9

    (a) Dibjese el diagrama de dispersin mltiple y comntese el aspecto del grfico.(b) Para X1 y X2 calclense, respectivamente, las medias muestrales x1 y x2, las

    varianzas muestrales s11 y s22, la covarianza entre X1 y X2, s12, y la correla-cin entre ambas, r12. Interprtese el valor obtenido de r12.

    (c) Utilizando la matriz de datos X y la de centrado H definida en el Problema 2.1,calclense el vector de medias muestrales x y la matriz de covarianzas mues-trales S. A partir de sta obtngase la matriz de correlaciones R.

    SOLUCIN

    (a) En la Figura 2.1 se puede ver el diagrama de dispersin mltiple de las tres variables. Seobserva que todas ellas estn positivamente correladas entre s y que el grado de correlacines muy alto. Por tanto, una sola de esas variables debera poder servir para predecir cualquierade las otras dos.Las instrucciones en Matlab para introducir los datos y realizar el grfico son

    X = [ 8.7 0.3 3.114.3 0.9 7.418.9 1.8 9.019.0 0.8 9.420.5 0.9 8.314.7 1.1 7.618.8 2.5 12.637.3 2.7 18.112.6 1.3 5.925.7 3.4 15.9];

    plotmatrix(X)

  • ESTADSTICOS DESCRIPTIVOS 17

    0 10 20

    0 2 4

    0 20 40

    x1 x2 x3

    Figura 2.1.Datos de chalets construidos por promotoras (Problema 2.2)

    (b) Para calcular con Matlab los valores de

    x1 =1

    10

    10i=1

    xi1 = 19.05 y x2 =1

    10

    10i=1

    xi2 = 1.57

    escribimos el siguiente cdigo:

    [n,p] = size(X) ;m1 = sum(X(:,1))/n ;m2 = sum(X(:,2))/n ;

    o tambin

    m1 = mean(X(:,1)) ; m2 = mean(X(:,2)) ;

    Las varianzas

    s11 =1

    10

    10i=1

    x2i1 x21 = 56.97 y s22 =1

    10

    10i=1

    x2i2 x22 = 0.89

    se calculan con

    s11 = sum(X(:,1).^2)/n - m1^2; s22 = sum(X(:,2).^2)/n - m2^2;

    o bien con

  • 18 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    s11 = var(X(:,1),1) ; s22 = var(X(:,2),1) ;

    Por ltimo, con las instrucciones

    s12 = sum(X(:,1).*X(:,2))/n - m1*m2 ;r12 = s12/sqrt(s11*s22) ;

    obtenemos

    s12 =1

    10

    10i=1

    xi1xi2 x1x2 = 5.17 y r12 = s12s11s22

    = 0.72.

    El valor de la correlacin entre las variables X1 y X2 es positivo y alto, como ya permitadeducir el diagrama de dispersin del apartado (a).(c) Los valores que acabamos de calcular en el apartado (b) para medias, varianzas, covarian-zas y correlaciones se pueden obtener matricialmente. La instruccin de Matlab que calculax = 1nX

    1n = (19.32, 1.51, 9.76) es:

    m = X * ones(n,1)/n ;

    Para comprobar que

    S =1

    nXHX =

    56.97 5.17 30.480.89 3.6518.76

    escribiremos:

    H = eye(n)-ones(n,n)/n ;S = X*H*X/n ;

    Por ltimo, la matriz

    R = D1/2

    1 0.71 0.951 0.851

    D1/2,donde D1/2 = diag(s1/211 , s

    1/222 , s

    1/233 ), se obtiene mediante:

    d = diag(S).^(-0.5) ;R = diag(d) * S * diag(d) ;

    Podis comprobar que las funciones internas de Matlab:

    m = mean(X) ; S = cov(X,1) ; R = corrcoef(X)

    producen los mismos resultados. Si, en cambio, escribimos cov(X) Matlab calcula la matrizde dispersin S = 1n1X

    HX, que a veces se denomina matriz de varianzas-covarianzascorregida.

  • ESTADSTICOS DESCRIPTIVOS 19

    PROBLEMA 2.3La contaminacin por mercurio de peces de agua dulce comestibles es una amenazadirecta contra nuestra salud. Entre 1990 y 1991 se llev a cabo un estudio en 53 lagosde Florida con el fin de examinar los factores que influan en el nivel de contaminacinpor mercurio. Las variables que se midieron fueron:

    X1 = nmero de identificacin,X2 = nombre del lago,X3 = alcalinidad (mg/l de carbonato de calcio),X4 = pH,X5 = calcio (mg/l),X6 = clorofila (mg/l),X7 = concentracin media de mercurio (partes por milln) en el tejido mscular

    del grupo de peces estudiados en cada lago,X8 = nmero de peces estudiados por lago,X9 = mnimo de la concentracin de mercurio en cada grupo de peces,X10 = mximo de la concentracin de mercurio en cada grupo de peces,X11 = estimacin (mediante regresin) de la concentracin de mercurio en un pez

    de 3 aos (o promedio de mercurio cuando la edad no est disponible),X12 = indicador de la edad de los peces.

    La Tabla 2.2 contiene los datos de este estudio, disponible en la pgina web

    http://lib.stat.cmu.edu/DASL.

    (a) Represntense de forma conjunta las variables X3,X6,X7 y vase cmo semodifica su dispersin cuando se producen transformaciones (lineales y no li-neales) sobre las variables. Considrense como medidas de dispersin globalla traza y el determinante de la matriz de covarianzas .

    (b) Dibjese el histograma tridimensional correspondiente a X3 y X7. Eljansesendas transformaciones no lineales para estas variables de entre las utilizadasen el apartado anterior y dibjese el histograma tridimensional de las variablestransformadas.

    SOLUCIN

    (a) Supongamos que tenemos un fichero de texto, de nombre mercurio.txt que contienelos datos de la Tabla 2.2, cuya primera fila contiene los nombres de las variables, de manera que

  • 20 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    Tabla 2.2.Datos del ejercicio 2.3 (http://lib.stat.cmu.edu/DASL/Datafiles/MercuryinBass.html)

    X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X121 Alligator 5.9 6.1 3.0 0.7 1.23 5 0.85 1.43 1.53 12 Annie 3.5 5.1 1.9 3.2 1.33 7 0.92 1.90 1.33 03 Apopka 116.0 9.1 44.1 128.3 0.04 6 0.04 0.06 0.04 04 Blue Cypress 39.4 6.9 16.4 3.5 0.44 12 0.13 0.84 0.44 05 Brick 2.5 4.6 2.9 1.8 1.20 12 0.69 1.50 1.33 16 Bryant 19.6 7.3 4.5 44.1 0.27 14 0.04 0.48 0.25 17 Cherry 5.2 5.4 2.8 3.4 0.48 10 0.30 0.72 0.45 18 Crescent 71.4 8.1 55.2 33.7 0.19 12 0.08 0.38 0.16 19 Deer Point 26.4 5.8 9.2 1.6 0.83 24 0.26 1.40 0.72 1

    10 Dias 4.8 6.4 4.6 22.5 0.81 12 0.41 1.47 0.81 111 Dorr 6.6 5.4 2.7 14.9 0.71 12 0.52 0.86 0.71 112 Down 16.5 7.2 13.8 4.0 0.50 12 0.10 0.73 0.51 113 Eaton 25.4 7.2 25.2 11.6 0.49 7 0.26 1.01 0.54 114 East Tohopekaliga 7.1 5.8 5.2 5.8 1.16 43 0.50 2.03 1.00 115 Farm-13 128.0 7.6 86.5 71.1 0.05 11 0.04 0.11 0.05 016 George 83.7 8.2 66.5 78.6 0.15 10 0.12 0.18 0.15 117 Griffin 108.5 8.7 35.6 80.1 0.19 40 0.07 0.43 0.19 118 Harney 61.3 7.8 57.4 13.9 0.77 6 0.32 1.50 0.49 119 Hart 6.4 5.8 4.0 4.6 1.08 10 0.64 1.33 1.02 120 Hatchineha 31.0 6.7 15.0 17.0 0.98 6 0.67 1.44 0.70 121 Iamonia 7.5 4.4 2.0 9.6 0.63 12 0.33 0.93 0.45 122 Istokpoga 17.3 6.7 10.7 9.5 0.56 12 0.37 0.94 0.59 123 Jackson 12.6 6.1 3.7 21.0 0.41 12 0.25 0.61 0.41 024 Josephine 7.0 6.9 6.3 32.1 0.73 12 0.33 2.04 0.81 125 Kingsley 10.5 5.5 6.3 1.6 0.34 10 0.25 0.62 0.42 126 Kissimmee 30.0 6.9 13.9 21.5 0.59 36 0.23 1.12 0.53 127 Lochloosa 55.4 7.3 15.9 24.7 0.34 10 0.17 0.52 0.31 128 Louisa 3.9 4.5 3.3 7.0 0.84 8 0.59 1.38 0.87 129 Miccasukee 5.5 4.8 1.7 14.8 0.50 11 0.31 0.84 0.50 030 Minneola 6.3 5.8 3.3 0.7 0.34 10 0.19 0.69 0.47 131 Monroe 67.0 7.8 58.6 43.8 0.28 10 0.16 0.59 0.25 132 Newmans 28.8 7.4 10.2 32.7 0.34 10 0.16 0.65 0.41 133 Ocean Pond 5.8 3.6 1.6 3.2 0.87 12 0.31 1.90 0.87 034 Ocheese Pond 4.5 4.4 1.1 3.2 0.56 13 0.25 1.02 0.56 035 Okeechobee 119.1 7.9 38.4 16.1 0.17 12 0.07 0.30 0.16 136 Orange 25.4 7.1 8.8 45.2 0.18 13 0.09 0.29 0.16 137 Panasoffkee 106.5 6.8 90.7 16.5 0.19 13 0.05 0.37 0.23 138 Parker 53.0 8.4 45.6 152.4 0.04 4 0.04 0.06 0.04 039 Placid 8.5 7.0 2.5 12.8 0.49 12 0.31 0.63 0.56 140 Puzzle 87.6 7.5 85.5 20.1 1.10 10 0.79 1.41 0.89 141 Rodman 114.0 7.0 72.6 6.4 0.16 14 0.04 0.26 0.18 142 Rousseau 97.5 6.8 45.5 6.2 0.10 12 0.05 0.26 0.19 143 Sampson 11.8 5.9 24.2 1.6 0.48 10 0.27 1.05 0.44 144 Shipp 66.5 8.3 26.0 68.2 0.21 12 0.05 0.48 0.16 145 Talquin 16.0 6.7 41.2 24.1 0.86 12 0.36 1.40 0.67 146 Tarpon 5.0 6.2 23.6 9.6 0.52 12 0.31 0.95 0.55 147 Trafford 81.5 8.9 20.5 9.6 0.27 6 0.04 0.40 0.27 048 Trout 1.2 4.3 2.1 6.4 0.94 10 0.59 1.24 0.98 149 Tsala Apopka 34.0 7.0 13.1 4.6 0.40 12 0.08 0.90 0.31 150 Weir 15.5 6.9 5.2 16.5 0.43 11 0.23 0.69 0.43 151 Tohopekaliga 25.6 6.2 12.6 27.7 0.65 44 0.30 1.10 0.58 152 Wildcat 17.3 5.2 3.0 2.6 0.25 12 0.15 0.40 0.28 153 Yale 71.8 7.9 20.5 8.8 0.27 12 0.15 0.51 0.25 1

    los datos propiamente dichos empiezan en la segunda fila, escritos por columnas y separadosuno de otro mediante tabulacin. Para leer los datos desde Matlab utilizaremos la funcindlmread. Observemos que las dos primeras columnas del fichero no son relevantes para losclculos que queremos hacer, por lo que no se leern. Sin embargo hay que tener en cuentaque Matlab interpreta que un fichero de texto empieza en la fila 0 columna 0. Por tanto, elprimer dato a leer es 5.9, que se encuentra en la fila 1 columna 2, y el ltimo dato a leer es 1,que se encuentra en la fila 53 columna 11:

    M = dlmread(mercurio.txt,\t,[1 2 53 11]);

    El smbolo \t indica que los datos estn separados por tabulacin.

  • ESTADSTICOS DESCRIPTIVOS 21

    Slo queremos representar de forma conjunta las variables X3, X6, X7, que son las colum-nas 1, 4, 5 de la matriz M. As pues construimos una matriz X que contenga solamente estascolumnas:

    X = [M(:,1) M(:,4:5)];det(cov(X,1))trace(cov(X,1))plotmatrix(X)

    La Figura 2.2 muestra la dispersin de las columnas de la matriz X.

    0 0.5 1 1.50 100 2000 50 100 150

    0

    0.5

    1

    1.5

    050

    100150200

    0

    50

    100

    150

    Figura 2.2.Datos de contaminacin por mercurio (Problema 2.3)

    Consideremos la siguiente transformacin lineal sobre X3 y X6:

    Y3 = X3/1000, Y6 = X6/1000,

    que corresponde al cambio de unidades de medida g/l en lugar de mg/l. Y estudiemos ahora ladispersin entre Y3, Y6, X7.

    Y=[X(:,1)/1000 X(:,2)/1000 X(:,3)];det(cov(Y,1))trace(cov(Y,1))plotmatrix(Y)

    La Figura 2.3 muestra la dispersin entre las columnas de la matriz Y. Observad que si no setienen en cuenta las unidades de medida, las formas de las nubes de puntos entre las Figuras2.2 y 2.3 son muy parecidas.Consideremos ahora las siguientes transformaciones no lineales sobre X3, X6 y X7:

    W3 = log(X3), W6 = log(X6), W7 =

    X7,

  • 22 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    0 0.5 1 1.50 0.1 0.20 0.1 0.2

    0

    0.5

    1

    1.5

    00.05

    0.10.15

    0.2

    00.05

    0.10.15

    0.2

    Figura 2.3.Datos de contaminacin por mercurio. Transformaciones lineales (Problema 2.3)

    que intentan simetrizar los datos, y estudiemos la dispersin entre ellas:

    W=[log(X(:,1)) log(X(:,2)) sqrt(X(:,3))];det(cov(W,1))trace(cov(W,1))plotmatrix(W)

    La Figura 2.4 muestra la dispersin entre las columnas de la matriz W.La Tabla 2.3 resume las medidas de dispersin global para las tres matrices X, Y, W:

    Tabla 2.3.Medidas de dispersin global para las matrices del Problema 2.3

    matriz tr(S) det(S)X 2.3638e + 003 6.9503e + 004Y 0.1165 6.9503e 008W 3.1223 0.0490

    (b) Hemos elegido las transformaciones log(X3) yX7. El cdigo que dibuja los histo-

    gramas tridimensionales de la Figura 2.5 se detalla a continuacin (Observacin: la funcinhist3 de Matlab slo est disponible en la Toolbox Statistics de la versin 7 y superiores).Suponemos que la matriz M es la misma que en (a).

  • ESTADSTICOS DESCRIPTIVOS 23

    0 0.5 1 1.55 0 5 100 2 4 6

    0

    0.5

    1

    1.5

    20246

    0

    2

    4

    6

    Figura 2.4.Datos de contaminacin por mercurio. Transformaciones no lineales (Problema 2.3)

    X = M(:,[5,1]);figure(1)hist3(X)ylabel(x_3=alcalinidad)xlabel(x_7=mercurio)view(50,50)

    Y = [sqrt(X(:,1)),log(X(:,2))] ;figure(2)hist3(Y)ylabel(log(x_3))xlabel(x_7^{1/2})view(50,50)

    Figura 2.5.Datos de contaminacin por mercurio. Histograma tridimensional (Problema 2.3)

  • 24 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    PROBLEMA 2.4

    Considrese la muestra x1, . . . ,xn de vectores de Rp. Prubese que la matriz decovarianzas

    S =1

    n

    ni=1

    (xi x)(xi x)

    se puede expresar como1

    n

    ni=1

    xi xi x x.

    SOLUCINUtilizando la propiedad distributiva de la multiplicacin de matrices y que la traspuesta de lasuma es la suma de las traspuestas, tenemos que

    ni=1

    (xi x)(xi x) =n

    i=1

    [xi(xi x) x(xi x)]

    =

    ni=1

    (xixi xix xxi + xx)

    =n

    i=1

    xixi

    ni=1

    xix x

    ni=1

    xi +n

    i=1

    xx

    =

    ni=1

    xixi nxx nxx + nxx.

    PROBLEMA 2.5Considrese la matriz de datos

    2 1 43 0 15 1 2

    1 3 62 7 4

    1 0 1

    ,

    que recoge n = 6 observaciones de un vector aleatorio X = (X1,X2,X3).

    (a) Calclense el vector de medias x y la matriz de covarianzas muestrales Sx.

  • ESTADSTICOS DESCRIPTIVOS 25

    (b) Calclese la matriz de covarianzas muestrales de los datos estandarizados amedia cero y varianza unidad.

    (c) Sea el vector aleatorio Y = (Y1, Y2), donde Y1 = X1 + 2X2 X3 eY2 = X1 + X2. Calclense el vector de medias y y la matriz de covarian-zas muestrales Sy de Y. Calclese la matriz de observaciones de Y medianteuna operacin matricial en la que aparezca la matriz de datos de X.

    (d) Calclese la matriz de covarianzas del vector aleatorio Z = (Z1, Z2), dondeZ1 = Y1/

    6 y Z2 = Y2/

    2.

    (e) Calclense las matrices de correlaciones de X, Y, Z y de la matriz de datosobtenida en el apartado (b).

    SOLUCIN

    (a) El vector de medias muestrales de X es

    x =1

    6

    (6

    i=1

    x1i,6

    i=1

    x2i,6

    i=1

    x3i

    )= (1,0.33, 2.33) .

    La matriz de covarianzas muestrales de X es

    Sx =

    6.33 2.0000 2.00002.00 9.8889 0.11112.00 0.1111 6.8889

    .A continuacin indicamos las instrucciones en Matlab que sirven para calcular estos estadsti-cos. Sea X la matriz de datos, que supondremos que ya tenemos introducida, y sean m el vector(fila) de medias, H la matriz de centrado y Sx la matriz de covarianzas . Entonces

    [n,p] = size(X);m = ones(n,1)*X/n;H = eye(n)-ones(n,n)/n;Sx = X*H*X/n;

    Las instrucciones internas de Matlab m=mean(X) y Sx=cov(X,1) proporcionan los mis-mos resultados.

    (b) Sean H la matriz de centrado , Xn la matriz de datos y Dx = diag(s11, s22, s33) la matrizdiagonal que contiene la diagonal de Sx. Entonces la matriz de datos estandarizados es

    HXnD1/2 =

    1.1921 0.4240 0.6350

    0.7947 0.1060 1.27001.5894 0.4240 0.1270

    0.7947 1.0600 1.39700.3974 2.1200 0.6350

    0.7947 0.1060 1.2700

    ,

  • 26 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    con matriz de covarianzas:

    Sx0 =

    1.0000 0.2527 0.30280.2527 1.0000 0.01350.3028 0.0135 1.0000

    .Sean H, n y p los calculados en (a). Entonces Sx0 se obtiene mediante:

    d = sqrt(diag(Sx));Std = ones(n,1)*d;X0 = (H*X)./Std;Sx0 = cov(X0,1);

    (c) Observemos que el vector Y se expresa como Y = XC, siendo

    C =

    ( 1 2 11 1 0

    ).

    Es decir, Y es una combinacin lineal de X. Por tanto,

    y = Cx =

    ( 1 2 11 1 0

    ) 10.332.33

    = ( 40.67

    )y

    Sy = CSx C =

    (56.33 13.3313.33 12.22

    ).

    Instrucciones en MATLAB:

    C = [-1 2 -1; 1 1 0];Y = X*C;my = m*C;Sy = C*Sx*C;

    La primera instruccin calcula los valores observados de Y. Podis comprobar que mediantemean(Y) y cov(Y,1) se llega al mismo resultado.(d) Observemos que el vector Z se escribe como Z = XD, donde

    D =

    ( 1/6 2/6 1/61/

    2 1/

    2 0

    ),

    cuyas filas coinciden con las filas de la matriz C estandarizadas a norma unidad. Procediendocomo en el apartado (b), obtenemos

    Sz = D Sx D =

    (9.39 3.853.85 6.11

    ).

  • ESTADSTICOS DESCRIPTIVOS 27

    En Matlab escribiremos:D = [-1/sqrt(6) 2/sqrt(6) -1/sqrt(6)

    1/sqrt(2) 1/sqrt(2) 0];Z = X*D;Sz = D*Sx*D;

    (e) Utilizaremos las mismas instrucciones que en el apartado (c) del Problema 2.2. Si lla-mamos Rx, Ry y Rz a las matrices de correlaciones de X, Y y Z, y Rx0 a la matriz decorrelaciones de los datos estandarizados, entonces:

    dx = (diag(Sx)).^(-0.5);Rx = diag(dx)*Sx*diag(dx);

    dx0 = (diag(Sx0)).^(-0.5);Rx0 = diag(dx0)*Sx0*diag(dx0);

    dy = (diag(Sy)).^(-0.5);Ry = diag(dy)*Sy*diag(dy);

    dz = (diag(Sz)).^(-0.5);Rz = diag(dz)*Sz*diag(dz);

    Observad que las matrices de correlaciones de X y de los datos estandarizados coinciden conla matriz de covarianzas de stos ltimos, y que las matrices de correlaciones de Y y de Z tam-bin coinciden. Comprobad que utilizando la instruccin interna de Matlab Rx=corrcoef(X)se llega a los mismos resultados.

    PROBLEMA 2.6Consideremos las n = 5 observaciones

    1 63 8

    2 75 32 0

    ,de un vector aleatorio X = (X1,X2). Definimos las combinaciones lineales cX ybX donde c = (2, 1) y b = (1, 3).

    (a) Calculando los valores observados de las combinaciones lineales en cada unade las filas de la matriz de datos, obtnganse las medias, las varianzas y lacovarianza entre cX y bX.

    (b) Obtnganse los estadsticos pedidos en (a), pero utilizando las expresiones ma-triciales que relacionan los momentos muestrales de una combinacin linealcon aqullos (x y S) de X.

    (c) Obtngase el vector de medias muestral del vector aleatorio (X21 ,X22 ).

  • 28 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    SOLUCIN

    (a) Los valores observados de las combinaciones cX y bX vienen dados por Datosc yDatosb respectivamente. La media muestral de los valores observados de cX es mc y la delos valores observados de bX es mb. La varianza muestral de cX es vc y la de bX es vb.La covarianza entre cX y bX es covbc(1,2).

    X = [ 1 6 ; 3 8 ; -2 7 ; 5 -3 ; 2 0] ;b = [-1 ; 3] ; c = [-2 ; 1];

    Datosb = X*b ; Datosc = X*c ;

    mb = mean(Datosb) ; mc = mean(Datosc) ;

    vb = var(Datosb,1) ; vc = var(Datosc,1) ;covbc = cov(Datosb,Datosc,1) ;

    (b) El vector de medias muestrales de X es x = (1.8, 3.6) y su matriz de covarianzas es

    S =

    (5.36 6.28

    6.28 18.64)

    .

    La media muestral de cX es

    cx = (2, 1)(

    1.83.6

    )= 0

    y, anlogamente, la media muestral de bX es bx = 9.La varianza muestral de cX es cSc = 65.2 y la de bX es bSb = 210.8. La covarianzamuestral entre cX y bX es cSb = bSc = 110.6. A continuacin se pueden ver lasinstrucciones de Matlab que hacen estos clculos.

    m = mean(X) ; S = cov(X,1) ;mb = b * m ; mc = c * m ;vb = b * S * b ; vc = c * S * c ;covbc12 = b * S * c ;

    (c) El vector de medias muestral de (X21 , X22 ) viene dado por1

    4

    4i=1

    x2i1

    1

    4

    4i=1

    x2i2

    =(

    8.631.6

    ),

    siendo xij el elemento (i, j) de la matriz de datos X. Para calcularlo con Matlab, escribimos:

    Y = X.^2 ;my = mean(Y) ;

  • ESTADSTICOS DESCRIPTIVOS 29

    Otra posibilidad es recordar que la varianza muestral correspondiente a X1, la primera com-ponente de X, es:

    s11 =1

    4

    4i=1

    x2i1 x21.

    Por tanto,1

    4

    4i=1

    x2i1 = s11 + x21 = 5.36 + 1.8

    2 = 8.6.

    Anlogamente, si s22 denota la varianza muestral de X2, tenemos que

    1

    4

    4i=1

    x2i2 = s22 + x22 = 18.64 + 3.6

    2 = 31.6.

    PROBLEMA 2.7Un bilogo recoge medidas (en mm.) de los crneos en dos especies, A y B, de ratones.Concretamente observa tres variables X1, X2 y X3 en un conjunto de ratones de loscuales nA = 50 son de la especie A y los restantes nB = 60 son de la especie B.

    (a) Denotemos por XA la matriz de datos observados en la especie A. SiXA150 = (25.5, 14.1, 11.3)

    y

    XAXA =

    40.2 10.9 15.610.9 13.7 14.515.6 14.5 20.1

    ,calclense el vector de medias xA y la matriz de covarianzas SA correspon-dientes a esta especie.

    (b) Denotemos por XB la matriz de observaciones de la especie B. SiXB160 = (26.3, 15.5, 10.0)

    y

    XBXB =

    50.7 32.6 24.832.6 29.0 12.624.8 12.6 35.8

    ,calclense las medias muestrales xB y la matriz de covarianzas SB de la espe-cie B.

    (c) Calclense las medias muestrales x y la matriz de covarianzas S para la totali-dad de los n = 110 ratones.

  • 30 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    SOLUCIN

    (a) Supongamos que los datos estn ordenados de manera que los 50 primeros son los de laespecie A y los 60 ltimos son de la especie B. Entonces tenemos que

    XA150 =

    50i=1

    xi1

    50i=1

    xi2

    50i=1

    xi3

    .

    Por tanto,

    xA =1

    50XA150 =

    0.50.30.2

    .Por otro lado, observemos que

    XAXA =

    50i=1

    x2i1

    50i=1

    xi1xi2

    50i=1

    xi1xi3

    50i=1

    xi1xi2

    47i=1

    x2i2

    50i=1

    xi2xi3

    50i=1

    xi1xi3

    47i=1

    xi2xi3

    50i=1

    x2i3

    y

    xAxA =

    0.3 0.1 0.10.1 0.1 0.10.1 0.1 0.1

    .Luego

    SA =1

    50XAXA xAxA =

    0.5 0.1 0.20.1 0.2 0.20.2 0.2 0.4

    .Las instrucciones para hacer estos clculos en Matlab son las siguientes:

    nA = 50 ;DatoA1 = [ 25.5,14.1,11.3 ];DatoA2 = [ 40.2 10.9 15.6

    10.9 13.7 14.515.6 14.5 20.1 ] ;

    MediaA = DatoA1 / nA ;SA = DatoA2 / nA - MediaA * MediaA ;

  • ESTADSTICOS DESCRIPTIVOS 31

    (b) Este apartado se resuelve de forma anloga al anterior y los resultados son:

    xB =

    0.40.30.2

    y

    SB =

    0.7 0.4 0.30.4 0.4 0.20.3 0.2 0.6

    .(c) El vector de medias viene dado por

    x =1

    110

    110i=1

    xi1

    110i=1

    xi2

    110i=1

    xi3

    =

    1

    110(XA150 + X

    B160) =

    0.50.30.2

    .

    La matriz de covarianzas esS =

    1

    110XX x x,

    dondeX =

    (XAXB

    ),

    por tanto,

    S =1

    110(XA XA + X

    B XB) x x =

    0.6 0.3 0.30.3 0.3 0.20.3 0.2 0.5

    .Con Matlab

    n = nA + nB ;Media = (DatoA1 + DatoB1)/n ;S = (DatoA2 + DatoB2)/n - Media*Media ;

  • 32 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    PROBLEMA 2.8

    La Tabla 2.4 contiene 10 observaciones de un vector X = (X1,X2,X3,X4), dondeX1 = Longitud de cabeza del primer hijo de una familia, X2 = Anchura de cabezade ese mismo hijo, X3 = Longitud de cabeza del segundo hijo de la misma familia yX4 = Anchura de cabeza de este segundo hijo (Fuente: Frets 1921). Divdase X de lasiguiente manera:

    X =

    X1X2X3X4

    = ( X(1)X(2))

    .

    (a) Para X(1) y X(2) calclense, respectivamente, estimaciones de los vectores deesperanzas, E(X(1)) y E(X(2)), de las matrices de covarianzas, Var(X(1)) yVar(X(2)), y tambin de la matriz de covarianzas cruzadas Cov(X(1),X(2)).

    (b) Dadas las matrices

    A =

    (1 11 1

    )y B =

    ( 3 2 ) ,calclense estimaciones de E(AX(1)), Var(BX(2)) y Cov(AX(1),BX(2)).

    Tabla 2.4.Dimensiones de cabeza de dos hermanos (Frets 1921)

    Primer hijo Segundo hijoLongitud cabeza Ancho cabeza Longitud cabeza Ancho cabeza

    191 155 179 145195 149 201 152181 148 185 149183 153 188 149176 144 171 142208 157 192 152189 150 190 149197 159 189 152188 152 197 159192 150 187 151

  • ESTADSTICOS DESCRIPTIVOS 33

    SOLUCIN

    (a) Para calcular las estimaciones de los vectores de medias utilizaremos el siguiente cdigoMatlab, en el que suponemos que ya hemos introducido la matriz X de datos de dimensin10 4:

    MediaHijo1 = mean(X(:,[1,2]))MediaHijo2 = mean(X(:,[3,4]))

    o, alternativamente, tambin podemos hacer:

    Media = mean(X) ;MediaHijo1 = Media(1,[1,2])MediaHijo2 = Media(1,[3,4])

    Los resultados que se obtienen son x(1) = (190, 151.7), x(2) = (187.9, 150). Las estimacio-nes de las matrices de covarianzas se calculan mediante:

    S = cov(X,1) ;VarianzasHijo1 = S([1,2],[1,2])VarianzasHijo2 = S([3,4],[3,4])CovHijo1Hijo2 = S([1,2],[3,4])

    y los resultados son:

    S(1) =

    (73.4 26.6

    18.0

    ),

    S(2) =

    (65.1 29.8

    18.6

    ),

    S(1,2) =

    (37.8 16.8

    7.0

    ).

    (b) Las estimaciones de la esperanza E(AX(1)) y de la varianza Var(BX(2)) son, respec-tivamente, Ax(1) = (38.3, 341.7) y BS(2)B = 302.6. Por ltimo, la estimacin de lacovarianza cruzada Cov(AX(1),BX(2)) es AS(1,2)B = (61.7900,97.8). Una vez in-troducidas en Matlab las transformaciones lineales A y B, las instrucciones que calculan estosresultados son:

    AMediaHijo1 = A * MediaHijo1BVarianzasHijo2 = B * VarianzasHijo2 * BCovAHijo1BHijo2 = A * CovHijo1Hijo2 * B

  • 34 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    PROBLEMA 2.9Considrese el vector Y formado slo por las dos componentes X1 y X2 del Pro-blema 2.8 centradas respecto de la media muestral (x1, x2). Represntense las obser-vaciones del vector Y, yi, para i = 1, . . . , 10, mediante un diagrama de dispersin. Acontinuacin considrese el vector a = (15, 8) y, sobre el diagrama de dispersin,trcese (a mano o con Matlab) la recta de direccin a que pasa por el origen. Mr-quese sobre esta recta la proyeccin ortogonal de yi sobre a, para i = 1, . . . , 10,y dentese por li cada una de estas longitudes. Calclese la varianza muestral delas longitudes li, i = 1, . . . , 10. Si, en lugar del vector a, se considera el vectorb = (15,15) , qu cambios se observan?

    SOLUCINSuponemos ya introducida en Matlab la matriz de datos X que contiene las dos primeras co-lumnas de la Tabla 2.4. Para realizar el diagrama de dispersin escribimos:

    Media = mean(X) ;[n,p] = size(X) ;Y = X-ones(n,1)*Media ;plot(Y(:,1),Y(:,2),ok,MarkerFaceColor,k,MarkerSize,7)xlabel(y_1)ylabel(y_2)axis([-15 20 -15 20])

    El resultado son los crculos rellenos de la Figura 2.6. La longitud li de la proyeccin deyi = (yi1, yi2)

    sobre a = (a1, a2) viene dada por li = c1 yi1+c2 yi2 (vase el Problema 1.2),siendo c = (c1, c2) = a/a. Anlogamente, se obtendran las longitudes para las proyec-ciones de yi sobre el vector b. Las siguientes instrucciones permiten realizar los clculos enMatlab:

    a = [15;8]; b = [15;-15];c = a/norm(a); d = b/norm(b);La = Y*c; Lb = Y*d;var(La)var(Lb)

    La varianza resultante de las proyecciones sobre el vector a es var(La)=92.47, mientrasque proyectando sobre b la varianza es var(Lb)=21.23, que es bastante menor. Para aadirestas proyecciones al grfico anterior, escribimos:

    Ya = La*c; Yb = Lb*d;hold onplot(Ya(:,1),Ya(:,2),^b)plot(Yb(:,1),Yb(:,2),*r)

    Las proyecciones sobre a y b aparecen representadas en la Figura 2.6 con tringulos y es-trellas, respectivamente. En las tcnicas de anlisis multivariante que se exponen a partir delCaptulo 4 es importante tener en cuenta las consecuencias de elegir distintas direcciones sobrelas que proyectar los datos.

  • ESTADSTICOS DESCRIPTIVOS 35

    15 10 5 0 5 10 15 2015

    10

    5

    0

    5

    10

    15

    20

    y1

    y 2

    a

    b

    Figura 2.6.Proyeccin ortogonal de observaciones (Problema 2.9)

  • CAPTULO3Distribuciones multivariantes

    En este captulo se presentan diversos conceptos y herramientas estadsticas tiles paradescribir la distribucin de un vector aleatorio: vector de medias, matriz de covarian-zas, funcin de densidad, . . . A lo largo del tema se hace hincapi en las distintaspropiedades de los momentos de un vector aleatorio (por ejemplo, bajo transformacio-nes lineales del mismo).Tambin se trabaja con la distribucin ms importante en el contexto multivariante, ladistribucin normal. Con diversos ejercicios se repasan las propiedades que caracte-rizan esta distribucin, entre otras que es el lmite al que converge la media muestral(Teorema Central del Lmite). Por ltimo, se consideran algunas otras distribucio-nes, como la T 2 de Hotelling , la ley de Wishart o la Lambda de Wilks, que resultanesenciales a la hora de hacer inferencia sobre datos multivariados.

    PROBLEMA 3.1Sea X un vector aleatorio p-dimensional de media y matriz de varianzas-covarian-zas I (la matriz identidad de dimensin p p). Dada una matriz cuadrada de ordenp, A, considrese la nueva variable Y = XAX y demustrese que

    E(Y ) = tr(A) + A .

    SOLUCINSi denotamos por X = (X1, X2, . . . , Xp) y A = (aij)1i,jp, entonces

    Y = XAX =p

    i,j=1

    aij Xi Xj.

  • 38 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    Por tanto,

    E(Y ) =p

    i,j=1

    aij E(XiXj) =p

    i=1

    aii E(X2i ) +p

    i, j = 1i = j

    aij E(XiXj).

    Puesto que la matriz de covarianzas de X es la identidad, tenemos que E(X2i ) = 1+2i , parai = 1, . . . , p, y tambin que E(XiXj) = E(Xi) E(Xj) = i j , para todo i = j. Entonces

    E(Y ) =p

    i=1

    aii(1 + 2i ) +

    pi, j = 1i = j

    aijij

    =

    pi=1

    aii +

    pi,j=1

    aijij = tr(A) + A.

    PROBLEMA 3.2

    Supongamos que X1, X2, X3 son v.a. independientes con varianza unidad. SeanY1 = X1 + X2 + X3, Y2 = X1 X2 e Y3 = X1 X3. Calclense las matrices devarianzas-covarianzas y de correlaciones de Y = (Y1, Y2, Y3).

    SOLUCIN

    La matriz de covarianzas de X es Var(X) = I, la matriz identidad de dimensin 3 3. Puestoque Y = AX, siendo

    A =

    1 1 11 1 01 0 1

    ,la matriz de varianzas-covarianzas de Y es

    Var(Y) = AA =

    3 0 00 2 10 1 2

    y la matriz de correlaciones es

    Corr(Y) =

    1 0 0

    0 11

    2

    01

    21

    .

  • DISTRIBUCIONES MULTIVARIANTES 39

    PROBLEMA 3.3

    Sea X = (X1,X2,X3) un vector aleatorio tridimensional. Se sabe que el vectorY = (Y1, Y2, Y3)

    ha sido generado del siguiente modo: Y = BX, donde

    B =

    1 0 11 1 10 1 1

    es una matriz no singular. Se sabe tambin que E(Y) = (2, 1, 0) y que la matriz decovarianzas de Y es

    Var(Y) =

    5 1 01 2 10 1 2

    .(a) Hllese la covarianza entre Z1 = Y2 Y1 y Z2 = Y1 + Y3.(b) Calclense = E(X) y = Var(X), la matriz de covarianzas de X.(c) Si se define Y = B (X ) cul sera E(Y)? Cmo es la frmula para

    hallar ahora Var(Y) a partir de y ? Depende de ?

    SOLUCIN

    (a)Cov(Z1, Z2) = (1, 1, 0) Var(Y) (1, 0, 1) = 7 .

    (b) Sabemos que Y = BX, por lo que tendremos que X = B1Y. Por tanto,

    = B1 E(Y) =1

    3

    2 1 11 1 21 1 1

    210

    = 11

    1

    ,

    = B1 Var(Y)(B1) = 13

    10 4 14 3 01 0 3

    .(c) Si ahora tenemos Y = B (X ), esto implica que

    E(Y) = B( ) = 0 y Var(Y) = B Var(X)B ,

    es decir, la varianza no se ve afectada por traslaciones.

  • 40 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    PROBLEMA 3.4

    Sea X un vector con distribucin uniforme en el rectngulo [0, 2] [3, 4].(a) Especifquese la funcin de densidad de X. Calclense E(X) y Var(X).(b) Sea X1, . . . ,X30 una muestra aleatoria simple de X y X =

    30i=1Xi/30 la

    media muestral correspondiente. Calclense E(X) y Var(X).

    (c) Genrese con Matlab una realizacin de la muestra del apartado anterior. Cal-clense la media x y la matriz de covarianzas muestrales S. Dibjese en ungrfico de dispersin la muestra y mrquense los puntos E(X) y x.

    (d) Genrense con Matlab 40 muestras de tamao 5, calclense sus correspon-dientes medias muestrales y dibjense stas en un grfico en el que se marquetambin E(X). Reptase este proceso en grficos distintos para 40 muestras detamao 20 y otras 40 de tamao 50. Qu se observa?

    SOLUCIN

    (a) La densidad es

    f(x1, x2) =

    {1/2, si x [0, 2] [3, 4],0, en otro caso.

    El vector de esperanzas de X es E(X) = (E(X1), E(X2)), donde

    E(Xi) =

    xi fi(xi) dxi ,

    para i = 1, 2, siendo fi la funcin de densidad marginal de la variable aleatoria Xi. Puesto queX1 y X2 son v.a. independientes entre s y con ley uniforme en los intervalos [0, 2] y [3, 4],respectivamente, E(X) = (1, 3.5), que es el punto central del rectngulo y Cov(X1, X2) = 0.Por otro lado, Var(Xi) = E(X2i ) E(Xi)2, luego

    Var(X) (

    0.33 00 8.83

    ).

    (b) E(X) = E(X) y Var(X) = Var(X)/30.(c) El siguiente cdigo resuelve este apartado y genera la Figura 3.1.

    n = 30 ; p = 2 ;X = rand(n,p) ; % Muestra de una Unif[0,1]*[0,1]X = [2*X(:,1),3+X(:,2)] ; % Muestra de Unif[0,2]*[3,4]m = mean(X) ; % Media muestralS = cov(X,1) ; % Matriz de varianzas-covarianzas muestrales

  • DISTRIBUCIONES MULTIVARIANTES 41

    plot(X(:,1),X(:,2),o,MarkerFaceColor,k,...MarkerEdgeColor,k)

    axis([0 2 3 4])hold onplot(m(1),m(2),k*,MarkerSize,8)hold onplot(1,3.5,ko,MarkerSize,8)

    0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 23

    3.1

    3.2

    3.3

    3.4

    3.5

    3.6

    3.7

    3.8

    3.9

    4

    E(X)

    x

    Figura 3.1.Diagrama de dispersin de muestra uniforme en [0, 2] [3, 4] (Problema 3.4)

    (d) Se observa que, a mayor tamao muestral, menor dispersin de la media muestral y mejorestima sta la esperanza de X. Una propuesta de cdigo es la que sigue, pero retamos al lectora sustituir los bucles for por operaciones matriciales (esto reduce el tiempo de ejecucin).Los grficos resultantes se pueden ver en la Figura 3.2.

    N = 40 ; % Numero de muestrasVector_n = [5,20,50];for i = 1:length(Vector_n)

    n = Vector_n(i); % Tamanio muestralMatrizMedias = zeros(N,2) ;for num =1:N

    X = [2*rand(n,1),3+rand(n,1)] ;MatrizMedias(num,:) = mean(X) ;

    endfigure(i+1)plot(MatrizMedias(:,1),MatrizMedias(:,2),o,...

    MarkerFaceColor,k,MarkerEdgeColor,k)axis([0 2 3 4])title([40 medias muestrales con tamanio muestral ,...

    num2str(n)])hold onplot(1,3.5,ko,MarkerSize,8)hold off

    end

  • 42 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    0 0.5 1 1.5 23

    3.1

    3.2

    3.3

    3.4

    3.5

    3.6

    3.7

    3.8

    3.9

    4

    0 0.5 1 1.5 23

    3.1

    3.2

    3.3

    3.4

    3.5

    3.6

    3.7

    3.8

    3.9

    4

    0 0.5 1 1.5 23

    3.1

    3.2

    3.3

    3.4

    3.5

    3.6

    3.7

    3.8

    3.9

    4

    (a) (b) (c)

    Figura 3.2.Medias muestrales con tamao muestral (a) 5, (b) 20, (c) 50 (Problema 3.4)

    PROBLEMA 3.5

    Sea X un vector aleatorio de distribucin normal con media = (1, 1, 0) y matrizde covarianzas

    =

    1 0 10 3 11 1 2

    (a) Hllese la distribucin de X1 + 2X2 3X3.

    (b) Hllese un vector a(21), tal que las variables X1 y X1 a(

    X2X3

    )sean

    independientes.

    (c) Calclese la distribucin de X3 condicionada a X1 = x1 y X2 = x2.

    SOLUCIN

    (a) Se verifica que Y = X1 + 2X2 3X3 = bX con b = (1, 2,3). Por tanto,Y N(b,bb) = N(1, 13).

    (b) Por la hiptesis de normalidad X1 y X1 a(

    X2X3

    )son independientes si y slo si

    Cov(X1, X1 a

    (X2X3

    ))= 0.

    Por tanto, debemos hallar a = (a1, a2) tal que se verifique esta ltima condicin. Puesto que

    Cov(X1, X1 a

    (X2X3

    ))= (1, 0, 0) (1,a1,a2) = 1 a2,

    deducimos que a2 = 1. Por ejemplo, podemos tomar a = (0, 1).

  • DISTRIBUCIONES MULTIVARIANTES 43

    (c) La variable X3|X1 = x1, X2 = x2 sigue una distribucin N(c,c), donde

    c = 3 + Cov(X3,

    (X1X2

    ))(Var(X1, X2))1

    ((x1x2

    )(12

    ))= 3 + (Cov(X3, X1), Cov(X3, X2)) (Var(X1, X2))1

    (x1 1x2 2

    )= 0 + (1, 1)

    1

    3

    (3 00 1

    )(x1 + 1x2 1

    )=

    1

    3(3x1 + x2 + 2) ,

    c = Var(X3) Cov(X3,

    (X1X2

    ))(Var(X1, X2))1 Cov

    (X3,

    (X1X2

    ))= 2 (1, 1) 1

    3

    (3 00 1

    )(1, 1) =

    2

    3.

    PROBLEMA 3.6Sean X1, X2 y X3 tres variables aleatorias con distribucin conjunta normal convector de medias = (0, 0, 0) y matriz de varianzas-covarianzas

    =

    1 0 00 2 10 1 2

    .Calclese la distribucin conjunta de

    (a) Y1 = X1 + X3 e Y2 = X2 + X3,

    (b) Z1 = 3X1 2X2, Z2 = 2X1 X2 + X3 y Z3 = 3X3.

    SOLUCIN

    (a) Sean X = (X1, X2, X3) y A la transformacin lineal siguiente:

    A =

    (1 0 10 1 1

    ).

    Entonces Y = (Y1, Y2) = AX, es una combinacin lineal de X y, por tanto, tiene unadistribucin normal de parmetros E(Y) = A = (0, 0) y

    Var(Y) = AA =(

    3 11 2

    ).

  • 44 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    (b) Consideremos ahora la transformacin lineal dada por la matriz

    B =

    3 2 02 1 10 0 3

    y observemos que Z = (Z1, Z2, Z3) = BX. Por tanto, Z sigue una distribucin normal demedia E(Z) = 0 y

    Var(Z) = BB =

    17 12 612 10 96 9 18

    .

    PROBLEMA 3.7

    Sea X = (X1,X2,X3) un vector aleatorio tridimensional que sigue una distribucinnormal con media = (1, 0,2) y matriz de varianzas-covarianzas

    =

    2 1 01 4 10 1 6

    .(a) Escrbase la forma cuadrtica Q(x1, x2, x3) del exponente de la densidad del

    vector aleatorio X.

    (b) Escrbase la matriz de covarianzas cruzadas entre(

    X1X3

    )y X2.

    (c) Encuntrese la correlacin entre X1 y X3 condicionadas por X2 = x2.(d) Hllese var(X1|X2 = x2) y comprese con var(X1).

    SOLUCIN

    (a) Sea x = (x1, x2, x3) un vector de R3. Puesto que

    1 =1

    40

    23 6 16 12 21 2 7

    ,entonces

    Q(x) = 12(x )1(x ) =

    = 180

    (x1 1, x2, x3 + 2) 23 6 16 12 21 2 7

    x1 1x2x3 + 2

    .

  • DISTRIBUCIONES MULTIVARIANTES 45

    (b)Cov

    ((X1X3

    ), X2

    )=

    (Cov(X1, X2)Cov(X3, X2)

    )=

    ( 11

    ).

    (c) La distribucin de (X1, X3) condicionada por X2 = x2 es una normal bivariante conmatriz de covarianzas

    c =

    (2 00 6

    )( 1

    1

    )1

    4(1, 1) = 1

    4

    (7 11 23

    ).

    Por tanto, la correlacin entre X1 y X3 condicionadas por X2 = x2 es

    corr(X1, X3|X2 = x2) = 1/47/4 23/4 =

    17 23 0.079.

    (d) A partir de los clculos realizados en el apartado (c), vemos que

    var(X1|X2 = x2) = 7/4 ,

    que es menor que var(X1) = 2. Esto es razonable puesto que, al condicionar a X2 = x2, te-nemos mayor informacin acerca de X1 y su variabilidad disminuye respecto a la distribucinsin condicionar.

    PROBLEMA 3.8

    Sean X1, X2, X3 y X4 vectores aleatorios independientes con distribucin N2(,),donde = (1, 2) y

    =

    (1 0.1

    0.1 2

    ).

    (a) Hllese la distribucin del vector aleatorio

    Y =1

    4X1 1

    4X2 +

    1

    4X3 1

    4X4.

    (b) Escrbase y dibjese (con Matlab) la densidad del vector Y dado en (a).(c) Calclese la correlacin correspondiente a la matriz de covarianzas . Cm-

    biese el valor de y vulvase a dibujar la densidad de Y. Qu cambios seobservan?

  • 46 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    SOLUCIN

    (a) El vector Y sigue una distribucin normal bivariante de media

    E(Y) =(

    1

    4 1

    4+

    1

    4 1

    4

    ) = 0

    y matriz de covarianzas

    Y =

    ((1

    4

    )2+

    (1

    4

    )2+

    (1

    4

    )2+

    (1

    4

    )2) =

    1

    4.

    (b) Como E(Y) = 0 la funcin de densidad de Y = (Y1, Y2) tiene la expresin

    f(y) =1

    2|Y|1/2exp

    (1

    2(y1, y2)

    1Y

    (y1y2

    )).

    Para dibujar la funcin f (vase la Figura 3.3.a) escribimos:mu = [ 1 ; 2 ] ;Sigma = [ 1 0.1 ; 0.1 2 ] ;c = [ 1/4 , -1/4 , 1/4 , -1/4 ] ;mY = sum(c) * mu ;SY = sum(c.^2) *Sigma ;

    y1 = [-2:0.1:2] ; y2 = [-2:0.1:2] ;[Y1,Y2] = meshgrid(y1,y2) ;[m,n] = size(Y1) ; f = zeros(m,n) ;for i = 1:m

    for j=1:ny = [ Y1(i,j) ; Y2(i,j) ] ;f(i,j) = exp(-0.5*(y-mY)*inv(SY)*(y-mY))/...

    (2*pi*sqrt(det(SY)));end

    endmesh(Y1,Y2,f)view(-57,40)xlabel(y_1)ylabel(y_2)

    (c) La correlacin que nos piden es = 0.1/2 0.071. Si cambiamos su valor a, porejemplo, = 0.8 sin alterar las varianzas de , la matriz pasa a ser

    =

    (1

    2

    2 2

    ).

    Esta matriz la introduciremos mediante el cdigorho = 0.8;NewSigma = zeros(size(Sigma)) ; NewSigma(2,2) = Sigma(2,2) ;NewSigma(1,1) = Sigma(1,1) ;NewSigma(1,2) = sqrt(Sigma(1,1)*Sigma(2,2))*rho ;NewSigma(2,1) = NewSigma(1,2) ;

  • DISTRIBUCIONES MULTIVARIANTES 47

    y el resto se hace de manera anloga al apartado (b). En la Figura 3.3.b se encuentra la re-presentacin grfica de esta nueva densidad del vector Y. Observad cmo vara su forma enfuncin de .

    2

    1

    0

    1

    2

    21

    01

    20

    0.1

    0.2

    0.3

    0.4

    0.5

    y1y22

    1

    0

    1

    2

    21

    01

    20

    0.2

    0.4

    0.6

    0.8

    y1y2

    (a) (b)

    Figura 3.3.Densidad de un vector normal para (a) = 0.071 y (b) = 0.8. (Problema 3.8)

    PROBLEMA 3.9Consideremos la muestra

    X =

    2 6 3

    4 8 72 9 77 8 2

    de una poblacin N3(,) con y desconocidos.

    (a) Calclese el estimador de mxima verosimilitud de .(b) Calclese un estimador insesgado de .(c) Calclese la matriz de varianzas-covarianzas muestrales.

    SOLUCIN

    (a) El estimador de mxima verosimilitud de es la media muestral x = (2.75, 7.75, 3.25).(b) Si denotamos por H la matriz de centrado, un estimador insesgado de es

    S =1

    n 1XHX =

    14.2 2.9 8.82.9 1.6 5.48.8 5.4 22.9

    .

  • 48 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    (c) La matriz de varianzas-covarianzas muestrales es

    S =1

    nXHX =

    10.7 2.2 6.62.2 1.2 4.16.6 4.1 17.2

    .

    PROBLEMA 3.10

    Sea X1, . . . ,X80 una muestra de una poblacin con media y matriz de covarian-zas .

    (a) Cul es la distribucin aproximada de

    X =80i=1

    Xi/80 ?

    (b) Tmense N = 200 muestras de tamao n = 80 de un vector X = (X1,X2)con distribucin uniforme en el cuadrado [0, 1] [0, 1]. Calclense las mediasx1, . . . , xN de estas muestras y dibjese el histograma correspondiente a lasmedias, comprobando si se asemeja a una densidad normal.

    SOLUCIN

    (a) Por el Teorema Central del Lmite el vector X sigue aproximadamente una distribucinnormal de media y matriz de covarianzas /75.

    (b) El siguiente cdigo dibuja el histograma pedido.

    N = 200 ;n = 80 ;MatrizMedias = zeros(N,2) ;for i = 1:N

    muestra = rand(n,2) ;MatrizMedias(i,:) = mean(muestra) ;

    endhist3(MatrizMedias) ;

    Probablemente el histograma obtenido no se parezca excesivamente a una densidad normalsalvo en la aparente unimodalidad y simetra (vase la Figura 3.4). Por ello es interesantetomar valores de N y n bastante mayores para comprobar la convergencia a la normal.

  • DISTRIBUCIONES MULTIVARIANTES 49

    Figura 3.4.Histograma de medias de una uniforme (Problema 3.10)

    PROBLEMA 3.11Sean X1, X2 y X3 los niveles de solvencia de tres bancos espaoles. Supongamos quela distribucin conjunta de los tres niveles es N3(,) con = (0.7, 0.8, 0.9) y

    =

    2 1 01 2 00 0 1

    .Consideremos un nivel de solvencia medio para los tres bancos que se obtiene me-diante el promedio W = (X1 + X2 + X3)/3.

    (a) Calclese la distribucin del nivel de solvencia medio W .

    (b) Encuntrese la distribucin de (X1,X2) condicionada a que W vale 1.

    (c) Son X2 y W independientes?

    SOLUCIN

    (a) Dado que W = 13 (1, 1, 1)(X1, X2, X3), se tiene que W sigue una normal de media13 (1, 1, 1) = 0.8 y varianza

    132 (1, 1, 1)(1, 1, 1)

    = 13 .

  • 50 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    (b) Observemos que(X1, X2,W )

    = A(X1, X2, X3),

    donde

    A =

    1 0 00 1 013

    13

    13

    .es una combinacin lineal de (X1, X2, X3). Por tanto, (X1, X2,W ) sigue una distribucin

    N3(A,AA),

    con

    A = (0.7, 0.8, 0.8)

    y

    AA =

    2 1 131 2 1313

    13

    13

    .La distribucin de (X1, X2)|W = 1 es N2(c,c), con c = (0.9, 1) y

    c =1

    3

    (5 4

    4 5)

    .

    (c) A partir de la expresin obtenida en el apartado (b) para la matriz de covarianzas delvector (X1, X2,W ), se tiene que

    Cov(X2,W ) = 1/3 = 0 ,

    es decir, X2 y W no son independientes.

    PROBLEMA 3.12Razona si, en tu opinin, los datos que aparecen representados en el diagrama dedispersin mltiple de la Figura 3.5 pueden provenir de una distribucin normal mul-tivariante.

    SOLUCINUna propiedad de la normal multivariante es que sus marginales univariantes son tambinnormales. Si la muestra representada en el grfico proviniera de una poblacin normal, loshistogramas de las marginales univariantes deberan exhibir propiedades (como la simetra)propias de una normal y esto no sucede para ninguna de las cinco variables representadas.

  • DISTRIBUCIONES MULTIVARIANTES 51

    60 80 100

    0

    50

    100

    Figura 3.5.Diagrama de dispersin mltiple (Problema 3.12)

    PROBLEMA 3.13Con algunos programas de ordenador slo se pueden generar muestras normales uni-variantes. Supongamos, sin embargo, que deseamos generar una muestra de un vectorbidimensional Y = (Y1, Y2) con distribucin N2(,), donde

    = (1, 2),

    =

    (11

    1122

    1122 22

    )y denota la correlacin entre Y1 e Y2. Entonces podemos recurrir al procedimientoque explicamos a continuacin.

  • 52 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    (a) Con la orden randn de Matlab, que slo genera observaciones normales uni-variantes e independientes entre s, y para un tamao muestral n a elegir, gen-rese una muestra

    x11 x12x21 x22

    .

    .

    .

    .

    .

    .

    xn1 xn2

    (3.1)de un vector X = (X1,X2) con distribucin N2(0, I).

    (b) Ahora consideremos las siguientes transformaciones lineales de X

    Y1 = 1 +11X1 (3.2)

    Y2 = 2 +22(X1 +

    1 2X2).

    Demustrese que Y = (Y1, Y2) sigue una distribucin N2(,).

    (c) Eljanse unos valores concretos para , 11, 22 y . Utilizando la combinacinlineal (3.2), genrese con Matlab una muestra de Y a partir de la muestra (3.1)obtenida en (a).

    SOLUCIN

    (a) Puesto que las dos componentes de X son independientes generamos sendas muestrasindependientes entre s y de tamao n de la normal estndar:

    n = 100 ;X = randn(n,2) ;

    (b) Observemos queY = + AX ,

    siendoA =

    [ 11 022

    22

    1 2].

    Por tanto, como X sigue una distribucin normal, el vector Y tambin. Adems

    E(Y) = + AE(X) =

    yVar(Y) = Var(AX) = AA = .

  • DISTRIBUCIONES MULTIVARIANTES 53

    (c)mu = [ 2 ; 1 ] ;sigma_11 = 1 ; sigma_22 = 1.5 ;rho = 0.6 ;A = [sqrt(sigma_11) 0

    sqrt(sigma_22)*rho sqrt(sigma_22)*sqrt(1-rho^2) ] ;Y = ones(n,1) * mu + X*A ;

    PROBLEMA 3.14Siguiendo el esquema del Problema 3.13, generaremos muestras de una normal tridi-mensional. Para ello eljase un tamao muestral n y genrese una muestra

    x11 x12 x13x21 x22 x23

    .

    .

    .

    .

    .

    .

    .

    .

    .

    xn1 xn2 xn3

    (3.3)de X N3(0, I). A continuacin fijemos la matriz de correlaciones

    =

    1 0.9 0.70.9 1 0.80.7 0.8 1

    .Decdase cul es la combinacin lineal Y = AX de X tal que = Var(Y). A partirde esta matriz A y de la muestra (3.3) generada, calclense los valores observadosde Y. Calclese la matriz de correlaciones muestral de Y, R, y verifquese si estprxima o no a la poblacional .

    Indicacin: Utilcese la descomposicin espectral de la matriz de correlaciones, = BDB.

    SOLUCIN

    Observemos que basta tomar A = BD1/2. El cdigo que nos piden es

    n = 10000 ;X = randn(n,3) ;rho = [ 1 0.9 0.7 ; 0.9 1 0.8 ; 0.7 0.8 1 ] ;[B,D] = eig(rho) ;A = B * sqrt(D) ;Y = X * A ;R = corrcoef(Y) ;

  • 54 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    PROBLEMA 3.15Sea un vector p 1 y una matriz p p simtrica y definida positiva. Fjese unvalor de p y genrense muestras de tamao n de una normal Np(,) para distintosvalores de n. Para cada muestra obtnganse el vector de medias muestrales, x, y lamatriz de covarianzas muestrales, S, y comprubese que a medida que aumenta n, losvalores de x y S se van acercando a y , respectivamente.

    Indicacin:El vector X = (X1,X2, . . . ,Xp) tiene ley normal p-variante si existen p variablesaleatorias independientes con ley N(0, 1), Y1, Y2, . . . , Yp, tales que

    X = + AY, (3.4)

    donde Y = (Y1, Y2, . . . , Yp), = (1,2, . . . ,p) y A es una matriz pp. Si las pcolumnas de A no son linealmente independientes, alguna de las Xi puede expresarsecomo combinacin lineal de las otras; en caso contrario, se trata de una distribucinp-variante no singular.Si el vector X verifica (3.4), entonces

    E(X) = , Var(X) = AA,

    y se dice que X Np(,), donde = AA es definida positiva si A es regular.Por ejemplo, A puede ser la matriz de Cholesky de (ver Pea 2002), que calculamosen Matlab con la orden A = chol(Sigma).

    SOLUCINUna posible solucin del problema consiste en construir una funcin Matlab que calcule elvector de medias y la matriz de covarianzas para una muestra de tamao n generada siguiendola indicacin anterior. Para poder llamar a la funcin dentro de Matlab, sta debe guardarse enun fichero con el mismo nombre de la funcin y extensin m, en este caso, nmult.m.

    % funcion [m,S]=nmult(mu,A,n)%% entradas: mu es el vector px1 de medias poblacionales,% A es una matriz cuadrada pxp, de manera que la% matriz de covarianzas poblacionales es Sigma=AA,% n es el tamanio muestral,%% salidas: m es el vector de medias muestrales,% S es la matriz de covarianzas muestrales.%function [m,S] = nmult(mu,A,n)% generacion de una muestra p-variante N(0,Id)[p,p] = size(A);Y = randn(n,p);

  • DISTRIBUCIONES MULTIVARIANTES 55

    % generacion de una muestra p-variante N(mu,AA)u = ones(n,1);X = u*mu+Y*A;% vector de medias y matriz de covarianzasm = mean(X);S = cov(X,1);

    Dentro de Matlab, y por ejemplo para = (2, 3, 4), n = 500, 1000, 5000 y

    A =

    1 1 11 1 00 1 1

    haremos:

    mu = [2 3 4];A = [1 -1 1; -1 1 0; 0 1 -1];[m_500,S_500] = nmult(mu,A,500)[m_1000,S_1000] = nmult(mu,A,1000)[m_5000,S_5000] = nmult(mu,A,5000)

    y compararemos m_500, m_1000, m_50000 con y S_500, S_1000, S_5000 con = AA, respectivamente.

    PROBLEMA 3.16Una distribucin muy relacionada con la ley normal multivariante, y que es el anlogomultivariante de la ley 2, es la distribucin Wishart. Dados X1, . . . ,Xn vectoresaleatorios i.i.d. Np(0,), la matriz p p

    Q =n

    i=1

    Xi Xi Wp(, n)

    sigue una ley Wishart con parmetro de escala y n grados de libertad.Dadas las variables aleatorias Z Np(0, I) y Q Wp(I, n) estocsticamente inde-pendientes, la variable aleatoria

    T 2 = nZQ1Z T 2(p, n)sigue una ley T 2 de Hotelling con p y n grados de libertad. Si p = 1, entoncesT 2(1, n) es el cuadrado de una variable aleatoria con ley t de Student y n grados delibertad. En general, T 2(p, n) es proporcional a una F de Fisher

    n p + 1n p

    T 2(p, n) = F (p, n p + 1). (3.5)

    La variable T 2 se utiliza de manera anloga a la ley t de Student, en contrastes sobremedias multivariantes.Para p y n fijos, genrese una muestra de tamao N de una ley T 2(p, n) de Hote-lling. Represntense los resultados mediante un histograma.

  • 56 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    SOLUCINSea X1,X2, . . . ,Xn una muestra de vectores i.i.d. con distribucin Np(0, I). Puesto que

    x Np(0,

    1

    nI

    )y

    nS Wp(I, n 1),tenemos que

    (n 1)x S1 x T 2(p, n 1).Podemos construir una funcin Matlab que genere muestras de tamao N de una ley T 2(p, n) dela siguiente manera:

    % funcion randT2%% Esta funcion genera una muestra de tamanio N de una ley% T^2 de Hotelling con p y n grados de libertad.%

    function t=randT2(p,n,N)%

    n = n+1;for i = 1:N

    X = randn(n,p);m = mean(X);S = cov(X,1);t(i,1) = (n-1)*m*inv(S)*m;

    end% numero de intervalos en el histograma

    if N

  • DISTRIBUCIONES MULTIVARIANTES 57

    5 0 5 10 15 200

    20

    40

    60

    80

    100

    120

    Figura 3.6.Histograma de una T 2(4, 100) para tamao muestral N = 1000 (Problema 3.16)

    PROBLEMA 3.17

    Si A Wp(, a) y B Wp(, b) son independientes, es regular y a p, lavariable aleatoria

    =|A|

    |A + B|tiene una ley Lambda de Wilks , (p, a, b), con parmetros p, a y b.La ley no depende del parmetro de A y B, por lo que es suficiente considerarlapara = I. Tiene la misma distribucin que un producto de b v.a. independientes condistribucin Beta, es decir, si L (p, a, b) entonces

    L =b

    i=1

    ui, donde ui Beta(

    a + i p2

    ,p

    2

    ).

    Genrese una muestra de tamao N de una ley de Wilks. Represntense los resulta-dos mediante un histograma.

    SOLUCINSean

    X1,X2, . . . ,XnX Np(X , I)e

    Y1,Y2, . . . ,YnY Np(Y , I)dos muestras independientes de vectores aleatorios i.i.d. Puesto que

    A = nX SX Wp(I, nX 1)

  • 58 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    yB = nY SY Wp(I, nY 1)

    entonces

    =|A|

    |A + B| (p, nX 1, nY 1) .

    Podemos construir una funcin Matlab que genere muestras de tamao N de una ley (p, a, b),de la siguiente manera

    % funcion randWilks%% Esta funcion genera una muestra de tamanio N de una ley% Lambda de Wilks con parametros p, a, b. (Atencion: a>=p).%

    function L = randWilks(p,a,b,N)nx = a+1; ny = b+1;

    % los vectores de medias se generan a partir de uniformes, pero% tambien podrian introducirse como argumentos de la funcion.

    mux = rand(1,p); muy = 10*rand(1,p);ux = ones(nx,1); uy = ones(ny,1);

    %for i = 1:N

    % generacion de la primera muestra de normalesZx = randn(nx,p);X = ux*mux+Zx;A = nx*cov(X,1);

    % generacion de la segunda muestra de normalesZy = randn(ny,p);Y = uy*muy+Zy;B = ny*cov(Y,1);

    % obtencion de la Lambda de WilksL(i,1) = det(A)/det(A+B);

    end% numero de intervalos en el histograma

    if N

  • DISTRIBUCIONES MULTIVARIANTES 59

    0.02 0 0.02 0.04 0.06 0.08 0.1 0.12 0.140

    20

    40

    60

    80

    100

    120

    Figura 3.7.Histograma de una (4, 19, 24) para tamao muestral N = 1000 (Problema 3.17)

    PROBLEMA 3.18La Tabla 3.1 contiene las medidas de 5 variables biomtricas sobre gorriones hembra,recogidos casi moribundos despus de una tormenta. Los primeros 21 sobrevivieronmientras que los 28 restantes no lo consiguieron. Las variables son X1 = longitudtotal, X2 = extensin del ala, X3 = longitud del pico y de la cabeza, X4 = longituddel hmero y X5 = longitud del esternn.Realcense comparaciones de medias y de covarianzas entre el grupo de supervivien-tes y el de no supervivientes.

    Tabla 3.1.Medidas biomtricas sobre gorriones (Problema 3.18)

    Supervivientes No supervivientesX1 X2 X3 X4 X5 X1 X2 X3 X4 X5156 245 31.6 18.5 20.5 155 240 31.4 18.0 20.7154 240 30.4 17.9 19.6 156 240 31.5 18.2 20.6153 240 31.0 18.4 20.6 160 242 32.6 18.8 21.7153 236 30.9 17.7 20.2 152 232 30.3 17.2 19.8155 243 31.5 18.6 20.3 160 250 31.7 18.8 22.5163 247 32.0 19.0 20.9 155 237 31.0 18.5 20.0157 238 30.9 18.4 20.2 157 245 32.2 19.5 21.4155 239 32.8 18.6 21.2 165 245 33.1 19.8 22.7164 248 32.7 19.1 21.1 153 231 30.1 17.3 19.8158 238 31.0 18.8 22.0 162 239 30.3 18.0 23.1158 240 31.3 18.6 22.0 162 243 31.6 18.8 21.3160 244 31.1 18.6 20.5 159 245 31.8 18.5 21.7161 246 32.3 19.3 21.8 159 247 30.9 18.1 19.0157 245 32.0 19.1 20.0 155 243 30.9 18.5 21.3157 235 31.5 18.1 19.8 162 252 31.9 19.1 22.2156 237 30.9 18.0 20.3 152 230 30.4 17.3 18.6158 244 31.4 18.5 21.6 159 242 30.8 18.2 20.5153 238 30.5 18.2 20.9 155 238 31.2 17.9 19.3155 236 30.3 18.5 20.1 163 249 33.4 19.5 22.8163 246 32.5 18.6 21.9 163 242 31.0 18.1 20.7159 236 31.5 18.0 21.5 156 237 31.7 18.2 20.3

    159 238 31.5 18.4 20.3161 245 32.1 19.1 20.8155 235 30.7 17.7 19.6162 247 31.9 19.1 20.4153 237 30.6 18.6 20.4162 245 32.5 18.5 21.1164 248 32.3 18.8 20.9

  • 60 PROBLEMAS RESUELTOS DE ESTADSTICA MULTIVARIANTE

    SOLUCINLlamamos X e Y a las matrices de datos del grupo de supervivientes y del de no supervivien-tes, respectivamente. Mediante Matlab calculamos los vectores de medias y las matrices decovarianzas de cada grupo

    mx=mean(X); my=mean(Y); Sx=cov(X,1); Sy=cov(Y,1);

    y obtenemos:

    mx=[157.3810 241.0000 31.4333 18.5000 20.8095]

    Sx =[10.5215 8.6667 1.4825 0.8286 1.22498.6667 16.6667 1.8190 1.2476 0.83811.4825 1.8190 0.5060 0.1800 0.22830.8286 1.2476 0.1800 0.1676 0.12621.2249 0.8381 0.2283 0.1262 0.5475]

    my=[158.4286 241.5714 31.4786 18.4464 20.8393]

    Sy=[14.5306 16.5765 2.1628 1.6837 2.826016.5765 31.3878 3.2765 2.8449 3.92042.1628 3.2765 0.7024 0.4528 0.53911.6837 2.8449 0.4528 0.4189 0.48782.8260 3.9204 0.5391 0.4878 1.2738]

    Comparacin de covarianzas. Supondremos que X es una muestra aleatoria simple detamao nX de una ley normal multivariante X N5(X ,X) y que Y es otra muestraaleatoria simple independiente de la anterior y de tamao nY de una ley normal multivarianteY N5(Y ,Y ). Queremos contrastar la hiptesis de igualdad de covarianzas, es decir:

    H0 : X = Y = (3.6)Utilizaremos el contraste de la razn de verosimilitudes, cuyo estadstico es

    R =|SX |nX/2 |SY |nY /2

    |S|n/2 ,

    donde SX y SY son las matrices de covarianzas muestrales de cada grupo, n = nX + nY y Ses la matriz de covarianzas comn, que se obtiene mediante la siguiente ponderacin:

    S =nX SX + nY SY

    nX + nY.

    Bajo la hiptesis nula dada por (3.6), tenemos que2 log(R) 2q,

    dondeq = (g 1)p(p + 1)/2 ,

    g es el nmero de grupos y p es el nmero de variables.

  • DISTRIBUCIONES MULTIVARIANTES 61

    Para implementar este contraste mediante Matlab y teniendo en cuenta que

    2 log(R) = n log |S| (nX log |SX |+ nY log |SY |). (3.7)

    escribimos:

    nx = 21 ; ny = 28 ; n = nx+ny ;S = (nx*Sx+ny*Sy)/n ;logR = n*log(det(S)) - (nx*log(det(Sx))+ny*log(det(Sy)))percentil = chi2inv(0.95,15)p_valor = 1-chi2cdf(logR,15)

    El valor que obtenemos para el estadstico (3.7) es logR = 12.5322. Rechazaremos lahiptesis (3.6) si el valor de este estadstico pertenece a la regin crtica [x1,+), dondex1 es el percentil (1 ) 100% de una 215. Para un nivel de significacin = 0.05 la ins-truccin chi2inv(0.95,15) calcula este percentil. Tambin podemos calcular el p-valordel contraste mediante 1-chi2cdf(logR,15) y comparar este valor directamente con elnivel de significacin. En ambos casos, concluimos que no podemos rechazar la hiptesis (3.6),y por tanto, consideraremos que las matrices de covarianzas poblacionales son iguales.

    Comparacin de medias. Suponiendo igualdad de covarianzas, queremos contrastar lahiptesis

    H0 : X = Y . (3.8)Dos posibles formas de resolver este contraste son:

    (a) utilizando el estadstico basado en la distribucin T 2 de Hotelling o(b) utilizando el estadstico basado en la distribucin de Wilks.

    (a) Sean x e y los vectores de medias muestrales. El estadstico siguiente

    T 2 =nX nY

    nX + nY(x y)S1 (x y)

    tiene una ley T 2 de Hotelling T 2(p, nX + nY 2). La relacin (3.5) entre las leyes T 2 deHotelling y F de Fisher asegura que el estadstico

    F =nX + nY p 1(nX + nY 2) p T

    2

    sigue una distribucin F (p, nX + nY p 1). Si llamamos T2 y F a estos es