Multivariante Tema 5

16
Cap´ ıtulo 5 Distribuci´ on de los estimadores de axima verosimilitud del vector media y la matriz de covarianzas 5.1. Introducci´ on Una vez conocidos los estimadores m´ aximo veros´ ımiles de μ y Σ y, por tanto, los de cualquier funci´ on de dichos par´ ametros v´ ıa el teorema de Zehna, nos planteamos la distribuci´ on en el muestreo de dichos estimadores. El principal motivo para conocer las distribuciones de los estimadores est´ a en poder abordar la segunda parte de la inferencia acerca de la poblaci´ on: el contraste de hip´ otesis. Estos contrastes pueden ser de muy diversos tipos: Sobre el vector media: H 0 : μ = μ 0 H 1 : μ 6= μ 0 , H 0 : μ (1) =0 H 1 : μ (1) 6=0 , H 0 : Cμ = μ 0 H 1 : Cμ 6= μ 0 Sobre la matriz de covarianzas: H 0 :Σ=Σ 0 H 1 60 , H 0 :Σ= I p H 1 6= I p Sobre coeficientes de correlaci´ on: H 0 : ρ ij =0 H 1 : ρ ij 6=0 , H 0 : R 2 i|1,...q =0 H 1 : R 2 i|1,...q 6=0 ) asociados a los cuales aparecen unos estad´ ısticos de contraste que vienen expresados en t´ erminos de los esti- madores anteriores. En este tema seguiremos los siguientes pasos: Obtenci´ on de la distribuci´ on exacta de b μ = X en el caso normal. Obtenci´ on de la distribuci´ on asint´ otica de X en una poblaci´ on cualquiera. Obtenci´ on de la distribuci´ on asint´ otica de la matriz S en una poblaci´ on cualquiera. Obtenci´ on de la distribuci´ on exacta de b Σ= S en el caso normal (ley de Wishart). Independencia de X y S en el caso normal (Teorema de Fisher). 5.2. Distribuci´ on exacta del estimador m´ aximo veros´ ımil del vector de medias en el caso de una distribuci´on normal multivariante Sea X N p [μ; Σ] con Σ > 0 y sea X 1 ,..., X N una muestra aleatoria simple extra´ ıda de dicha poblaci´ on. La distribuci´ on de X es una consecuencia inmediata del siguiente resultado: 47

description

hjgajf

Transcript of Multivariante Tema 5

  • Captulo 5

    Distribucion de los estimadores demaxima verosimilitud del vector mediay la matriz de covarianzas

    5.1. Introduccion

    Una vez conocidos los estimadores maximo verosmiles de y y, por tanto, los de cualquier funcion dedichos parametros va el teorema de Zehna, nos planteamos la distribucion en el muestreo de dichos estimadores.

    El principal motivo para conocer las distribuciones de los estimadores esta en poder abordar la segundaparte de la inferencia acerca de la poblacion: el contraste de hipotesis. Estos contrastes pueden ser de muydiversos tipos:

    Sobre el vector media:H0 : = 0H1 : 6= 0

    },H0 : (1) = 0H1 : (1) 6= 0

    },H0 : C = 0H1 : C 6= 0

    }Sobre la matriz de covarianzas:

    H0 : = 0H1 : 6= 0

    },H0 : = IpH1 : 6= Ip

    }

    Sobre coeficientes de correlacion:H0 : ij = 0H1 : ij 6= 0

    },H0 : R

    2i|1,...q = 0

    H1 : R2i|1,...q 6= 0

    }asociados a los cuales aparecen unos estadsticos de contraste que vienen expresados en terminos de los esti-madores anteriores.

    En este tema seguiremos los siguientes pasos:

    Obtencion de la distribucion exacta de = X en el caso normal.

    Obtencion de la distribucion asintotica de X en una poblacion cualquiera.

    Obtencion de la distribucion asintotica de la matriz S en una poblacion cualquiera.

    Obtencion de la distribucion exacta de = S en el caso normal (ley de Wishart).

    Independencia de X y S en el caso normal (Teorema de Fisher).

    5.2. Distribucion exacta del estimador maximo verosmil del vectorde medias en el caso de una distribucion normal multivariante

    Sea X ; Np[; ] con > 0 y sea X1, . . . ,XN una muestra aleatoria simple extrada de dicha poblacion.La distribucion de X es una consecuencia inmediata del siguiente resultado:

    47

  • 48 Francisco de Ass Torres Ruiz

    Lema 5.2.1. Sean X1, . . . ,XN vectores aleatorios p-dimensionales independientes tales que Xj ; Np[j ; j ],j = 1, . . . , N . Si 1, . . . , N son escalares, entonces

    V =

    Nj=1

    jXj ; Np

    Nj=1

    jj ;

    Nj=1

    2jj

    Demostracion. Calculemos la funcion caracterstica de V.

    V(t) = E[eitV]

    = E

    expit N

    j=1

    jXj

    = Eexp

    Nj=1

    itjXj

    = Nj=1

    E [exp (itjXj)]

    =

    Nj=1

    Xj (jt) =

    Nj=1

    exp

    (itjj

    1

    22jtt

    )= exp

    it Nj=1

    jj 1

    2t

    Nj=1

    2jj

    t

    de donde se obtiene el resultado.

    Teorema 5.2.1. Sea X ; Np[; ] y sea X1, . . . ,XN una muestra aleatoria simple extrada de dicha poblacion.Entonces se verifica

    X ; Np

    [;

    N

    ]o, equivalentemente, N

    12

    (X

    ); Np [0; ]

    Demostracion. La demostracion es inmediata ya que X =1

    N

    Nj=1

    Xj =

    Nj=1

    XjN

    , por lo que estamos en condi-

    ciones de aplicar el lema anterior tomando i =1

    N, j = y j = , j = 1, . . . , N .

    5.3. Distribucion asintotica del vector de medias en el caso de unadistribucion multivariante cualquiera

    A continuacion vamos a prescindir de la hipotesis de normalidad considerada en el apartado anterior.No obstante, ese hecho hace que solo podamos obtener la distribucion aproximada, concretamente asintotica,para X. En la demostracion del resultado que vamos a obtener va a ser fundamental el uso del Teorema deContinuidad de Funciones Caractersticas. Por ello pasamos a recordarlo, junto con unas definiciones previas:

    Definicion 5.3.1. Sea {Fn} una sucesion de funciones de distribucion. Entonces

    {Fn} converge debilmente a la funcion de distribucion acotada F , y notaremos Fnd F si lm

    nFn(x) =

    F (x) para todo punto de continuidad de F .

    {Fn} converge completamente a la funcion de distribucion acotada F , y notaremos Fnc F si lo hace

    debilmente y ademas lmn

    Fn() = F ().

    Teorema 5.3.1. (de continuidad de funciones caractersticas). Sea {Fn} una sucesion de funciones de distri-bucion y n las correspondientes funciones caractersticas. Entonces

    Fnc F lm

    nn(t) = (t), t R

    con (t) continua en t = 0. Ademas, (t) es la funcion caracterstica de F .

    A continuacion exponemos el resultado que proporciona la distribucion planteada, resultado que no es masque un caso concreto del Teorema Central del Lmite para vectores aleatorios independientes e identicamentedistribuidos.

    Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.

  • Francisco de Ass Torres Ruiz 49

    Teorema 5.3.2. Sea {X}1 una sucesion de vectores aleatorios p-dimensionales independientes e identi-

    camente distribuidos con media y matriz de covarianzas . Para cada N 1 fijo sea XN =1

    N

    N=1

    X, y

    consideremos la sucesion {XN}, N 1. Entonces se verifica

    N(XN ) =

    1N

    N=1

    (X )d;

    NNp[0; ]

    Demostracion. Consideremos la sucesion de variables

    {YN = N

    12N=1

    (X )

    }N1

    y la de sus correspon-

    dientes funciones caractersticas {N}N1.

    La idea de la demostracion es comprobar que la sucesion de funciones caractersticas {N} converge ala funcion caracterstica de la ley normal Np[0; ] y por tanto, en virtud del teorema de continuidad defunciones caractersticas, se obtendra el resultado.

    La tecnica que vamos a usar sera la de pasar el problema al caso unidimensional.

    Sea t Rp y consideremos la sucesion de variables aleatorias unidimensionales {tYN}N1 y la de sus funcionescaractersticas {gN}N1. Ahora bien

    gN (, t) = E[ei(t

    YN )]

    = E

    [exp

    (iN

    12

    N=1

    (tX t)

    )], R, t Rp

    Observemos que las variables tX t son independientes e identicamente distribuidas con media cero yvarianza tt.

    Aplicando el Teorema Central del Lmite para el caso unidimensional1, la sucesion tYN converge a unanormal N1[0; t

    t] y as

    gN (, t) N

    exp

    (1

    22tt

    ), R, t Rp

    en particular, para = 1,

    gN (1, t) = E[eitYN

    ]= N (t)

    Nexp

    (1

    2tt

    ),

    que era lo que se pretenda.

    5.4. Distribucion asintotica del estimador maximo verosmil de lamatriz de covarianzas en una poblacion cualquiera

    Sea {X}1 una sucesion de vectores aleatorios p-dimensionales independientes e identicamente dis-

    tribuidos con media y matriz de covarianzas . Para N fijo consideremos XN =1

    N

    N=1

    X y AN =

    1Si {XN}N1 es una sucesion de variables aleatorias i.i.d. con varianza finita, y notamos por SN =Ni=1

    Xi, entonces

    SN E[SN ]V ar[SN ]

    n

    N1[0, 1]

    Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.

  • 50 Francisco de Ass Torres Ruiz

    N=1

    (X XN )(X XN ) =N=1

    (X )(X ) N(XN )(XN ). Nuestro interes radica aho-

    ra en saber el comportamiento de la sucesion {AN}N1, que es una sucesion de matrices aleatorias. Por lotanto se hace indispensable el empleo de la operacion Vec.

    Llamemos Z = (X )(X ), que adopta la forma

    Z =

    (X,1 1)2 (X,1 1)(X,2 2) (X,1 1)(X,p p)(X,1 1)(X,2 2) (X,2 2)2 (X,2 2)(X,p p)...

    .... . .

    ...(X,1 1)(X,p p) (X,2 2)(X,p p) (X,p p)2

    pp

    y por tanto

    Vec [Z] =

    (X,1 1)2(X,1 1)(X,2 2)

    ...(X,1 1)(X,p p)

    ...

    (X,1 1)(X,p p)(X,2 2)(X,p p)

    ...(X,p p)2

    p21

    verificandose E [Vec [Z]] = Vec[].Ademas, si llamamos V = Cov[Vec [Z]], esa matriz, de dimensiones p

    2 p2 contiene los momentos decuarto orden de las variables X ya que

    V = E[(Vec [Z]Vec[]) (Vec [Z]Vec[])

    ]Notemos que, como en Vec [Z] hay muchos elementos repetidos, ello conduce a que la matriz V tenga filasiguales, por lo que no puede ser definida positiva sino semidefinida.

    Para terminar con esta descripcion, en lo que sigue supondremos que todos los momentos de orden cuatroson finitos.

    Recordemos ahora algunos resultados previos que se van a utilizar con posterioridad:

    Resultado 5.4.1. Dada {X}1 una sucesion de vectores aleatorios independientes e identicamente distri-buidos con E[X] = y Cov[X] = , entonces

    1N

    N=1

    (X )d;

    NNp[0; ]

    Resultado 5.4.2. Si una sucesion de variables aleatorias independientes e identicamente distribuidas {YN}N1converge en distribucion a Y y si otra sucesion de variables independientes e identicamente distribuidas{ZN}N1 converge en probabilidad a cero, entonces

    {YN ZN}d

    NY

    Resultado 5.4.3. Si una sucesion de variables aleatorias independientes e identicamente distribuidas {XN}N1converge en distribucion a X y si otra sucesion de variables independientes e identicamente distribuidas

    {YN}N1 converge en probabilidad a c, entonces XNYNd

    NXc si c 6= 0 y XNYN P

    N0 si c = 0

    Estamos ya en condiciones de enunciar el resultado que proporciona el comportamiento de la sucesion{AN}N1.

    Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.

  • Francisco de Ass Torres Ruiz 51

    Teorema 5.4.1. Sean {X}1 vectores aleatorios independientes e identicamente distribuidos con E[X] =

    y Cov[X] = y con momentos de cuarto orden finitos. Sean, para cada N fijo, XN =1

    N

    N=1

    X y AN =

    N=1

    (X XN )(X XN ). Entonces

    N12 [AN N]

    d;

    NNp2 [0; V]

    en el sentido de que

    N12 [Vec[AN ]N Vec[]]

    d;

    NNp2 [0; V]

    con V = Cov [Vec[(X )(X )]], o sea, la matriz de momentos de cuarto orden de las variables X.

    Demostracion. Llamando Z = (X )(X ) y BN = (XN )(XN ), podemos escribir

    AN =

    N=1

    Z NBN

    Vectorizando la ultima expresion se tiene Vec[AN ] =

    N=1

    Vec[Z]N Vec[BN ] Sea ahora

    1N

    [Vec[AN ]N Vec[]] =1N

    [N=1

    [Vec[Z]Vec[]]

    ]N 12 Vec[BN ]

    Observemos que pretendemos conocer el comportamiento asintotico de {AN}N1 y lo hemos transformado enconocer el comportamiento de la expresion anterior. Estudiemos cada sumando por separado:

    1. Los vectores Vec[Z] constituyen una sucesion de vectores aleatorios i.i.d. con media Vec[] y matriz decovarianzas V. Entonces, por el resultado pimero se tiene

    1N

    [N=1

    [Vec[Z]Vec[]]

    ]d;

    NNp21[0; V]

    ley normal cuya matriz de covarianzas es semidefinida positiva.

    2. Antes de ver el segundo sumando, recordemos que se dice que una sucesion de matrices aleatorias convergeen probabilidad a un matriz si las sucesiones de elementos de las matrices convergen a cada elemento delmismo lugar de la matriz lmite, esto es, la convergencia es en probabilidad componente a componente.Ahora bien:

    N12 (XN ) =

    d;

    NNp[0; ]

    de donde, aplicando el resultado tercero se tieneN

    12 (XN )N

    14

    PN

    0p1 y con ello

    N12 Vec[B(N)] = N

    12 Vec

    [(XN )(XN )

    ]= Vec

    [N

    12 (XN )N

    14

    N12 (XN )

    N14

    ]P

    N0p21

    por lo que, aplicando el resultado segundo, se concluye el teorema. Como consecuencia tenemos el siguiente resultado

    Corolario 5.4.1. Si tomamos SN = (N 1)AN , entonces (N 1)12 (SN N)

    dN

    Np2 [0; V]

    Por ultimo, podemos comentar que, en general, el calculo de V es bastante complicado. No obstante lacuestion se simplifica bastante en el caso de las distribuciones elpticas y, en particular, en el caso de la ley normalya que en ese caso se sabe que los momentos de cuarto orden vienen dados por la expresion ikjl + iljk,i, j, k, l = 1, . . . , p.

    Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.

  • 52 Francisco de Ass Torres Ruiz

    5.5. Distribucion exacta y caracter definido positivo del estimadormaximo verosmil de la matriz de covarianzas en el caso de unadistribucion normal multivariante.

    A continuacion vamos a obtener la distribucion exacta de , mas concretamente, la de la matriz de disper-siones A = NS pero bajo la hipotesis de normalidad.

    El resultado clave que nos proporcionara la distribucion buscada es el Teorema de Fisher. No obstante,este teorema es importante no solo por dicho resultado sino porque en el encontramos:

    La distribucion exacta del vector media muestral en el caso normal.

    La distribucion exacta de la matriz de dispersiones (si bien solo en cuanto a como lo hace, sin proporcionarla densidad).

    La independencia entre X y A.

    Ademas, conocer la forma en que se distribuye la matriz de dispersiones (aunque no se sepa la densidad deforma explcita) es fundamental para poder abordar el caracter definido positivo de la misma, hecho que fuefundamental para obtener la estimacion maximo verosmil de la matriz de covarianzas .

    Dicho caracter definido positivo, y las condiciones bajo las cuales se verifica, estan recogidos en el Teoremade Dykstra. Necesitamos una serie de resultados previos.

    Lema 5.5.1. Sean X1, . . . ,XN vectores aleatorios independientes distribuidos segun normales Np[ ; ], =1, . . . , N . Sea CNN una matriz ortogonal. Entonces

    Y =

    N=1

    cX Np[v; ]

    con v =

    N=1

    c, siendo las variables Y independientes.

    Demostracion. Por un lado

    Y(t) = E [exp (itY)] = E

    expit N

    =1

    cX

    = E N=1

    exp (itcX)

    =

    N=1

    X (ct) =

    N=1

    exp

    (itc

    1

    2c2t

    t

    )

    = exp

    it N=1

    c 1

    2tt

    N=1

    c2

    = exp(itv 12tt

    )

    puesto que al ser C ortogonal se tiene que

    N=1

    c2 = 1, = 1, , N . Por lo tanto Y Np[v; ].

    Por otro lado, calculemos la funcion caracterstica de la distribucion conjunta de (Y1, . . . ,YN ). Sea t =

    Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.

  • Francisco de Ass Torres Ruiz 53

    (t1, . . . , tN ) con t Rp , = 1, . . . , N . Entonces

    Y1,...,YN (t) = E

    [exp

    (i

    N=1

    tY

    )]= E

    expi N

    =1

    t

    N=1

    cX

    = E

    exp N=1

    i

    (N=1

    tc

    )X

    = N=1

    X

    (N=1

    tc

    )

    =

    N=1

    exp

    i N=1

    tc 1

    2

    (N=1

    tc

    )

    (N=1

    tc

    )= exp

    i N=1

    N=1

    tc 1

    2

    N=1

    (N=1

    tc

    )

    (N=1

    tc

    )= exp

    i N=1

    t

    N=1

    c 1

    2

    N=1

    N=1

    N=1

    cctt

    = exp

    i N=1

    tv 1

    2

    N=1

    N=1

    tt

    N=1

    cc

    = exp

    (i

    N=1

    tv 1

    2

    N=1

    N=1

    tt

    )

    = exp

    (i

    N=1

    tv 1

    2

    N=1

    tt

    )=

    N=1

    Y(t)

    con lo cual Y1, . . . ,YN son independientes.

    Lema 5.5.2. Si C es ortogonal y si Y =

    N=1

    cX, = 1, , N , entoncesN=1

    XX =

    N=1

    YY

    Demostracion

    N=1

    YY =

    N=1

    N=1

    cX

    [ N=1

    cX

    ]=

    N=1

    N=1

    N=1

    ccXX

    =

    N=1

    N=1

    N=1

    ccXX =

    N=1

    N=1

    XX =

    N=1

    XX

    Con estos resultados previos estamos ya en condiciones de demostrar el teorema de Fisher.

    Teorema 5.5.1. (de Fisher Multivariante). La media muestral X asociada a una muestra aleatoria X1, . . . ,XN

    de una Np[; ] se distribuye segun una normal p-dimensional Np

    [;

    N

    ]. Ademas, la matriz de dispersiones

    muestrales, A, se distribuye como lo haga

    N1=1

    ZZ, siendo Z variables independientes e identicamente

    distribuidas segun una normal de media cero y matriz de varianzas-covarianzas , siendo ambas distribucionesindependientes.

    Demostracion. Sea BNN una matriz ortogonal con la ultima fila (1N, . . . ,

    1N

    ) (o sea, una rotacion a lo

    largo del eje (1, . . . , 1)) y sea Z =

    N=1

    bX , = 1, , N . Con ello:

    Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.

  • 54 Francisco de Ass Torres Ruiz

    1. ZN Np[VN ; ] con VN =N=1

    1N = N

    12.

    2. Para = 1, , N 1, Z Np[V; ] con V =N=1

    b = 0 ya que B es ortogonal y la ultima fila

    suya es proporcional al vector (1, . . . , 1).

    Ademas

    1. ZN =

    N=1

    1N

    X =1NNX = N

    12 X, por lo que X = N

    12 ZN y con ello se verifica X Np

    [;

    N

    ].

    2. A =

    N=1

    (X X)(X X) =N=1

    XX NXX

    =

    N=1

    ZZ ZNZN =

    N1=1

    ZZ.

    3. Como las variables Z son independientes (por el lema 5.4.2), X lo ha de ser de A y de esta forma la

    matriz de dispersiones muestrales se distribuye como lo haga

    N1=1

    ZZ

    Veamos a continuacion el ya citado Teorema de Dykstra (1970) que proporciona una condicion bajo la cual lamatriz de dispersiones muestral A (y por tanto la de covarianzas muestral S) es definida positiva.

    Teorema 5.5.2. (de Dykstra). La matriz de dispersiones muestral respecto de la media, A, obtenida a partir deuna muestra de tamano N procedente de una poblacion Np[; ], ( > 0) es definida positiva con probabilidaduno si y solo s N > p (n = N 1 p)

    Demostracion. En primer lugar, recordemos que el teorema de Fisher multivariante nos asegura que A = ZZdonde Z = [Z1, ,ZN1]p(N1) siendo las variables Zi independientes e identicamente distribuidas segununa normal Np[0; ].

    Tengamos en cuenta dos cuestiones importantes:

    Puesto que A = ZZ es, al menos, semidefinida positiva, es suficiente probar que ZZ es no singular conprobabilidad uno s y solo s N > p.

    Como rg(Z) = rg(Z) = rg(ZZ) bastara con probar que rg(Z) (o rg(Z)) es p con probabilidad uno s ysolo s N > p.

    Vayamos con la demostracion en s:

    1. Si A es definida positiva entonces N > p. En efecto, si N p entonces N 1 < p y por lo tanto rg(Z)sera como mucho N 1. Con ello rg(A) = rg(Z) < p y A no podra ser definida positiva.

    2. Recprocamente bastara con probarlo para N = p+ 1 ya que al aumentar el numero de columnas de Z

    no puede decrecer su rango. As, sea < a1, . . . ,ap1 > el espacio generado por p1 vectores cualesquieraen Rp . Si > 0, como es el caso que estamos tratando, entonces

    P[Zi < a1, . . . ,ai1,ai+1, . . . ,ap >] = 0

    para cualquier conjunto de vectores p-dimensionales ai, lo cual se deduce de la caracterizacion de la ley

    normal como Xd= + BU con rg(B) = p ya que X es generado de forma unica por p vectores (las

    columnas de B) y no por p 1.

    Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.

  • Francisco de Ass Torres Ruiz 55

    Con ello, y si F es la distribucion conjunta de Z1, . . . ,Zp, se tiene:

    P[rg(Z) < p] = P[Z1, . . . ,Zp sean L.D.]

    pi=1

    P[Zi < Z1, . . . ,Zi1,Zi+1, . . . ,Zp >]

    = pP[Z1 < Z2, . . . ,Zp >] = pE [P [Z1 < Z2, . . . ,Zp >| Z2, . . . ,Zp]]

    = p

    Rp(p1)

    P [Z1 < z2, . . . , zp >| Z2 = z2, . . . ,Zp = zp] dF (Z2, . . . ,Zp)

    = p

    Rp(p1)

    P [Z1 < z2, . . . , zp >] dF = 0

    por lo que P[rg(Z) = p] = 1

    Comentario 5.5.1. En este teorema ha sido fundamental el hecho de la normalidad. No obstante, Eaton yPerlman (1973) generalizaron este resultado en el siguiente sentido:

    La matriz de covarianzas muestral formada a partir de N vectores independientes e identicamente distri-buidas (no necesariamente normales) con N > p es definida positiva con probabilidad uno s y solo s P[Xi Fs] = 0, Fs, 0 s < p, donde Fs = {x}+Fs(o), o sea, la traslacion de un subespacio s-dimensional, cuestionque la normal con definida positiva asegura.

    5.6. Complementos

    5.6.1. Operacion Vec y producto Kronecker de matrices

    Operacion Vec

    El tratamiento sobre matrices aleatorias debe ser visto como una extension del que se realiza para vectores. Porello lo habitual es vectorizar dicha matriz, o sea, tratarla como un vector sin mas que tener en cuenta que losespacios Mnq (espacio vectorial de las matrices de dimension n q) y Rnq son isomorfos. Evidentemente estaes una solucion comoda que sera util si somos capaces de conocer bien los mecanismos que ligan las expresionesmatriciales y vectorizadas.

    Definicion 5.6.1. Sea Xnq. Se define Vec(X) como el vector de dimension nq 1 formado al apilar lascolumnas de X una tras otra, o sea, si notamos por columnas X = [x1,x2 . . . ,xq],

    Vec(X) =

    x1x2...

    xq

    .Teorema 5.6.1. Vec : Mnq Rnq es un isomorfismo de espacios vectoriales.

    Demostracion. Sean a, b R y X,Y Mnq. Entonces Vec(aX + bY) = aVec(X) + bVec(Y), por lo que laaplicacion es lineal.

    Llamemos {ei : i = 1, . . . , nq} y {Jij : i = 1, . . . , n; j = 1, . . . , q} a las bases canonicas respectivas de Rnq yMnq.

    La aplicacion Vec aplica la base de Mnq en la de Rnq en la forma Vec(Jij) = e(j1)n+i. En cuanto a suinversa, dado zh Rnq se verifica

    h = kn con k N. En este caso Vec1(eh) = Jn,k.

    h = kn+ r con 0 < r < n. En tal caso Vec1(eh) = Jr,k+1

    Veamos un ejemplo de aplicacion:

    Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.

  • 56 Francisco de Ass Torres Ruiz

    Ejemplo 5.6.1. Sean X1, . . . ,XN vectores aleatorios p-dimensionales con igual media . Consideremos lamatriz aleatoria XNp = [X1, . . . ,XN ]

    y sea el vector

    Vec(X) =

    X1X2...

    XN

    .Entonces, si notamos 1N al vector N dimensional cuyas componentes son todas iguales a uno, se verifica

    E [Vec(X)] =

    ...

    = Vec ([, , . . . , ]) = Vec(1N) .Comentario 5.6.1. En ocasiones estaremos interesados en calcular la esperanza matematica de una ciertamatriz aleatoria. Sin embargo habra situaciones en las que dicho calculo sera mas facil realizarlo si calculamosla esperanza de su vectorizacion y despues, en virtud del isomorfismo anterior, deshacemos dicho proceso.

    Producto Kronecker de matrices

    Ejemplo 5.6.2. Continuando con el ejemplo 1, supongamos que X1, . . . ,XN son independientes y con igualmatriz de covarianzas . Entonces,

    Cov [Vec(X)] = E[[Vec(X) E [Vec(X)]] [Vec(X) E [Vec(X)]]

    ]

    = E

    X1 X2

    ...XN

    ((X1 ) , . . . , (XN )) =

    0 00 0...

    .... . . 0

    0 0

    .Este ejemplo motiva la definicion de producto kronecker de matrices.

    Definicion 5.6.2. Sean Amn y Bpq dos matrices. Se define el producto Kronecker de ellas como la matriz,de dimensiones mp nq,

    AB =

    a11B a12B . . . a1nBa21B a22B . . . a2nB

    ......

    ......

    am1B am2B . . . amnB

    = (aijB)ij ;{i = 1, . . . ,mj = 1, . . . , n

    A la vista de la definicion, es inmediato que en el ejemplo 2 se tiene Cov [Vec(X)] = IN .

    Comentario 5.6.2. Evidentemente el ejemplo anterior no es suficiente justificacion para la introduccion deesta operacion ya que se puede comentar que no deja de ser una forma de abreviar la notacion. Otra, de lasmultiples razones que se pueden argumentar, es la siguiente.

    Sea el producto A B, con Ann y B33 y sea el sistema de ecuaciones x = (A B)y. Si A Bes no singular, para resolver dicho sistema habra que invertir una matriz 3n 3n. Sin embargo, se verifica(A B)1 = A1 B1, por lo que sera suficiente con invertir dos matrices de orden inferior, con elconsiguiente ahorro de calculo y, seguramente, con una ganancia en lo que se refiere a la precision de lasolucion.

    Propiedades del producto Kronecker

    1. Dados , R, Amn y Bpq, (A) (B) = (AB) = AB = A ()B .

    2. Dadas Amn, Bmn, Cpq y Dpq, entonces

    Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.

  • Francisco de Ass Torres Ruiz 57

    a) (AC) + (BC) = (A + B)C, (AC) + (AD) = A (C + D).b) (A + B) (C + D) = (AC) + (AD) + (BC) + (BD).

    3. Dadas Amn, Bpq, Crs , (AB)C = A (BC).4. Dadas Amn, Bnp, Cqr y Drs, (AC)(BD) = ABCD.5. Si Amm y Bnn son no singulares, (AB)1 = A1 B1.6. Dadas Amn y Bpq, (AB) = A B.7. Si Amm y Bnn son ortogonales, AB es ortogonal.8. Si Amm y Bnn son matrices triangulares superiores (inferiores), entonces AB es triangular superior

    (inferior).

    9. Si Amm y Bnn son definidas positivas, entonces AB es definida positiva.10. Dadas Amn = [A1, . . . ,Ak] y Bpq, entonces A B = [A1 B, . . . ,Ak B]. En particular, si am1

    y bp1 son dos vectores se tiene a b = ab = b a.11. Dadas Amm y Bnn, entonces tr[AB] = tr[A] tr[B].

    12. Dadas Amn =

    (A11 A12A21 A22

    )y Bpq, entonces AB =

    (A11 B A12 BA21 B A22 B

    ).

    13. Sean Amm y Bnn matrices reales con autovalores reales respectivos 1, . . . , m y 1, . . . , n. EntoncesA B tiene como autovalores ij , i = 1, . . . ,m; j = 1, . . . , n. Como consecuencia rg(A B) =rg(A) rg(B) y | AB |=| A |n| B |m.

    Como extension del producto Kronecker tenemos

    Definicion 5.6.3. (Doble producto Kronecker, Rao y Mitra (1971)). Sean Amn y Bpq dos matrices parti-cionadas en vr y gk submatrices, Aij de dimensiones mi nj y Bst de dimensiones ps qt, respectivamente.Se define el doble producto Kronecker como la matriz mp nq

    AB =

    (AB)11 . . . (AB)1k... ... ...(AB)g1 . . . (AB)gk

    donde (AB)s,t viene dada por la matriz de orden mps nqt

    (AB)s,t = [Aij Bst] =

    A11 Bst . . . A1r Bst... ... ...Av1 Bst . . . Avr Bst

    .Algunas propiedades son las siguientes:

    1. (AB) = A B.2. A (BC) = (AB)C.3. A (B + C) = AB + AC.4. (AB)(CD) = ACBD.

    Relaciones entre las operaciones Vec y el producto KroneckerSabemos que dados X1, . . . ,XN vectores aleatorios p-dimensionales con igual media y dada la matriz

    aleatoria XNp = [x1, . . . ,xN ], entonces

    E [Vec(X)] = Vec ([, , . . . , ]) = Vec(1N)

    y, a la vista de la definicion de producto Kronecker, es inmediato comprobar que esa expresion no es mas que1N , lo cual es una primera (y evidente) muestra de que ambas operaciones pueden conducir a resultadosrelacionados entre ellas.

    A continuacion vamos a exponer algunas propiedades que ponen en relacion las dos operaciones introduci-das.

    Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.

  • 58 Francisco de Ass Torres Ruiz

    Teorema 5.6.2. Se verifican las siguientes afirmaciones:

    1. Si an1 y bq1 son dos vectores, entonces Vec(ab) = b a.

    2. Sea {ei : i = 1, . . . , n} la base canonica de Rn. Entonces Vec(In) =ni=1

    (ei ei).

    3. Sea {Jij : i = 1, . . . , n; j = 1, . . . , q} la base canonica del espacio Mnq. Entonces

    ni=1

    qj=1

    (Jij Jij) = Vec(In) Vec(Iq) .

    4. Sean Anq, Bqp y Cpr. Entonces Vec(ABC) = (C A) Vec(B).

    5. Dadas Anq y Bqn, entonces tr[AB] = Vec(A) Vec(B) = Vec(B) Vec(A) .

    Demostracion

    1. Sea {Jij : i = 1, . . . , n; j = 1, . . . , q} la base canonica de Mnq y {ek : k = 1, . . . , nq} la de Rnq. Por unlado tenemos

    b a = (bja)j =ni=1

    qj=1

    bjaie(j1)n+i

    y por otro lado

    ab =

    a1...ai...an

    (b1, . . . , bj , . . . , bq) =ni=1

    qj=1

    aibjJij

    por lo que

    Vec(ab) =

    ni=1

    qj=1

    aibj Vec(Jij) =

    ni=1

    qj=1

    aibje(j1)n+i = b a .

    2. Es inmediato ya que

    Vec(In) =

    ni=1

    Vec(Jii) =

    ni=1

    Vec(eiei) =

    ni=1

    (ei ei) .

    3. Sean ei, i = 1, . . . , n y vj , j = 1, . . . , q los vectores basicos de Rn y Rq respectivamente. Entonces

    Jij Jij = eivj eivj = (ei ei)(vj vj) ,

    de donde se concluye sin mas que sumar en i y en j y aplicar el apartado anterior. Con ello

    ni=1

    qj=1

    (Jij Jij) =ni=1

    (ei ei)qj=1

    (vj vj) = Vec(In) Vec(Iq) .

    4. Consideremos la siguientes bases: {Jij : i = 1, . . . , n; j = 1, . . . , q} la base canonica del espacio de matricesMnq, {Kst : s = 1, . . . , q; t = 1, . . . , p} la de Mqp y {Luv : u = 1, . . . , p; v = 1, . . . , r} la de Mpr. Porotro lado sean {es : s = 1, . . . , q} y {nt : t = 1, . . . , p} las bases canonicas de Rn y Rp respectivamente.Con esta notacion se tiene

    A =

    ni=1

    qj=1

    aijJij ,

    ns=1

    pt=1

    bstKst ,

    pu=1

    rv=1

    cuvLuv

    Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.

  • Francisco de Ass Torres Ruiz 59

    y con ello, como Kst = esnt, entonces

    ABC =

    ni=1

    qj=1

    ns=1

    pt=1

    pu=1

    rv=1

    aijbstcuvJijesntLuv

    por lo que, aplicando que Vec(ab) = b a (resultado 1),

    Vec(ABC) =

    ni=1

    qj=1

    ns=1

    pt=1

    pu=1

    rv=1

    aijbstcuv Vec(JijesntLuv)

    =

    ni=1

    qj=1

    ns=1

    pt=1

    pu=1

    rv=1

    aijbstcuv(Luvnt Jijes)

    =

    ni=1

    qj=1

    ns=1

    pt=1

    pu=1

    rv=1

    aijbstcuv(Luv Jij)(nt es)

    =

    ni=1

    qj=1

    ns=1

    pt=1

    pu=1

    rv=1

    aijbstcuv(Luv Jij) Vec(esnt)

    =

    ni=1

    qj=1

    ns=1

    pt=1

    pu=1

    rv=1

    aijbstcuv(Luv Jij) Vec(Kst)

    =

    mi=1

    nj=1

    pu=1

    qv=1

    (cuvLuv aijJij)

    ns=1

    pt=1

    Vec(bstKst)

    = (C A) Vec(B) .

    5. Sea C = AB. Notemos por ai y bi a las i-esima fila e i-esima columna de A y B respectivamente.Entonces cii = a

    ibi. Con ello se tiene

    tr[AB] =

    ni=1

    cii =

    ni=1

    aibi .

    Por otro lado

    A =

    a1...ai...

    an

    A = [a1, . . . ,ai, . . . ,an]

    de donde Vec(A) = (a1, . . . ,ai, . . . ,a

    n).

    Notando B = [b1, . . . ,bi, . . . ,bn], entonces se tiene

    Vec(A) Vec(B) =

    ni=1

    aibi = tr[AB] .

    Finalmente, como tr[AB] = tr[BA] se tiene la otra igualdad.

    Para finalizar, veamos un ejemplo que muestra las posibilidades de este tipo de calculo.

    Ejemplo 5.6.3. Sean X1, . . . ,XN vectores aleatorios p-dimensionales independientes con igual media e igualmatriz de covarianzas . Consideremos XNp = [X1, . . . ,XN ]

    y sea Yrs = BrpX

    CNs. Entonces

    E[Vec(Y)] = C1N B. En efecto,

    E[Vec(Y)] = E[Vec(BXC)] = E[(C

    B) Vec(X)]= (C B) E[Vec(X)] = (C B)(1N )= (C1N B) = Vec(B1NC)

    Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.

  • 60 Francisco de Ass Torres Ruiz

    Cov [Vec(Y)] = CCBB. En efecto,

    Cov [Vec(Y)] = Cov[Vec(BXC)

    ]= Cov [(C B) Vec(X)]

    = (C B) Cov [Vec(X)] (CB)= (C B)(IN )(CB) = CCBB

    5.6.2. La distribucion normal matricial. Aplicacion al caso de un muestra aleato-ria simple de una poblacion normal multivariante

    Sea Yrs una matriz aleatoria. En general, entenderemos por distribucion de dicha matriz a la correspon-diente a Vec[Y]. En particular tenemos la siguiente definicion:

    Definicion 5.6.4. Sea Yrs una matriz aleatoria. Sean Mrs, Crr y Dss con C y D definidas positivas.Se dice que Y ; Nrs[M; CD] si y = Vec(Y) ; Nrs1[m; CD], siendo m = Vec(M).

    A partir de esa caracterizacion se tiene el siguiente resultado

    Teorema 5.6.3. Sea Yrs una matriz aleatoria normal Nrs[M; CD]. Entonces su densidad es

    f(Y) = (2)rs2 | C | s2 | D | r2 exp

    (1

    2tr[C1(YM)D1(YM)

    ])Demostracion. La demostracion se limita a operar en la densidad de y = Vec[Y].

    (2)rs2 | CD | 12 exp

    (1

    2(y m)(CD)1(y m)

    )=(2)

    rs2 | C | s2 | D | r2 exp

    (1

    2(Vec[(YM)])

    (C1 D1

    )Vec[(YM)]

    )=(2)

    rs2 | C | s2 | D | r2 exp

    (1

    2(Vec[(YM)])

    (C1 Is

    ) (Ir D1

    )Vec[(YM)]

    )=(2)

    rs2 | C | s2 | D | r2 exp

    (1

    2

    ((C1 Is

    )Vec[(YM)]

    ) ((Ir D1

    )Vec[(YM)]

    ))=(2)

    rs2 | C | s2 | D | r2 exp

    (1

    2Vec[(YM)C1] Vec[D1(YM)]

    )=(2)

    rs2 | C | s2 | D | r2 exp

    (1

    2Vec[

    (C1(YM)

    )] Vec[D1(YM)]

    )=(2)

    rs2 | C | s2 | D | r2 exp

    (1

    2tr[C1(YM)D1(YM)

    ])=(2)

    rs2 | C | s2 | D | r2 etr

    (1

    2C1(YM)D1(YM)

    )Como aplicacion de la distribucion normal matricial, vamos a calcular la distribucion conjunta de una muestraaleatoria simple procedente de una normal multivariante.

    Sea, por tanto, X1, . . . ,XN una muestra aleatoria simple procedente de una poblacion Np[; ], con > 0.Consideremos XNp = [X1, . . . ,XN ] y x = Vec[X]. En primer lugar,

    [X1 , . . . ,XN ] = X 1N = [X 1N ] = [X 1N]

    con lo que

    Ni=1

    (Xi )(Xi ) = [X1 , . . . ,XN ]

    (X1 )

    ...(XN )

    = [X 1N] [X 1N]Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.

  • Francisco de Ass Torres Ruiz 61

    por lo que

    f(X) = f(x) =Ni=1

    f(Xi) =

    Ni=1

    (2)p2 | | 12 exp

    (1

    2(Xi )1(Xi )

    )

    = (2)pN2 | |N2 etr

    (1

    2

    Ni=1

    (Xi )1(Xi ))

    = (2)pN2 | |N2 etr

    (1

    21

    Ni=1

    (Xi )(Xi ))

    = (2)pN2 | |N2 etr

    (1

    21 [X 1N]

    [X 1N]

    )= (2)

    pN2 | |N2 etr

    (1

    2[X 1N] 1 [X 1N]

    )

    y as X ; NNp [1N; IN ].

    5.6.3. Rehaciendo el Teorema de Fisher

    La introduccion de la distribucion normal matricial permite abordar ciertos desarrollos de forma mas rapiday agil. En particular, el Teorema de Fisher que volvemos a reproducir y para lo cual vamos a proceder porpartes de la siguiente forma:

    En primer lugar, dada XNp = [X1, . . . ,XN ] una muestra aleatoria simple de una normal Np[; ], con > 0, sabemos que X ; NNp [1N; IN ], o sea,

    Vec [X] ; NNp [Vec[1N ]; IN ]

    Sea ahora BNN ortogonal con la ultima fila (1N, . . . ,

    1N

    ) y consideremos YNp = BX, con lo que Vec[Y] =

    (B Ip) Vec[X]. Por tantoVec[Y] ; NNp[m; ]

    donde (teniendo en cuenta que Vec[ab] = b a, y con ello Vec[1N ] = 1N )

    m = (B Ip)(1N ) = (B1N ) = Vec[1NB] = Vec[(B1N)] = Vec

    [(0(N1)p

    N

    )].

    = (B Ip)(IN )(B Ip) = IN .

    por lo que

    Y ; NNp[(

    0(N1)pN

    ); IN

    ]Si expresamos Y = [Y1, . . . ,YN ], se tiene

    Las columnas de Y son independientes. En particular, si llamamos Z = [Y1, . . . ,YN1], Z es indepen-diente de YN .

    Z ; N(N1)p[0(N1)p; IN1

    ], o sea, los vectores Z1, . . . ,ZN1 son independientes e identica-

    mente distribuidos segun normales de media cero y varianza .

    YN ; Np[N; ].

    Por ultimo,

    YN = X1N

    1N = [X1, . . . ,XN ]1N

    1N =NX.

    Y = XB = [Z | YN ], por lo que YY = XBBX = XX = ZZ + YNYN = ZZ +NXX

    Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.

  • 62 Francisco de Ass Torres Ruiz

    A =

    N=1

    XX NXX

    = XXNXX = ZZ

    Al ser Z independiente de YN , entonces A lo es de X

    Todas estas conclusiones conforman el Teorema de Fisher Multivariante.

    Analisis Multivariante. Licenciado en C.C. y T.T. Estadsticas. 2o curso.