Métodos de regresión no paramétricos para el análisis de datos longitudinales

83
Máster Universitario en Estadística Aplicada - Curso 2010/2011 Universidad de Granada MÉTODOS DE REGRESIÓN NO PARAMÉTRICOS PARA EL ANÁLISIS DE DATOS LONGITUDINALES Trabajo Fin de Máster Línea de Investigación: Estimación no paramétrica de curvas en R Realizado por: José Antonio Linero Morante D.N.I.: 74912127-T Tutora: Dra. Dª. María Dolores Martínez Miranda Fecha: Diciembre 2011

Transcript of Métodos de regresión no paramétricos para el análisis de datos longitudinales

  • Mster Universitario en Estadstica Aplicada - Curso 2010/2011

    Universidad de Granada

    MTODOS DE REGRESIN NO PARAMTRICOS PARA

    EL ANLISIS DE DATOS LONGITUDINALES

    Trabajo Fin de Mster

    Lnea de Investigacin: Estimacin no paramtrica de curvas en R

    Realizado por: Jos Antonio Linero Morante

    D.N.I.: 74912127-T

    Tutora: Dra. D. Mara Dolores Martnez Miranda

    Fecha: Diciembre 2011

  • ndice de contenidos

    Captulo 1: Introduccin 1

    1.1. Motivacin de ejemplos de datos longitudinales 1

    1.1.1. Datos de progesterona 2

    1.2. Modelizacin de efectos mixtos: de paramtrico a no paramtrico 6

    1.2.1. Modelos paramtricos de efectos mixtos 6

    1.2.2. Regresin no paramtrica y suavizacin 7

    1.2.3. Modelos no paramtricos de efectos mixtos 10

    Captulo 2: Modelos paramtricos de efectos mixtos 12

    2.1. Introduccin 12

    2.2. Modelo lineal de efectos mixtos 12

    2.2.1. Especificacin del modelo 12

    2.2.2. Estimacin de los efectos fijos y aleatorios 15

    2.2.3. Interpretacin bayesiana 16

    2.2.4. Estimacin de los componentes de varianza 18

    2.2.5. Los algoritmos EM 20

    Captulo 3: Suavizadores en regresin no paramtrica 24

    3.1. Introduccin 24

    3.2. Suavizador del ncleo polinomial local 27

    3.2.1. Grado general del suavizador LPK 27

    3.2.2. Suavizadores lineal y constante local 29

    3.2.3. Funcin del ncleo 31

    3.2.4. Seleccin del ancho de banda 32

    3.2.5. Un ejemplo ilustrativo 34

    Captulo 4: Mtodos localmente polinomiales 35

    4.1. Introduccin 35

    4.2. Modelo no paramtrico para la media poblacional 36

    4.2.1. Mtodo del ncleo polinomial local 37

    4.2.2. Mtodo del ncleo polinomial local GEE 40

    4.3. Modelo no paramtrico de efectos mixtos 44

    4.4. Modelado de efectos mixtos polinomial local 45

    4.4.1. Aproximacin polinomial local 45

    4.4.2. Estimacin por mxima verosimilitud local 46

  • 4.4.3. Estimacin a partir de la verosimilitud local marginal 48

    4.4.4. Estimacin a partir de la verosimilitud local conjunta 50

    4.4.5. Estimacin de los componentes 53

    4.5. Eleccin de buenos anchos de banda 54

    4.5.1. Validacin cruzada dejar-un-sujeto-fuera 55

    4.5.2. Validacin cruzada dejar-un-punto-fuera 56

    4.6. Aplicacin a los datos de progesterona 56

    Apndice: Cdigo en R generado para las aplicaciones 60

    Referencias 74

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    1

    Captulo 1: Introduccin

    Los datos longitudinales tales como mediciones repetidas tomadas en cada uno

    de una serie de sujetos a travs del tiempo surgen con frecuencia de muchos estudios

    biomdicos y clnicos as como de otras reas cientficas. Estudios actualizados sobre

    anlisis de datos longitudinales se pueden encontrar en Demidenko (2004) y Diggle,

    Heagerty, Liang y Zeger (2002), entre otros. Los modelos paramtricos de efectos

    mixtos son una herramienta poderosa para modelar la relacin entre una variable

    respuesta y las covariables en estudios longitudinales. Los modelos lineales de efectos

    mixtos (linear mixed-effects (LME)) y los modelos no lineales de efectos mixtos

    (nonlinear mixed-effects (NLME)) son los dos ejemplos ms populares. Varios libros se

    han publicado para resumir los logros en estas reas (Jones 1993, Davidian y Giltinan

    1995, Vonesh y Chinchilli 1996, Pinheiro y Bates 2000, Verbeke y Molenberghs 2000,

    Diggle, Heagerty, Liang y Zeger 2002, y Demidenko 2004, entre otros). Sin embargo,

    para muchas aplicaciones, los modelos paramtricos pueden ser demasiado restrictivos

    o limitados, y a veces no estn disponibles al menos para el anlisis de los datos

    preliminares. Para superar esta dificultad, las tcnicas de regresin no paramtricas se

    han desarrollado para el anlisis de datos longitudinales en los ltimos aos. Con este

    trabajo se tiene la intencin de estudiar los mtodos existentes e introducir tcnicas de

    reciente desarrollo que combinan ideas de modelado de efectos mixtos y tcnicas de

    regresin no paramtricas para el anlisis de datos longitudinales.

    1.1. Motivacin de ejemplos de datos longitudinales

    En los estudios longitudinales, los datos de los individuos se coleccionan varias

    veces a travs del tiempo mientras que en los estudios de corte transversal slo se

    obtiene un dato puntual para cada sujeto individual (es decir, un solo punto en el tiempo

    por sujeto). Por lo tanto, la diferencia clave entre los datos longitudinales y los datos de

    corte transversal es que los datos longitudinales estn generalmente correlacionados en

    un sujeto y son independientes entre sujetos, mientras que los datos de corte transversal

    a menudo son independientes.

    Un desafo para el anlisis de datos longitudinales es cmo dar cuenta de las

    correlaciones intra-sujeto. Los modelos LME y NLME son herramientas poderosas para

    el manejo de un problema cuando adecuados modelos paramtricos estn disponibles

    para relacionar una variable de respuesta longitudinal a sus covariables. Muchos

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    2

    ejemplos de datos de la vida real han sido presentados en la literatura que emplea

    tcnicas de modelado LME y NLME (Jones 1993, Davidian y Giltinan 1995, Vonesh y

    Chinchilli 1996, Pinheiro y Bates 2000, Verbeke y Molenberghs 2000, Diggle,

    Heagerty, Liang y Zeger 2002, y Demidenko 2004, entre otros). Sin embargo, para

    muchos otros ejemplos de datos prcticos, adecuados modelos paramtricos pueden no

    existir o son difciles de encontrar. Ejemplos de estudios biomdicos y clnicos se

    presentarn y se utilizarn en este trabajo a modo de ilustracin. En estos ejemplos, los

    modelos LME y NLME ya no son aplicables, y tcnicas de modelado de efectos mixtos

    no paramtricos (nonparametric mixed-effects (NPME)), que son los temas centrales de

    este trabajo, son una opcin natural al menos en la fase inicial de anlisis exploratorios.

    Aunque los ejemplos de datos longitudinales en este trabajo son de estudios biomdicos

    y clnicos, las metodologas propuestas en este trabajo son tambin aplicables a datos de

    panel o datos agrupados de otros campos cientficos. Todos los conjuntos de datos y los

    correspondientes anlisis de cdigos a travs del ordenador en este trabajo son de libre

    acceso en la siguiente pgina web: (Adems, debemos notar que dicho cdigo est

    escrito mediante el programa Matlab y nosotros en este trabajo escribimos el cdigo

    mediante R, nuestro cdigo escrito en R se puede ver en el apndice titulado Cdigo en

    R generado para las aplicaciones que se encuentra al final del trabajo.)

    http://www.urmc.rochester.edu/smd/biostat/people/faculty/WuSite/publications.htm.

    1.1.1. Datos de progesterona

    Los datos de progesterona fueron recogidos en un estudio de la prdida temprana

    del embarazo realizado por el Instituto de Toxicologa y Salud Ambiental en la Seccin

    de Epidemiologa Reproductiva del Departamento de Servicios de Salud de California,

    Berkeley, EE.UU. Las Figuras 1.1 y 1.2 muestran los niveles de progesterona en el

    metabolito urinario en el transcurso de los ciclos menstruales de las mujeres (das). Las

    observaciones procedan de pacientes con la funcin reproductiva sana inscritos en una

    clnica de inseminacin artificial donde los intentos de inseminacin fueron oportunos

    para cada ciclo menstrual. Los datos haban sido alineados por el da de la ovulacin

    (Da 0), determinado por la hormona luteinizante en suero, y truncado en cada extremo

    para presentar curvas de igual longitud. Las mediciones se registran una vez al da por

    cada ciclo de 8 das antes del da de la ovulacin y hasta 15 das despus de la

    ovulacin. Una mujer puede tener uno o varios ciclos. La duracin del perodo de

    observacin es de 24 das. Algunas mediciones de algunos sujetos estaban perdidas por

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    3

    diversas razones. El conjunto de datos consiste en dos grupos: las curvas de

    progesterona conceptiva (22 ciclos menstruales) y las curvas de progesterona no

    conceptiva (69 ciclos menstruales). Para ms detalles sobre este conjunto de datos, ver

    Yen y Jaffe (1991), Brumback y Rice (1998), y Fan y Zhang (2000), entre otros.

    La Figura 1.1 (a) presenta un diagrama espagueti de las 22 curvas en bruto de

    progesterona conceptiva. Los puntos indican el nivel de progesterona observados en

    cada ciclo, y estn conectados con segmentos de lnea recta. El problema de los valores

    perdidos no es muy serio aqu ya que cada curva de ciclo tiene por lo menos 17 de las

    24 mediciones. En general, las curvas en bruto presentan un patrn similar: antes del da

    de la ovulacin (Da 0), las curvas en bruto son planas, pero despus del da de la

    ovulacin, por lo general se mueven hacia arriba. Sin embargo, es fcil ver que en una

    curva de ciclo, las mediciones varan en torno a alguna curva subyacente que parece ser

    suave, y para ciclos diferentes, las curvas suaves subyacentes son diferentes unas de

    otras. La Figura 1.1 (b) presenta las medias punto a punto (curva de color negro con

    puntos en la traza) con banda de desviacin estndar (standard deviation (SD)) punto a

    punto del 95% (curvas de color rojo con puntos en la traza). Fueron obtenidos de una

    manera sencilla: en cada punto de tiempo distinto , la media y la desviacin estndar se

    calculan utilizando los datos de corte transversal en . Se puede observar que la curva

    media punto a punto es bastante suave, aunque no es difcil descubrir que todava hay

    algo de ruido aparecido en la curva media punto a punto.

    -5 0 5 10 15

    -4-2

    02

    4

    Figura 1.1 (a) Grupo conceptivo

    dias

    log (prog)

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    4

    La Figura 1.2 (a) presenta un diagrama espagueti de las 69 curvas en bruto de

    progesterona no conceptiva. Comparada con las curvas de progesterona conceptiva,

    estas curvas se comportan muy similares antes del da de la ovulacin, pero por lo

    general muestran una tendencia diferente despus del da de la ovulacin. Es fcil ver

    que, al igual que en las curvas de progesterona conceptiva, los ciclos individuales

    subyacentes de las curvas de progesterona no conceptiva parecen ser suaves, y tambin

    lo es su curva media subyacente. Una estimacin ingenua de la curva media subyacente

    es la curva media punto a punto, que se muestra como curva de color negro con puntos

    en la traza en la Figura 1.2 (b). La banda del 95% SD punto a punto (curvas de color

    rojo con puntos en la traza) proporciona una estimacin aproximada de la exactitud de

    la estimacin ingenua.

    -5 0 5 10 15

    -2-1

    01

    23

    Figura 1.1 (b) Grupo conceptivo

    dias

    log (prog)

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    5

    Los datos de progesterona se han utilizado para ilustraciones de los mtodos de

    regresin no paramtricos por varios autores. Por ejemplo, Fan y Zhang (2000) los

    utiliz para ilustrar su mtodo de dos pasos para estimar la funcin media subyacente de

    los datos longitudinales o de los datos funcionales, Brumback y Rice (1998) los utiliz

    para ilustrar una tcnica de modelado de efectos mixtos con alisamiento spline para

    estimar ambas funciones media e individual, mientras que Wu y Zhang (2002a) los

    utiliz para ilustrar un enfoque de modelado de efectos mixtos polinomial local.

    -5 0 5 10 15

    -4-2

    02

    4

    Figura 1.2 (a) Grupo no conceptivo

    dias

    log (prog)

    -5 0 5 10 15

    -2-1

    01

    2

    Figura 1.2 (b) Grupo no conceptivo

    dias

    log (prog)

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    6

    1.2. Modelizacin de efectos mixtos: de paramtrico a no paramtrico

    1.2.1. Modelos paramtricos de efectos mixtos

    Para la modelizacin de datos longitudinales, los modelos paramtricos de

    efectos mixtos, tales como modelos lineales y no lineales de efectos mixtos, son una

    herramienta natural. Los modelos lineales o no lineales de efectos mixtos se pueden

    especificar como modelos lineales y no lineales jerrquicos, desde una perspectiva

    bayesiana.

    Los modelos lineales de efectos mixtos (linear mixed-effects (LME)) se utilizan

    cuando la relacin entre una variable respuesta longitudinal y sus covariables se puede

    expresar a travs de un modelo lineal. El modelo LME introducido por Harville (1976,

    1977), y Laird y Ware (1982) en general se puede escribir como

    donde y son, respectivamente, los vectores de respuestas y los errores de medicin

    para el -simo sujeto, y son, respectivamente, los vectores de efectos fijos

    (parmetros de la poblacin) y efectos aleatorios (parmetros individuales), y y

    son las matrices de diseo asociadas a los efectos fijos y a los efectos aleatorios. Es fcil

    notar que la media y la matriz de covarianza de est dada por

    Los modelos no lineales de efectos mixtos (nonlinear mixed-effects (NLME)) se

    utilizan cuando la relacin entre una variable respuesta longitudinal y sus covariables se

    puede expresar a travs de un modelo no lineal, el cual es conocido a excepcin de

    algunos parmetros. Un modelo no lineal jerrquico general o modelo NLME se puede

    escribir como (Davidian y Giltinan 1995, Vonesh y Chinchilli 1996):

    donde con siendo una funcin conocida,

    una matriz de diseo y un parmetro especifico de sujeto para el

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    7

    -simo sujeto. En el anterior modelo NLME, la es una funcin conocida de las

    matrices de diseo y , el vector de efectos fijos y el vector de efectos aleatorios

    . Como ejemplo, un modelo lineal simple para puede escribirse como

    . La media marginal y la varianza-covarianza de no puede ser

    dada para un modelo NLME general. Se pueden aproximar utilizando tcnicas de

    linealizacin (Sheiner, Rosenberg y Melmon 1972, Sheiner y Beal 1980, y Lindstrom y

    Bates 1990, entre otros).

    Definiciones ms detalladas de los modelos LME y NLME se darn en el

    Captulo 2. Ya sea en un modelo LME o en un modelo NLME, las variaciones entre-

    sujeto e intra-sujeto se cuantifican separadamente por los componentes de varianza y

    . En un estudio longitudinal, los datos de sujetos diferentes se suponen

    por lo general que son independientes, pero los datos del mismo sujeto pueden estar

    correlacionados. Las correlaciones pueden ser causadas por la variacin entre-sujeto

    (heterogeneidad entre los sujetos) y/o la correlacin serial del error de medicin. Hacer

    caso omiso de la correlacin existente de los datos longitudinales puede llevar a

    conclusiones incorrectas e ineficientes. Por lo tanto, un requisito clave para el anlisis

    de datos longitudinales es un modelo apropiado y estimar con precisin los

    componentes de varianza as que las funciones media e individual subyacente deben ser

    modeladas de manera eficiente. Esta es la razn por la cual el anlisis de datos

    longitudinales es ms difcil tanto en el desarrollo terico y aplicacin prctica en

    comparacin con el anlisis de datos de corte transversal.

    La aplicacin con xito de un modelo LME o un modelo NLME al anlisis de

    datos longitudinales depende en gran medida de la suposicin (hiptesis) de un modelo

    lineal o no lineal adecuado para la relacin entre la variable respuesta y las covariables.

    A veces esta hiptesis puede ser no vlida para un conjunto de datos longitudinales

    dado. En este caso, la relacin entre la variable respuesta y las covariables tiene que ser

    modelada no paramtricamente. Por lo tanto, tenemos que extender los modelos

    paramtricos de efectos mixtos a los modelos no paramtricos de efectos mixtos.

    1.2.2. Regresin no paramtrica y suavizacin

    Un modelo paramtrico de regresin requiere el supuesto de que la forma de la

    funcin de regresin subyacente se conoce a excepcin de los valores de un nmero

    finito de parmetros. La seleccin de un modelo paramtrico depende en gran medida

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    8

    del problema en cuestin. A veces el modelo paramtrico se puede derivar de las teoras

    mecanicistas detrs del problema cientfico, mientras que en otras ocasiones el modelo

    se basa en la experiencia o es simplemente deducido de los grficos de dispersin de los

    datos. Un grave inconveniente del modelado paramtrico es que un modelo paramtrico

    puede ser demasiado restrictivo en algunas aplicaciones. Si un modelo paramtrico

    inadecuado es utilizado, es posible producir conclusiones errneas a partir del anlisis

    de regresin. En otras situaciones, un modelo paramtrico no puede estar disponible

    para su uso. Para superar las dificultades causadas por el supuesto restrictivo de una

    forma paramtrica de la funcin de regresin, se puede quitar la restriccin de que la

    funcin de regresin pertenece a una familia paramtrica. Este enfoque conduce a la

    llamada regresin no paramtrica.

    Existen muchos mtodos de regresin no paramtrica y suavizacin. Los

    mtodos ms populares incluyen suavizacin del ncleo, ajuste polinomial local,

    regresin (polinomial) splines, suavizacin splines, y penalizado splines. Algunos otros

    enfoques, tales como grfico de dispersin localmente ponderado suavizado (locally

    weighted scatter plot smoothing (LOWESS)), mtodos basados en wavelet y otros

    enfoques basados en series ortogonales tambin son de uso frecuente en la prctica. La

    idea bsica de estos enfoques no paramtricos es dejar que los datos determinen la

    forma ms adecuada de las funciones. Hay uno o dos llamados parmetros de

    suavizacin en cada uno de estos mtodos para controlar la complejidad del modelo y la

    compensacin entre el sesgo y la varianza del estimador. Por ejemplo, el ancho de

    banda en la suavizacin del ncleo local determina la suavidad de la funcin de

    regresin y la bondad de ajuste del modelo a los datos as que cuando , el modelo

    no paramtrico local se convierte en un modelo paramtrico global, y cuando , la

    estimacin que resulta esencialmente interpola los puntos de datos. Por lo tanto, la

    frontera entre el modelado paramtrico y no paramtrico no puede estar bien definida si

    se toma el parmetro de suavizacin en cuenta. Los mtodos no paramtricos y

    paramtricos de regresin no deben considerarse como competidores, sino que se

    complementan entre s. En algunas situaciones, las tcnicas no paramtricas se pueden

    utilizar para validar o sugerir un modelo paramtrico. Una combinacin de ambos

    mtodos no paramtricos y paramtricos es ms poderoso que un nico mtodo en

    muchas aplicaciones prcticas.

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    9

    Existe una vasta literatura sobre la suavizacin y los mtodos no paramtricos de

    regresin para datos de corte transversal. Buenos estudios sobre estos mtodos se

    pueden encontrar en los libros de de Boor (1978), Eubank (1988), Hrdle (1990),

    Wahba (1990), Green y Silverman (1994), Wand y Jones (1995), Fan y Gijbels (1996),

    y Ruppert, Wand y Carroll (2003), entre otros. Sin embargo, muy poco se ha hecho para

    desarrollar los mtodos no paramtricos de regresin para el anlisis de datos

    longitudinales hasta los ltimos aos. Mller (1988) fue el primero en abordar el

    anlisis de datos longitudinales con los mtodos no paramtricos de regresin. Sin

    embargo, en esta monografa anterior, el enfoque bsico es el de estimar la curva de

    cada individuo por separado, por lo tanto, la correlacin intra-sujeto de los datos

    longitudinales no se consider en el modelaje. Las metodologas de Mller (1988) son

    esencialmente similares a los mtodos no paramtricos de regresin para datos de corte

    transversal.

    En aos recientes, ha habido un auge en el desarrollo de mtodos no

    paramtricos de regresin para el anlisis de datos longitudinales que incluyen la

    utilizacin de mtodos de suavizacin tipo-ncleo (Hoover, Rice, Wu y Yang 1998, Wu

    y Chiang 2000, Wu, Chiang y Hoover 1998, Fan y Zhang 2000, Lin y Carroll 2001a, b,

    Wu y Zhang 2002a, Welsh, Lin y Carroll 2002, Cai, Li y Wu 2003, Wang 2003, Wang,

    Carroll y Lin 2005), mtodos de suavizacin spline (Brumback y Rice 1998, Wang

    1998a, b, Zhang, Lin, Raz y Sowers 1998, Lin y Zhang 1999, Guo 2002a, b) y mtodos

    de regresin (polinomial) spline (Shi, Weiss y Taylor 1996, Rice y Wu 2001, Huang,

    Wu y Zhou 2002, Wu y Zhang 2002b, Liang, Wu y Carroll 2003). Hay una gran

    cantidad de literatura reciente en esta rea de investigacin, y es imposible tener una

    lista completa aqu. La importancia de los mtodos no paramtricos de modelado ha

    sido reconocido en el anlisis de datos longitudinales y para las aplicaciones prcticas,

    ya que los mtodos no paramtricos son flexibles y robustos frente a supuestos

    paramtricos. Dicha flexibilidad es til para la exploracin y anlisis de datos

    longitudinales, cuando apropiados modelos paramtricos no estn disponibles. En este

    trabajo, no tenemos la intencin de cubrir todas las tcnicas no paramtricas de

    regresin. En cambio, nos vamos a centrar en el mtodo de suavizacin polinomial

    local. Incorporamos este procedimiento no paramtrico de suavizacin en los modelos

    de efectos mixtos para proponer tcnicas no paramtricas de modelado de efectos

    mixtos para el anlisis de datos longitudinales.

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    10

    1.2.3. Modelos no paramtricos de efectos mixtos

    Un conjunto de datos longitudinales tal como los datos de progesterona

    presentados en la Seccin 1.1, pueden expresarse en una forma comn como

    donde indican los puntos de tiempo de diseo (por ejemplo, das en los datos de

    progesterona), la respuesta observada en (por ejemplo, log(prog) en los datos

    de progesterona), el nmero de observaciones para el -simo sujeto, y es el

    nmero de sujetos. Para tal conjunto de datos longitudinales, no asumimos un modelo

    paramtrico para la relacin entre la variable respuesta y la covariable en el tiempo. En

    cambio, justamente asumimos que las funciones individual y de media poblacional son

    funciones sin problemas en el tiempo , y dejamos que los propios datos determinen la

    forma de las funciones subyacentes. Siguiendo Wu y Zhang (2002a), introducimos un

    modelo no paramtrico de efectos mixtos (nonparametric mixed-effects (NPME)) como

    donde modela la funcin de media poblacional del conjunto de datos

    longitudinales, llamada funcin de efecto fijo, modela la salida de la -sima

    funcin individual de la funcin de media poblacional , llamada la -sima funcin

    de efecto aleatorio, y son los errores de medicin que no se pueden explicar por

    las funciones de efecto fijo y las funciones de efecto aleatorio.

    En general se supone que son realizaciones i.i.d. de un

    proceso suave (smooth process (SP)) subyacente, , con funcin de media 0 y

    funcin de covarianza , y son realizaciones i.i.d. de un proceso de ruido

    blanco no correlacionado, , con funcin de media 0 y funcin de covarianza

    . Esto es, y . Aqu

    cuantifica la variacin entre-sujeto mientras que cuantifica la variacin intra-

    sujeto. Cuando se habla de las inferencias basadas en la verosimilitud o la interpretacin

    Bayesiana, por simplicidad, generalmente asumimos que los procesos asociados son

    Gausianos, es decir, , y .

    En el marco de modelado NPME, necesitamos llevar a cabo las siguientes tareas:

    (1) estimar la funcin (media poblacional) de efecto fijo ; (2) predecir las funciones

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    11

    de efecto aleatorio y las funciones individuales

    ; (3) estimar la funcin de covarianza ; y (4) estimar la funcin de

    varianza de ruido .

    La , y caracterizan las caractersticas de la poblacin de una

    respuesta longitudinal mientras que y capturan las caractersticas

    individuales. Para simplificar, la funcin media poblacional y las funciones

    individuales se refieren a veces como las curvas de poblacin y las curvas

    individuales, respectivamente. Debido a que en el modelo NPME (1.4), las cantidades

    de destino , , y son todas no paramtricas, la combinacin de

    tcnicas de suavizacin y enfoques de modelado de efectos mixtos es necesario para la

    estimacin de estas cantidades desconocidas.

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    12

    Captulo 2: Modelos paramtricos de efectos mixtos

    2.1. Introduccin

    Los modelos paramtricos de efectos mixtos o los modelos de efectos aleatorios

    son herramientas poderosas para el anlisis de datos longitudinales. Los modelos

    lineales o no lineales de efectos mixtos (incluyendo los modelos lineales o no lineales

    generalizados de efectos mixtos) han sido ampliamente utilizados en muchos estudios

    longitudinales. Buenos estudios sobre estos enfoques se pueden encontrar en los libros

    de Searle, Casella y McCulloch (1992), Davidian y Giltinan (1995), Vonesh y

    Chinchilli (1996), Verbeke y Molenberghs (2000), Pinheiro y Bates (2000), Diggle,

    Heagerty, Liang y Zeger (2002), y Demidenko (2004), entre otros. En este captulo,

    vamos a revisar los modelos lineales de efectos mixtos y haremos hincapi en los

    mtodos que vamos a utilizar en captulos posteriores. El enfoque de este trabajo es

    presentar las ideas de modelado de efectos mixtos en suavizacin y regresin no

    paramtrica para el anlisis de datos longitudinales, es importante entender los

    conceptos bsicos y las propiedades clave de los modelos paramtricos de efectos

    mixtos.

    2.2. Modelo lineal de efectos mixtos

    2.2.1. Especificacin del modelo

    Harville (1976, 1977) y Laird y Ware (1982) propusieron por primera vez el

    siguiente modelo general lineal de efectos mixtos (linear mixed-effects (LME)):

    donde , y denotan la respuesta y el error de medicin de la -

    sima medicin del -simo sujeto, los parmetros desconocidos y

    generalmente se llaman el vector de efectos fijos y los vectores de efectos aleatorios,

    respectivamente (para simplificar, a menudo se refieren como parmetros de efectos

    fijos y efectos aleatorios del modelo LME), y y son los asociados a los vectores

    covariables de efectos fijos y efectos aleatorios. En la expresin anterior, y ,

    son conocidas como las componentes de varianza del modelo LME. En el

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    13

    modelo LME anterior, para simplificar, asumimos que y son independientes con

    distribuciones normales, y las mediciones entre-sujeto son independientes.

    El modelo LME (2.1) se escribe a menudo en la forma siguiente:

    donde ,

    , y

    .

    El modelo LME anterior incluye modelos lineales de coeficientes aleatorios

    (Longford 1993) y modelos para mediciones repetidas como casos especiales. Por

    ejemplo, un modelo de dos etapas lineal de coeficiente aleatorio para curvas de

    crecimiento (Longford 1993) se puede escribir como

    donde , , y se definen de manera similar como en (2.2), es un vector

    de coeficientes aleatorios del -simo sujeto, y es una matriz de diseo que

    contiene las covariables entre sujetos. Es fcil ver que el modelo lineal de coeficiente

    aleatorio (2.3) puede escribirse en la forma del modelo general LME (2.2) una vez que

    se establece .

    De hecho, se puede escribir un modelo general de dos etapas lineal de

    coeficiente aleatorio en la forma del modelo general LME (2.2). Un modelo general de

    dos etapas de coeficiente aleatorio se puede escribir como (Davidian y Giltinan 1995,

    Vonesh y Chinchilli 1996)

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    14

    donde es una matriz de diseo con elementos de 0 y 1 organizados para

    determinar los componentes de que son al azar, y es el asociado al vector de

    efectos aleatorios -dimensional. Este modelo general de dos etapas de coeficiente

    aleatorio se puede escribir en la forma del modelo general LME (2.2):

    una vez que se establece y

    . De hecho, es

    fcil demostrar que el modelo general de dos etapas de coeficiente aleatorio (2.4) es

    equivalente al modelo general LME (2.2). En particular, cuando , el modelo

    general de dos etapas de coeficiente aleatorio (2.4) se reduce al modelo de coeficiente

    aleatorio (2.3) para curvas de crecimiento. Ntese que el modelo general de dos etapas

    de coeficiente aleatorio (2.4) tambin se conoce como modelo de efectos mixtos de dos

    etapas y el modelo general LME (2.2) tambin se llama modelo lineal jerrquico.

    En notacin matricial, el modelo general LME (2.2) se puede escribir adems

    como

    donde

    Por lo general se asume que las mediciones repetidas de sujetos diferentes son

    independientes y estn correlacionadas solamente cuando vienen del mismo sujeto.

    Basado en el modelo general LME (2.5), tenemos

    donde la matriz de covarianza del vector de

    mediciones repetidas para el -simo sujeto es . Podemos ver

    que la correlacin entre las mediciones repetidas puede ser inducida o a travs del

    trmino de variacin entre-sujeto o a travs de la matriz de covarianza intra-

    sujeto . Por lo tanto, incluso si los errores de medicin intra-sujeto ( )

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    15

    son independientes, las mediciones repetidas pueden estar an correlacionadas

    debido a la variacin entre-sujeto. En algunos problemas, la correlacin puede provenir

    de dos fuentes. Sin embargo, para simplificar, podemos asumir que la correlacin es

    inducida nicamente a travs de la variacin entre-sujeto o asumir que es diagonal en

    el desarrollo de metodologas.

    2.2.2. Estimacin de los efectos fijos y aleatorios

    Las inferencias de y para el modelo general LME (2.2)

    pueden basarse en el mtodo de verosimilitud o el mtodo de mnimos cuadrados

    generalizados. Conocidas y , las estimaciones de y

    se pueden obtener minimizando el siguiente logaritmo dos veces negativas de

    la funcin de densidad conjunta de y (hasta una

    constante):

    Puesto que son los vectores de parmetros de efectos

    aleatorios, la expresin (2.7) no es un logaritmo de verosimilitud (log-likelihood)

    convencional. Para mayor comodidad, a partir de ahora y a lo largo de este trabajo,

    llamamos a (2.7) un logaritmo de verosimilitud generalizado (generalized log-likelihood

    (GLL)) de los parmetros de efectos mixtos ( , ). Tenga en cuenta que

    el primer trmino del lado derecho de (2.7) es un residuo ponderado tomando la

    variacin intra-sujeto en cuenta, y el trmino es una penalizacin debido a los

    efectos aleatorios tomando la variacin entre-sujeto en cuenta.

    Para determinadas y , minimizar el criterio GLL (2.7) es

    equivalente a resolver las denominadas ecuaciones del modelo mixto (Harville 1976,

    Robinson 1991):

    donde , , , , y se definen en (2.6). Utilizando el algebra matricial, las

    ecuaciones de rendimiento del modelo mixto

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    16

    donde y . Las matrices de

    covarianzas de y son:

    2.2.3. Interpretacin bayesiana

    Es conocido que el modelo general LME (2.2) tiene una estrecha relacin con un

    modelo Bayesiano en el sentido de que las soluciones (2.8) y (2.9) son las expectativas a

    posteriori de los parmetros de un modelo Bayesiano en virtud de no informativas

    probabilidades (distribuciones) a priori.

    Antes de seguir adelante, manifestamos los siguientes dos lemas tiles cuyas

    demostraciones se pueden encontrar en algunos libros de texto estndar multivariante,

    por ejemplo, Anderson (1984).

    Lema 2.1 Sean , y matrices , y tales que y son

    invertibles. Entonces

    En particular, cuando , y donde es un vector , tenemos

    Lema 2.2 Sea

    donde es invertible. Entonces

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    17

    Definimos ahora el siguiente problema Bayesiano:

    con distribucin a priori para y :

    donde , y son independientes unas de otras, y se define en

    (2.6).

    Ntese que la especificacin de es flexible. Por ejemplo, podemos dejar que

    . Esto indica que los componentes de son independientes unos de otros.

    Adems, cuando , tenemos . Esto indica que el lmite a priori

    en no es informativo.

    Teorema 2.1 Los mejores predictores imparciales lineales (2.8) y (2.9) que minimizan

    el criterio GLL (2.7) son los mismos que las expectativas del lmite a posteriori del

    problema Bayesiano definido en (2.14) y (2.15) con . Esto es,

    Adems, como , tenemos las siguientes distribuciones a posteriori:

    donde y

    Ntese que y implican los parmetros desconocidos y . Si sustituimos

    las estimaciones puntuales de y (vamos a discutir cmo estimarlos en las siguientes

    subsecciones), las estimaciones Bayesianas, y se refieren generalmente como

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    18

    estimaciones empricas de Bayes, aunque la estimacin emprica de Bayes se aplica

    convencionalmente slo a los efectos aleatorios .

    El Teorema 2.1 da las distribuciones del lmite a posteriori de , y en el

    marco Bayesiano (2.14) y (2.15) cuando o cuando lo a priori en no es

    informativo. A veces, es interesante conocer la distribucin a posteriori de y cuando

    est dada, por ejemplo, cuando . En realidad, este conocimiento es la base para

    el algoritmo EM basado en la mxima verosimilitud que vamos a revisar en el siguiente

    apartado. El siguiente teorema da los resultados relacionados.

    Teorema 2.2 Bajo el marco Bayesiano (2.14) y (2.15), tenemos

    Vale la pena notar que, segn el Teorema 2.2, tenemos y

    .

    2.2.4. Estimacin de los componentes de varianza

    Si las matrices de covarianza, y , son desconocidas, pero sus estimaciones

    puntuales, por ejemplo, y , estn disponibles, entonces podemos tener

    . Las estimaciones de y por lo tanto pueden ser obtenidas por

    sustitucin de y en (2.8) y (2.9). Sus correspondientes errores estndar estn dados

    por (2.10) y (2.12) despus de sustituir y por sus estimaciones. Sin embargo, estos

    errores estndar estn subestimados ya que los errores de estimacin de y no se

    contabilizan.

    Bajo el supuesto de normalidad, el mtodo de mxima verosimilitud (maximum

    likelihood (ML)) y el mtodo de mxima verosimilitud restringida (restricted maximum

    likelihood (REML)) son dos tcnicas populares para estimar los componentes

    desconocidos de y , aunque esto puede no ser adecuado si la hiptesis de

    normalidad es cuestionable.

    Bajo los supuestos de normalidad siguientes,

    , , ,

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    19

    la funcin de verosimilitud generalizada se puede escribir como

    donde es la dimensin de y . Si el vector de efectos aleatorios es

    integrable, podemos obtener la siguiente funcin de verosimilitud convencional:

    El mtodo ML para la estimacin de componentes de varianza es maximizar la

    siguiente funcin de log-verosimilitud:

    con respecto a los componentes de varianza para un determinado . Sin embargo, la

    maximizacin conjunta con respecto a los componentes de varianza , y el vector de

    parmetros de efectos fijos tambin da lugar a la estimacin de en (2.8).

    El mtodo REML se utiliza para integrar a y de con el fin de

    ajustar la prdida de grados de libertad debido a la estimacin de del mtodo ML, es

    decir, para maximizar

    Se puede demostrar que

    donde como se define en (2.18). Por lo tanto,

    tenemos que

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    20

    Las estimaciones REML de componentes de varianza se pueden obtener a travs

    de la maximizacin

    Derivaciones ms detalladas de estos resultados se pueden encontrar en

    Davidian y Giltinan (1995).

    2.2.5. Los algoritmos EM

    La implementacin de los mtodos ML y REML no es trivial. Para superar esta

    dificultad de implementacin, los mtodos de algoritmo EM y de Newton-Raphson han

    sido propuestos (Laird y Ware 1982, Dempster, Rubin y Tsutakawa 1981, Laird, Lange

    y Stram 1987, Jenrich y Schluchter 1986, Lindstrom y Bates 1990). Los libros de

    Searle, Casella y McCulloch (1992), Davidian y Giltinan (1995), Vonesh y Chinchilli

    (1996) y Pinheiro y Bates (2000) tambin proporcionan una buena revisin de estos

    mtodos de implementacin. El paquete estndar de software estadstico tal como R

    ofrece funciones convenientes para implementar estos mtodos (por ejemplo, la funcin

    lme de R). Haremos una breve revisin del algoritmo EM aqu.

    Recordemos que por lo general asumimos que tiene la forma simple

    siguiente:

    Cuando y se conocen, bajo el supuesto de normalidad, las estimaciones

    naturales ML de y sern

    Este es el paso M del algoritmo EM. Debido a que y no se conocen, las

    estimaciones anteriores no son computables. Hay dos maneras de superar esta

    dificultad, asociadas, respectivamente, con el algoritmo EM basado en el ML o REML.

    Ntese que las estimaciones ML de y se obtienen a travs de la

    maximizacin de la funcin de log-verosimilitud (2.20) con el vector de parmetros de

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    21

    efectos fijos dado. Por lo tanto, la clave para el algoritmo EM basado en el ML

    es sustituir la y en (2.23) con

    respectivamente. El razonamiento subyacente es que los componentes de varianza y

    se estiman sobre la base de los residuos despus de que la componente de efectos

    fijos estimada se elimina de los datos en bruto, y la estimacin no tomar la

    variacin de en cuenta. Este es el paso E del algoritmo EM basado en el ML.

    Usando el Teorema 2.2, podemos demostrar el siguiente teorema.

    Teorema 2.3 Supongamos que el modelo Bayesiano definido en (2.14) y (2.15) se

    cumple, y supongamos que satisface (2.22). Entonces tenemos que

    En el lado derecho de las expresiones (2.25), los componentes de varianza y

    an son desconocidas. Sin embargo, cuando se sustituyen por los valores actuales

    disponibles, los valores actualizados de y se pueden obtener. En otras palabras,

    proporcionando algunos valores iniciales de y , se pueden actualizar y

    utilizando (2.25) hasta la convergencia. Esta es la idea principal del algoritmo EM. Para

    simplificar, los valores iniciales pueden tomarse como y . El ciclo

    principal para el algoritmo EM basado en el ML es el siguiente:

    (a) Dados y , calcular y utilizando (2.8) y (2.9).

    (b) Dados y , actualizar y utilizando (2.25).

    (c) Alternar entre (a) y (b) hasta la convergencia.

    Sea el ndice de secuencia de las iteraciones, y , los

    valores estimados de y en la iteracin . Otras notaciones tales como , se

    definen de forma similar. A continuacin, ms formalmente, el algoritmo EM basado en

    el ML puede ser escrito como sigue:

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    22

    Algoritmo EM basado en el ML

    Paso 0. Establecer . Sea , y .

    Paso 1. Establecer . Actualizar y utilizando

    donde

    Paso 2. Actualizar y utilizando

    donde

    Paso 3. Repetir los pasos 1 y 2 hasta la convergencia.

    El algoritmo EM basado en el REML puede ser igualmente descrito. Las

    principales diferencias son:

    (a) El algoritmo EM basado en el REML se ha desarrollado para encontrar las

    estimaciones REML de y que maximizan (2.21).

    (b) La clave para el algoritmo EM basado en el REML es reemplazar y en

    (2.23) por y en lugar de sus expectativas condicionadas a y

    como se indica en (2.24). Estas expectativas condicionales se pueden obtener

    fcilmente utilizando el Teorema 2.1 y las presentaremos en el Teorema 2.4 a

    continuacin para facilitar su consulta.

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    23

    (c) El algoritmo EM basado en el REML puede ser obtenido simplemente a travs

    de sustituir todos los en el Paso 2 del algoritmo EM basado en el ML

    anterior con , donde

    El Teorema 2.4 a continuacin es similar al Teorema 2.3 pero se basa en el

    Teorema 2.1.

    Teorema 2.4 Supongamos que el modelo Bayesiano definido en (2.14) y (2.15) se

    cumple, y supongamos que satisface (2.22). Entonces como ,

    donde

    .

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    24

    Captulo 3: Suavizadores en regresin no paramtrica

    3.1. Introduccin

    En el Captulo 2, hemos revisado los modelos paramtricos de efectos mixtos

    para datos longitudinales, en particular hemos visto los modelos lineales de efectos

    mixtos. Estos modelos paramtricos de efectos mixtos han sido ampliamente estudiados

    y aplicados para analizar datos longitudinales en la literatura (Lindsey 1993, Diggle,

    Liang y Zeger 1994, Davidian y Giltinan 1995, Vonesh y Chinchilli 1996, Pinheiro y

    Bates 2000, Verbeke y Molenberghs 2000). Uno de los supuestos bsicos de estos

    modelos es que la variable de respuesta (o a travs de una funcin de enlace conocida)

    es una funcin paramtrica conocida de ambos efectos fijos y efectos aleatorios. Es

    decir, para cada individuo, la relacin subyacente entre la respuesta y las covariables de

    efectos mixtos es paramtrica. Sin embargo, esta suposicin no siempre se cumple en

    las aplicaciones prcticas.

    Tomamos los datos de progesterona, introducidos en la Seccin 1.1.1 del

    Captulo 1, como un ejemplo. La Figura 3.1 muestra la grfica de los datos con puntos

    (crculos) individuales de progesterona de un sujeto seleccionado (hemos seleccionado

    el sujeto nmero 2 del ciclo 5 del grupo no conceptivo). Se presentan ejemplos de algn

    polinomio de menor grado ajustado (curvas continuas de color negro) a los datos. El

    panel (a) representa un ajuste del modelo lineal, que no se ajusta adecuadamente a los

    datos. Esta dificultad puede ser superada por el aumento del grado de los polinomios,

    por ejemplo de lineal a cuadrtico, cbico o cuartico como se muestran en los paneles

    (b), (c) y (d), respectivamente. Se ve que cuanto mayor sea el grado del polinomio, ms

    adecuadamente se ajustan los datos. Se ve que tanto los modelos polinomiales cbico y

    cuartico son generalmente bien ajustados a los datos, pero los ajustes siguen siendo

    pobres antes del Da 0.

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    25

    Se obtuvieron resultados similares cuando reemplazamos el sujeto seleccionado

    por algunos otros sujetos elegidos. Por lo tanto, un modelo polinomial de menor grado

    puede no ajustarse bien a los datos de progesterona. Estos datos son slo un ejemplo de

    conjuntos de datos prcticos que no pueden ser bien ajustados por polinomios de grado

    menor. Hrdle (1990), Fan y Gijbels (1996), Green y Silverman (1994), y Ramsay y

    Silverman (1997, 2002), entre otros, proporcionaron ejemplos de datos donde no es

    posible ajustar adecuadamente los datos mediante polinomios de cualquier grado o

    cualquiera de los modelos paramtricos. En estos casos, las tcnicas no paramtricas de

    modelado son necesarias.

    Los datos de progesterona para el sujeto seleccionado, presentados como

    crculos en la Figura 3.1, se pueden denotar como

    -5 0 5 10 15

    -10

    12

    3

    Figura 3.1 (a) Lineal

    dias

    log

    (p

    rog

    )

    -5 0 5 10 15

    -10

    12

    3

    Figura 3.1 (b) Cuadrtico

    dias

    log

    (p

    rog

    )

    -5 0 5 10 15

    -10

    12

    3

    Figura 3.1 (c) Cbico

    dias

    log

    (p

    rog

    )

    -5 0 5 10 15

    -10

    12

    3Figura 3.1 (d) Cuartico

    dias

    log

    (p

    rog

    )

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    26

    donde son conocidos como puntos en tiempo de diseo, y

    son las respuestas a los puntos en tiempo de diseo. Los puntos en tiempo de

    diseo pueden ser igualmente espaciados en un intervalo de inters, o ser considerado

    como una muestra aleatoria de una densidad de diseo continua, concretamente, .

    Para simplificar, vamos a denotar el intervalo de inters, o el soporte de como ,

    que puede ser un intervalo finito, por ejemplo, o toda la recta real . Las

    respuestas se observan a menudo con errores.

    Para un conjunto de datos como el anterior, un modelo de regresin no

    paramtrica simple se suele escribir como

    donde modela la funcin de regresin subyacente que queremos estimar, pero no

    puede ser aproximada utilizando un modelo paramtrico adecuado, y

    denota los errores de medicin que no pueden ser explicados por la funcin de regresin

    . Matemticamente, es la esperanza condicionada de , dado , es decir,

    Para los datos longitudinales, el conjunto de datos (3.1) describe la estructura de

    datos para un sujeto individual donde es la funcin de los individuos, y

    son los puntos en tiempo de diseo de los individuos con mediciones.

    Hay muchos suavizadores existentes que pueden ser utilizados para estimar la

    en (3.2). Diferentes suavizadores tienen diferentes puntos fuertes en uno u otro

    aspecto. Por ejemplo, la suavizacin splines puede ser buena para el manejo de la

    escasez de datos, mientras que los suavizadores polinomial local pueden ser

    computacionalmente ventajosos para el manejo de diseos densos. En este captulo,

    revisaremos los suavizadores polinomial local (Wand y Jones 1995, Fan y Gijbels 1996)

    en la Seccin 3.2. En captulos posteriores, se desarrollan la media de la poblacin no

    paramtrica y modelos de efectos mixtos para datos longitudinales basados en estos

    suavizadores.

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    27

    3.2. Suavizador del ncleo polinomial local

    3.2.1. Grado general del suavizador LPK

    La idea principal del suavizado del ncleo polinomial local (local polynomial

    kernel (LPK)) es aproximar localmente la en (3.2) por un polinomio de menor grado.

    Su fundamento es la expansin de Taylor, que establece que cualquier funcin suave

    puede ser localmente aproximada por un polinomio de menor grado.

    En concreto, sea un punto arbitrario en un tiempo fijo donde la funcin en

    (3.2) ser estimada. Supongamos que tiene -primera derivada continua para

    algn entero en . Por la expansin de Taylor, puede ser localmente

    aproximada por un polinomio de grado . Es decir,

    en una zona de que permita la expansin anterior donde denota la derivada

    -sima de en .

    Fijamos , . Sea los

    minimizadores del siguiente criterio de mnimos cuadrados ponderados (weighted least

    squares (WLS)):

    donde , que se obtiene a travs de re-escalar una funcin del ncleo

    con una constante , llamado el ancho de banda o parmetro de suavizado. El

    ancho de banda se utiliza principalmente para especificar el tamao de la zona local,

    concretamente,

    donde el ajuste local se lleva a cabo. La funcin del ncleo, , determina cmo las

    observaciones dentro de contribuyen al ajuste en . Discutiremos las funciones

    del ncleo en la Seccin 3.2.3. Denotemos la estimacin de la derivada -sima

    como . Entonces

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    28

    En particular, el resultado del -simo grado del estimador LPK de es

    .

    Una expresin explcita para es til y puede hacerse a travs de la

    notacin de matrices. Sea

    y

    la matriz de diseo y la matriz de pesos para el ajuste LPK alrededor de . Entonces el

    criterio WLS (3.3) se puede reescribir como

    donde y

    . Resulta que

    donde denota un vector unitario -dimensional cuya -primera

    entrada es 1 y las otras entradas son 0, y

    Cuando se ejecuta sobre todo el soporte de los puntos en tiempo de diseo,

    una estimacin de todo el rango de se obtiene. El estimador derivado

    se suele llamar suavizador LPK de la funcin derivada subyacente

    . El suavizador derivado se suele calcular en una cuadrcula de s en .

    En este captulo, slo nos centramos en la curva ms suave

    a menos que discutamos la estimacin derivada. Fijamos para ser el valor

    ajustado de . Por (3.6), se observa que

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    29

    donde es

    despus de sustituir con . Sea que

    denota el valor ajustado en todos los puntos en tiempo de diseo. Entonces se puede

    expresar como

    donde

    se conoce como la matriz suavizadora del suavizador LPK. Puesto que no depende

    del vector de respuesta , el suavizador LPK se conoce como suavizador lineal.

    3.2.2. Suavizadores lineal y constante local

    Los suavizadores lineal y constante local son los dos ms simples y ms tiles

    suavizadores LPK. El suavizador constante local se conoce como el estimador

    Nadaraya-Watson (Nadaraya 1964, Watson 1964). Este suavizador resulta del

    suavizador LPK (3.6) simplemente tomando :

    Dentro de una zona local , se ajusta a los datos con una

    constante. Es decir, es el minimizador del siguiente criterio WLS:

    El estimador Nadaraya-Watson es fcil de entender y fcil de calcular. Sea

    que denota la funcin indicadora de un conjunto . Cuando la funcin del ncleo es

    el ncleo Uniforme

    el estimador Nadaraya-Watson (3.9) es exactamente la media local de s que estn

    dentro de la zona local (3.4):

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    30

    donde denota el nmero de observaciones que caen dentro de la zona local

    . Sin embargo, cuando est en la frontera de , menos puntos de diseo estn

    dentro de la zona de modo que tiene una tasa de convergencia ms lenta

    que el caso cuando est en el interior de . Para una explicacin detallada de este

    efecto frontera, se remite al lector a Fan y Gijbels (1996) y Cheng, Fan y Marron

    (1997).

    El suavizador lineal local (Stone 1984, Fan 1992, 1993) se obtiene a travs de

    ajustar un conjunto de datos a nivel local con una funcin lineal. Sea que

    minimiza el siguiente criterio WLS:

    Entonces el suavizador lineal local es . Se puede obtener fcilmente

    del suavizador LPK (3.6) simplemente tomando . Se le conoce como un

    suavizador con un efecto de frontera libre (Cheng, Fan y Marron 1997). Es decir, tiene

    la misma tasa de convergencia en cualquier punto de . Tambin exhibe muchas buenas

    propiedades que los otros suavizadores lineales pueden carecer. Buenas discusiones

    sobre estas propiedades se pueden encontrar en Fan (1992, 1993), Hastie y Loader

    (1993), y Fan y Gijbels (1996, Captulo 2), entre otros. Un suavizador lineal local puede

    ser simplemente expresado como

    donde

    Por lo general, la eleccin del grado de ajuste LPK, , no es tan importante

    como la eleccin del ancho de banda, . Un suavizador constante local o lineal

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    31

    local a menudo es lo suficientemente bueno para la mayora de los problemas

    de aplicacin si la funcin del ncleo y el ancho de banda son adecuadamente

    determinados. Fan y Gijbels (1996, Captulo 3) seal que para la estimacin de la

    curva (no vlido para la estimacin derivada) un impar es preferible. Esto es as

    porque un ajuste LPK con , introduce un parmetro adicional en

    comparacin con un ajuste LPK con , pero no aumenta la varianza del estimador

    asociado LPK. Sin embargo, el sesgo asociado puede ser reducido significativamente,

    especialmente en las regiones de frontera (Fan 1992, 1993, Hastie y Loader 1993, Fan y

    Gijbels 1996, Cheng, Fan y Marron 1997). Por lo tanto, el suavizador lineal local es

    altamente recomendable para la mayora de los problemas en la prctica.

    3.2.3. Funcin del ncleo

    La funcin del ncleo utilizada en el suavizador LPK (3.6) es generalmente

    una funcin de densidad de probabilidad simtrica. Mientras que el ancho de banda

    especifica el tamao de la zona local , el ncleo especifica cmo las

    observaciones contribuyen al ajuste LPK en .

    Hemos visto anteriormente el ncleo Uniforme (3.10) y ahora vemos el ncleo

    Gaussiano (funcin de densidad de probabilidad normal estndar)

    Cuando el ncleo Uniforme se utiliza, todos los s dentro de la zona local

    contribuyen igualmente (los pesos son los mismos) en el ajuste LPK en ,

    mientras que todos los s fuera de la zona no contribuyen en nada. Cuando el ncleo

    Gaussiano se utiliza, sin embargo, la contribucin de los s se determina por la

    distancia de a , es decir, cuanto menor es la distancia , mayor es la

    contribucin. Esto es porque el ncleo Gaussiano es con forma de campana y alcanza su

    punto mximo en el origen. El ncleo Uniforme tiene un soporte limitado que permite al

    ajuste LPK utilizar los datos slo en la zona . Esto hace una implementacin

    rpida del posible ajuste LPK, lo cual es ventajoso sobre todo para grandes conjuntos de

    datos. El uso del ncleo Gaussiano a menudo resulta en buenos efectos visuales de los

    suavizadores LPK, pero paga un precio de requerir ms esfuerzo computacional.

    Los ncleos Uniforme y Gaussiano son dos miembros especiales de la siguiente

    bien conocida familia Beta simtrica (Marron y Nolan 1989):

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    32

    donde y denota una funcin beta con parmetros y .

    La eleccin de conducen a las funciones ncleo Uniforme,

    Epanechnikov, Biweight y Triweight, respectivamente. El ncleo Gaussiano es el lmite

    de la familia (3.13) cuando . El ncleo Epanechnikov se conoce como el ncleo

    ptimo (Fan y Gijbels 1996) para la suavizacin LPK.

    La eleccin de un ncleo no suele ser tan importante, ya que no determina la tasa

    de convergencia del suavizador LPK (3.6) a la curva subyacente. Sin embargo,

    determina la eficiencia relativa del suavizador LPK. Para ms discusin sobre la

    eleccin del ncleo, consulte Gasser, Mller y Mammitzsch (1985), Fan y Gijbels

    (1996), Zhang y Fan (2000) y sus referencias.

    3.2.4. Seleccin del ancho de banda

    Un suavizador se considera que es bueno si produce un pequeo error de

    prediccin, por lo general medido por el Error Cuadrtico Medio (Mean Squared Error

    (MSE)) o el Error Cuadrtico Medio Integrado (Mean Integrated Squared Error

    (MISE)) del suavizador. Para el suavizador LPK , sus MSE y MISE se definen

    como

    donde

    se conocen como el sesgo y la varianza de , y es una funcin de peso, a

    menudo utilizada para especificar un rango concreto de inters.

    Bajo ciertas condiciones de regularidad como que es un punto interior,

    podemos demostrar que como ,

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    33

    donde significa est acotada en la probabilidad. Vase, por ejemplo,

    Fan y Gijbels (1996, Captulo 3) para ms detalles. De esto, podemos ver que el ancho

    de banda controla el equilibrio entre el sesgo al cuadrado y la varianza del suavizador

    LPK . Cuando es pequeo, el sesgo al cuadrado es pequeo pero la varianza es

    grande. Por otro lado, cuando es grande, el sesgo al cuadrado es grande mientras que

    la varianza es pequea. Una buena eleccin de por lo general compensar estos dos

    trminos para que el MSE o MISE asociado se reduzca al mnimo.

    El papel desempeado por el ancho de banda tambin se puede ver

    intuitivamente. Como se mencion anteriormente, el ancho de banda especifica el

    tamao de la zona local . Cuando es pequeo,

    contiene slo unas pocas observaciones de modo que puede estar bien ajustado

    en base al criterio WLS (3.3) para aproximarse cerca de . Esto implica un pequeo

    sesgo de . Sin embargo, ya que slo unas pocas observaciones estn involucradas

    en el ajuste LPK, la varianza del estimador es muy grande. Con un razonamiento

    similar, cuando es grande, contiene muchas observaciones de modo que

    tiene un sesgo grande pero una varianza pequea.

    Es entonces natural seleccionar un ancho de banda global para que el MISE

    (MSE para un ancho de banda local) de se reduzca al mnimo.

    Desafortunadamente, el MISE (3.14) no es calculable ya que es, despus de todo,

    desconocido y es el objetivo que se estima. Este problema se puede superar mediante la

    seleccin de para minimizar algn estimador del MISE. Un estimador del MISE se

    puede obtener a travs de la estimacin de las cantidades desconocidas en la expresin

    asinttica MISE usando algn grado superior del ajuste LPK, dando como resultado el

    llamado complemento de los selectores de ancho de banda (Fan y Gijbels 1992,

    Ruppert, Sheather y Wand 1995). El MISE tambin se puede estimar mediante

    validacin cruzada o sus versiones modificadas: validacin cruzada generalizada

    (Wahba 1985), criterio de informacin Akaike (Akaike 1973) y criterio de informacin

    Bayesiano (Schwarz 1978), entre otros.

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    34

    3.2.5. Un ejemplo ilustrativo

    Para una rpida implementacin del suavizador LPK, referimos a los lectores a

    Fan y Marron (1994) donde una tcnica de agrupacin se propone para el manejo de

    grandes conjuntos de datos. Ahora aplicamos el suavizador LPK (3.6) a los datos

    presentados en la Figura 3.1. Como ejemplo ilustrativo, se emple el ajuste lineal local

    con tres diferentes anchos de banda. En la Figura 3.2, los tres ajustes lineales

    locales se presentan. La curva continua de color rojo casi interpola los datos ya que

    utiliza un ancho de banda , que es demasiado

    pequeo. Este es el caso de infra-suavizado. La curva continua de color azul no se ajusta

    bien a los datos ya que utiliza un ancho de banda ,

    que es demasiado grande. Este es el caso de sobre-suavizado. La curva continua de

    color negro produce un buen ajuste a los datos ya que utiliza un ancho de banda

    seleccionado por GCV, que no es demasiado

    pequeo o demasiado grande.

    -5 0 5 10 15

    -10

    12

    3

    Figura 3.2 Ajustes lineales locales

    dias

    log

    (pro

    g)

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    35

    Captulo 4: Mtodos localmente polinomiales

    4.1. Introduccin

    Las tcnicas de suavizado localmente polinomiales han sido bien desarrolladas

    para datos i.i.d. o transversales (Wand y Jones 1995, Fan y Gijbels 1996). Con el fin de

    aplicar estas tcnicas al anlisis de datos longitudinales, los esfuerzos se han hecho

    considerables para incorporar las caractersticas de los datos longitudinales en los

    mtodos de suavizado del ncleo (Hoover, Rice, Wu y Yang 1998, Wu, Chiang y

    Hoover 1998, Fan y Zhang 2000, Lin y Carroll 2000, Wu y Chiang 2000, Wu y Zhang

    2002a, Welsh, Lin y Carroll 2002, Wang 2003, Park y Wu 2005). En los estudios

    longitudinales, los datos recogidos del mismo sujeto en el tiempo tienden a estar

    correlacionados, aunque los datos de diferentes sujetos se supone que son

    independientes. Las variaciones intra-sujeto y entre-sujeto son diferentes y necesitan ser

    modeladas apropiadamente.

    Hoover, Rice, Wu y Yang (1998), Wu, Chiang y Hoover (1998) y Wu y Chiang

    (2000) propusieron por primera vez el mtodo de estimacin del ncleo para modelos

    con coeficientes variando en el tiempo con datos longitudinales. Sin embargo, las

    caractersticas de los datos longitudinales no se incorporan directamente en sus

    mtodos, aunque el criterio de validacin-cruzada dejar-un-sujeto-fuera se propone

    para la seleccin del parmetro de suavizado en el que los datos de sujeto-basados en

    clusters son reconocidos. Para los datos correlacionados del modelo no paramtrico,

    tales como datos longitudinales, Diggle y Hutchinson (1989), Altman (1991), Hart

    (1991), Rice y Silverman (1991) y otros han propuesto modificaciones para el criterio

    de seleccin del parmetro de suavizado tales como la validacin-cruzada (cross-

    validation (CV)) o la validacin-cruzada generalizada (generalized cross-validation

    (GCV)) o el uso de CV o GCV dejar-un-sujeto-fuera de forma indirecta en cuenta de

    las correlaciones entre los datos. Lin y Carroll (2000) propusieron un mtodo de

    ecuacin de estimacin generalizada del ncleo polinomial local (local polynomial

    kernel generalized estimating equation (LPK-GEE)) para clustered (agrupados) o datos

    longitudinales. Ellos mostraron que la mejor estrategia es ignorar la estructura de

    correlacin de los datos longitudinales (fingir como si los datos dentro de un grupo o

    sujeto son independientes) en el estimador LPK-GEE. Sin embargo, sus conclusiones se

    basan en los resultados asintticos a condicin de que el nmero de sujetos o grupos

    tiende a infinito y el nmero de mediciones de cada sujeto es finito. El estimador

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    36

    working-independence de Lin y Carroll no puede ser el mejor para los casos de muestra

    finita. De hecho, algunos nuevos resultados han demostrado que es necesaria la

    incorporacin de las correlaciones de datos longitudinales en el estimador con el fin de

    lograr una mayor eficacia en situaciones de muestras finitas (Wu y Zhang 2002a,

    Welsh, Lin y Carroll 2002, Wang 2003). Fan y Zhang (2000) sugiere un enfoque en dos

    etapas (primero con un promedio local o de regresin, luego suavizado) de forma

    indirecta en cuenta de la correlacin de datos. Un enfoque de modelado de efectos

    mixtos localmente polinomial, el cual ms apropiadamente modela las correlaciones

    intra-sujeto, fue propuesto por Wu y Zhang (2002a). Este mtodo ser uno de los temas

    centrales de este captulo.

    Se amplan los modelos lineales de efectos mixtos (Captulo 2) a una

    configuracin de modelo no paramtrico ms general en este captulo. El resto de este

    captulo est organizado de la siguiente manera. En primer lugar se revisan los mtodos

    para la estimacin de la funcin de media poblacional para datos longitudinales en la

    Seccin 4.2. Un mtodo polinomial local simple y un mtodo LPK-GEE se describen

    brevemente. La Seccin 4.3 introduce un modelo no paramtrico de efectos mixtos

    (nonparametric mixed-effects (NPME)) y la Seccin 4.4 presenta la tcnica de

    modelado de efectos mixtos localmente polinomial. Se discuten diferentes estrategias de

    seleccin del ancho de banda en la Seccin 4.5. Para ilustrar las metodologas, una

    aplicacin a los datos de progesterona se presenta en la Seccin 4.6. La mayora de los

    materiales de las Secciones 4.3~4.6 provienen de dos artculos de Wu y Zhang (2002a)

    y Park y Wu (2005).

    4.2. Modelo no paramtrico para la media poblacional

    Un conjunto de datos longitudinales, por ejemplo, los datos de progesterona

    introducidos en la Seccin 1.1.1 del Captulo 1, son normalmente coleccionados

    mediante mediciones repetidas de una serie de sujetos durante un perodo de tiempo.

    Los puntos en tiempo de diseo pueden ser diferentes para sujetos diferentes y tambin

    lo son el nmero de mediciones. Sea el nmero de sujetos, y sea el -simo

    punto en tiempo de diseo del -simo sujeto y la respuesta asociada donde

    con denotando el nmero de mediciones del -simo sujeto. Tal conjunto

    de datos longitudinales puede ser simblicamente expresado como

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    37

    Si un modelo paramtrico no est disponible para el modelado de la funcin de

    media poblacional de los anteriores datos longitudinales, es natural modelar en no

    paramtrica. Es decir, asumimos justamente que la funcin de media poblacional es

    suave. Tal modelo no paramtrico de media poblacional (nonparametric population

    mean (NPM)) se puede escribir como

    donde es la funcin suave de media poblacional, y son las salidas de las

    mediciones longitudinales de la funcin de media poblacional. Este modelo es

    comparable con el modelo de regresin no paramtrica estndar (3.2) del Captulo 3,

    pero difiere en que los errores en el modelo NPM (4.2) son por lo general no

    independientes.

    Dado que no est disponible la forma paramtrica para el modelado de , las

    tcnicas de suavizado no paramtricas son necesarias para ser utilizadas. De hecho,

    varias tcnicas no paramtricas se han propuesto para los modelos de coeficientes

    variando en el tiempo que incluyen el modelo NPM (4.2) como un caso especial. En

    esta seccin, se revisan dos tcnicas: un mtodo del ncleo polinomial local (local

    polynomial kernel (LPK)) (Hoover, Rice, Wu y Yang 1998); y un mtodo LPK-GEE

    (Lin y Carroll 2000).

    4.2.1. Mtodo del ncleo polinomial local

    El mtodo LPK para los modelos de coeficientes variando en el tiempo para

    datos longitudinales fue propuesto y estudiado por primera vez por Hoover, Rice, Wu y

    Yang (1998). Como fue el caso del suavizado LPK de datos independientes revisado en

    la Seccin 3.2 del Captulo 3, la idea principal de este mtodo LPK es ajustar un

    polinomio de cierto grado a localmente.

    Sea un punto arbitrario en tiempo fijo. Supongamos que tiene un mximo

    de -primeras derivadas continuas para algn entero en . Entonces por la

    expansin de Taylor, se puede aproximar localmente por un polinomio de grado

    . Es decir,

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    38

    donde y

    con

    ,

    . Sea el estimador de obtenido al minimizar el

    siguiente criterio de mnimos cuadrados ponderados (weighted least squared (WLS)):

    donde con una funcin del ncleo y un ancho de banda. Al igual

    que con el suavizado de datos independientes descrito en la Seccin 3.2, el ancho de

    banda se utiliza para especificar el tamao de la zonal local y el ncleo

    se utiliza para especificar el efecto de los puntos de datos de acuerdo a la distancia

    entre y . Por lo general, mientras ms cerca la distancia est, ms grande el efecto

    es.

    Para dar una expresin explcita para en la notacin de matrices, sea

    la matriz de diseo y la matriz de peso para el -simo sujeto, respectivamente. Adems,

    se denota

    y . Entonces el criterio WLS (4.4)

    se puede reescribir como

    donde

    con siendo el vector respuesta del -simo

    sujeto. Se deduce de minimizar (4.5) con respecto a que

    Sea un vector unitario -dimensional cuya -sima entrada es 1 y las

    dems son 0. Entonces es fcil ver que a partir de las definiciones de

    que los estimadores de las derivadas son

    En particular, el estimador LPK para la funcin de media poblacional es

    .

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    39

    Al igual que con suavizado en datos i.i.d. que se describe en la Seccin 3.2,

    puede ser tomado como 0 y 1 por simplicidad. Por ejemplo, cuando , tenemos

    , un vector de -dimensiones de s y el estimador LPK resultante es

    generalmente conocido como el denominado estimador del ncleo constante local de

    donde es el nmero de mediciones totales para todos los sujetos. A

    partir de (4.6), el estimador del ncleo constante local de tiene la siguiente

    expresin sencilla:

    Cuando , es decir, hay solo una medicin por sujeto, el estimador (4.8) se

    reduce al estimador de datos i.i.d. en (3.9). El estimador (4.8) se llama un estimador del

    ncleo constante local ya que es igual al minimizador, , del siguiente criterio WLS:

    En otras palabras, es la mejor constante que se aproxima a en la zona local

    en lo que respecta a la minimizacin (4.9).

    Cuando , el estimador LPK asociado es generalmente conocido como

    el estimador del ncleo lineal local de . A partir de (4.6), el estimador del ncleo

    lineal local puede ser expresado como

    donde

    Del mismo modo, el estimador (4.10) se llama un estimador del ncleo lineal

    local ya que se obtiene mediante aproximacin de en una zona local utilizando una

    funcin lineal , es decir, minimizando el siguiente criterio WLS:

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    40

    Basado en los resultados de Hoover, Rice, Wu y Yang (1998), es fcil demostrar

    que cuando , bajo ciertas condiciones de regularidad, tenemos

    donde el trmino de primer orden en la expresin de se

    relaciona con la variacin intra-sujeto solamente, mientras que el trmino de segundo

    orden se asocia con la variacin entre-sujeto. De ello se desprende que

    las propiedades asintticas de son diferentes cuando es limitada, en

    comparacin a cuando no es acotado (limitado). De hecho, cuando todos los son

    limitados, la en (4.12) est dominada por el trmino de primer orden para que

    ; cuando todos los tienden a infinito, la est

    dominada por el trmino de segundo orden para que

    . En particular, supongamos entonces como

    , tenemos . En este caso, es -consistente.

    A partir de (4.12), el ancho de banda ptimo terico que minimiza

    es del orden de cuando es limitada. Rice y

    Silverman (1991) propusieron un mtodo de validacin cruzada dejar-un-sujeto-fuera

    para la seleccin de un ancho de banda adecuado para datos longitudinales. Esta

    estrategia de seleccin de ancho de banda fue empleada por Hoover, Rice, Wu y Yang

    (1998).

    4.2.2. Mtodo del ncleo polinomial local GEE

    El mtodo LPK-GEE fue propuesto y estudiado por Lin y Carroll (2000). Para el

    modelo NPM (4.2), basado en la notacin como , , y definido en el apartado

    anterior, el asociado LPK-GEE es

    donde con y siendo una matriz de correlacin de

    trabajo especificado por el usuario. Cuando , el LPK-GEE (4.13) se puede

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    41

    obtener a travs de diferenciar el criterio WLS (4.5) con respecto a y se establece

    igual a 0. La solucin del anterior LPK-GEE con respecto a lleva al llamado

    estimador LPK-GEE

    Los estimadores para y sus derivadas se pueden obtener fcilmente

    utilizando (4.7).

    La matriz de correlacin de trabajo en la formulacin LPK-GEE (4.13) se

    utiliza para tener en cuenta parcialmente la estructura de correlacin subyacente de .

    En particular, cuando tomamos , tenemos de manera

    que la estructura de correlacin verdadera se tiene en cuenta aunque esto es casi

    imposible en aplicaciones reales.

    El resultado contrario a la intuicin de Lin y Carroll (2000) es que el ms

    eficiente estimador LPK-GEE se obtiene haciendo caso omiso de la correlacin intra-

    sujeto en lugar de especificar correctamente la correlacin intra-sujeto, es decir,

    suponiendo . Argumentaron que, asintticamente, no hay necesidad de tomar en

    cuenta la correlacin porque cuando el ancho de banda es reducido a 0 como el tamao

    de la muestra , la posibilidad de que ms de dos observaciones sean del mismo

    sujeto es pequea y por lo tanto los datos utilizados en la estimacin local son de sujetos

    diferentes que se supone que son independientes. Esto implica que la matriz de

    covarianza verdadera para los datos que contribuyen a la estimacin local es

    asintticamente diagonal. Por lo tanto, el estimador LPK-GEE working independence

    es asintticamente ptimo (Lin y Carroll 2000). Esto est en contraste con la

    paramtrica habitual GEE (Liang y Zeger 1986) en que la mejor estrategia es utilizar la

    verdadera correlacin de los datos. Como se mencion en Hoover, Rice, Wu y Yang

    (1998), debemos interpretar los resultados asintticos con precaucin ya que en

    aplicaciones de datos reales, el ancho de banda adecuado seleccionado por un selector

    de ancho de banda no suele ser tan pequeo y los resultados asintticos pueden no ser

    aplicables. En otras palabras, tomando adecuadamente en cuenta la correlacin puede

    ser necesaria para anlisis de datos de muestras finitas.

    Se puede observar que el mtodo LPK-GEE utiliza el peso del ncleo para

    controlar los sesgos. Con el fin de reducir los sesgos, todos los datos localizados lejos

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    42

    del punto de estimacin se ponderan hacia abajo aunque estos datos pueden contener

    informacin til debido a la correlacin con los datos cerca del punto de estimacin del

    mismo sujeto. Por lo tanto, la eficiencia de la estimacin se puede perder ya que es

    difcil controlar los sesgos y reducir la varianza de forma simultnea. Para hacer frente a

    este problema, Wang (2003) propuso un procedimiento de dos pasos. La idea bsica es

    la siguiente: Para utilizar de manera eficiente toda la informacin relacionada a un

    sujeto, una vez que un punto de datos de un sujeto o grupo se encuentra cerca del punto

    de estimacin (por ejemplo, a ) y contribuye significativamente a la estimacin local,

    todos los puntos de datos de este sujeto o grupo se utilizarn. Para evitar sesgos, las

    contribuciones de todos estos puntos de datos excepto el punto de datos cerca del punto

    de estimacin local son a travs de sus residuos. Se define como una matriz

    con la -sima fila

    y 0 en otro caso. El

    procedimiento de dos pasos para el modelo NPM (4.2) puede ser descrito de la siguiente

    manera (Wang 2003):

    Paso 1. Obtener un estimador inicial consistente de , por ejemplo . Por

    ejemplo, el estimador working independence puede ser tomado como .

    Paso 2. Obtener la estimacin final de , por ejemplo , resolviendo la

    ecuacin estimada del ncleo ponderado

    donde el -simo elemento de es

    cuando con estando a un margen

    del punto de tiempo ; y el -simo elemento de es cuando .

    La estructura de est diseada de manera que, para un cuyo tiempo de

    medicin no est a un margen de , el residuo , en lugar de ,

    contribuye a la estimacin local . Esto garantizar el estimador propuesto

    para ser asintticamente insesgado en el peor caso.

    Para el modelo NPM (4.2), podemos expresar el estimador de dos pasos como

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    43

    donde

    denota la -sima entrada de con siendo la matriz de covarianza

    de trabajo para el -simo sujeto. Comparando (4.16) al estimador working

    independence , es decir,

    vemos que los datos correlacionados pero no en un margen de se incorporan en el

    estimador de dos pasos mediante la adicin de sus residuos ponderados obtenidos a

    partir del primer paso, y el peso es su correlacin (covarianza) hasta el -simo punto de

    datos que est en un margen de . La ventaja del estimador en dos pasos es una

    reduccin de la varianza sin la ampliacin de los sesgos al menos asintticamente. El

    anterior mtodo de dos pasos puede ser mejorado mediante la iteracin de los dos pasos.

    Sin embargo, las investigaciones tericas muestran, a la primera orden, que el estimador

    de dos pasos alcanza las mismas propiedades asintticas que el estimador totalmente

    reiterado. Wang (2003) muestra que el estimador de dos pasos supera de manera

    uniforme el estimador working independence (Lin y Carroll 2000) en trminos de la

    varianza asinttica si la covarianza verdadera se ha especificado correctamente.

    El mtodo de dos pasos de Wang proporciona una forma inteligente de

    incorporar correlaciones intra-sujeto de datos longitudinales con el fin de utilizar

    eficientemente los datos disponibles para mejorar el estimador working independence.

    Sin embargo, el uso de un margen de de para determinar si los datos o sus

    residuos deben ser utilizados para estimar es totalmente arbitrario. No sabemos

    cmo esto afecta a la seleccin del ancho de banda. Con el fin de implementar el

    mtodo de Wang, la covarianza de trabajo tiene que ser estimada separadamente. En la

    Seccin 4.4, presentaremos el enfoque de modelado de efecto mixto para incorporar las

    correlaciones intra-sujeto de una manera ms natural.

    Chen y Jin (2005) recientemente propusieron utilizar simplemente el mtodo

    local de mnimos cuadrados generalizado (generalized least squares (GLS)) para

    explicar las correlaciones de datos longitudinales. Su mtodo no es nada nuevo y se

    puede considerar como un caso especial del modelo de efectos mixtos localmente

    polinomial descrito en la Seccin 4.4. Adems, su mtodo tambin requiere determinar

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    44

    o estimar la matriz de covarianza separadamente, y una estimacin precisa de la matriz

    de covarianza es generalmente difcil de obtener.

    4.3. Modelo no paramtrico de efectos mixtos

    En la seccin anterior, se revisaron dos populares tcnicas no paramtricas para

    el ajuste del modelo NPM (4.2) para datos longitudinales. Un problema crtico de las

    tcnicas anteriores es que las caractersticas de los datos longitudinales no se incorporan

    directamente en los estimadores y estimaciones de las funciones individuales no son

    consideradas. En muchos estudios longitudinales, estimacin e inferencia de las

    funciones individuales son tan importantes como la funcin de media poblacional. En

    esta seccin, extendemos el modelo NPM (4.2) a un modelo que incorpora la funcin de

    media poblacional y las funciones individuales de los datos longitudinales de forma

    simultnea. El nuevo modelo se puede expresar como

    donde como en el modelo NPM (4.2), modela la funcin de media poblacional

    suave de los datos longitudinales, tambin llamada funcin de efecto fijo; modela

    la salida de la -sima funcin individual de la funcin de media poblacional ,

    llamada la -sima funcin de efectos individual (sujeto-especificado) o funcin de

    efecto aleatorio; y la funcin de error de medicin que no se puede explicar ni por

    las funciones de efecto fijo o de efecto aleatorio. Es fcil ver que el trmino de error,

    , del modelo (4.2), ahora se convierte en dos trminos, y , del nuevo

    modelo (4.18). El modelo (4.18) se le llama modelo no paramtrico de efectos mixtos

    (nonparametric mixed-effects (NPME)) ya que tanto las funciones de efecto fijo y efecto

    aleatorio son no paramtricas.

    Por conveniencia, a menudo asumimos que las funciones de efecto aleatorio no

    observables son copias i.i.d. de un proceso suave (smooth process

    (SP)) subyacente con funcin media 0 y funcin covarianza , y que los

    procesos de error de medicin no observables son copias i.i.d. de un proceso de

    ruido blanco incorrelado con funcin media 0 y funcin covarianza

    . Esto es, y . En este trabajo, cuando se trata

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    45

    con inferencias bayesianas o basadas en la probabilidad, por lo general asumimos que

    los procesos asociados son Gausianos, es decir,

    Ntese que , y caracterizan los rasgos generales de una

    poblacin longitudinal de modo que son caractersticas de la poblacin, mientras que

    las funciones de efecto aleatorio y las funciones individuales

    son especificas de sujeto de modo que son caractersticas de los

    individuos. El objetivo principal del modelado NPME es estimar el efecto de la

    poblacin y predecir los efectos individuales para un estudio longitudinal. Para

    simplificar, la funcin de media poblacional y las funciones individuales

    tambin se les conoce como curvas de la poblacin e individual. Debido a que las

    cantidades objetivo , y son todas no paramtricas, el modelado NPME

    requiere una combinacin de una tcnica de suavizado y un enfoque de modelado de

    efectos mixtos.

    4.4. Modelado de efectos mixtos polinomial local

    En el resto de este captulo, se aplican tcnicas de suavizado del ncleo

    polinomial local (local polynomial kernel (LPK)) al modelo NPME (4.18) para analizar

    datos longitudinales. Los principios de probabilidad local (Tibshirani y Hastie 1987) se

    utilizan para guiar el desarrollo de las metodologas.

    4.4.1. Aproximacin polinomial local

    Las cantidades objetivo , y se pueden estimar a travs de la

    aproximacin a nivel local en el modelo NPME (4.18) por un polinomio basado en el

    modelo LME. Esto se puede lograr a travs de la expansin de Taylor de y

    en torno a una zona de inters.

    Supongamos que y en el modelo NPME (4.18) es suave, por ejemplo,

    tienen un mximo de -veces derivadas continuas en cada punto dentro de algn

    intervalo de inters, llamado , donde es un entero no negativo. Por la expansin de

    Taylor, para cualquier fijo, y en se puede aproximar por un

    polinomio de grado -simo dentro de una zona de :

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    46

    donde y

    De ello se sigue que, dentro de una zona de , el modelo NPME (4.18) puede ser

    razonablemente aproximado por un modelo LME:

    donde denota las medicin y errores en el modelo de aproximacin, y denota los

    efectos aleatorios. Bajo el supuesto Gausiano (4.19),

    Basado en el modelo NPME (4.18), los componentes de varianza

    y . Ntese que como el

    vector de efectos fijos y la matriz de covarianza son las funciones de la ubicacin

    local , por conveniencia, las llamamos la versin localizada del vector de efectos fijos

    y la versin localizada de la matriz de covarianza, respectivamente, o en general los

    parmetros localizados.

    4.4.2. Estimacin por mxima verosimilitud local

    Tibshirani y Hastie (1987) propusieron por primera vez el mtodo de mxima

    verosimilitud local. Staniswalis (1989) y Fan, Farmen y Gijbels (1998) estudiaron ms a

    fondo las propiedades de los estimadores de mxima verosimilitud local del ncleo

    ponderado. En esta subseccin, aplicamos el mtodo de mxima verosimilitud local a

  • Trabajo Fin de Mster en Estadstica Aplicada 2010/2011

    47

    datos longitudinales en los que las correlaciones entre-sujeto normalmente existen (Park

    y Wu 2005).

    Supongamos que es un vector de observaciones

    obtenido