Estimadores robustos en modelos parcialmente no...

UNIVERSIDAD DE BUENOS AIRES.

Facultad de Ciencias Exactas y Naturales.

Departamento de Matematica.

Estimadores robustos en modelos parcialmente no lineales.

Tesis presentada para optar al tıtulo de Doctor de la Universidad de Buenos Airesen el area Ciencias Matematicas.

Andres Leandro Munoz

Director de tesis: Dra. Daniela Rodriguez.Consejero de estudios: Dra. Graciela Boente Boente.

Lugar de trabajo: Instituto de Calculo, FCEyN, UBA.

Fecha de defensa: 3 de agosto de 2018.

Estimadores robustos en modelos parcialmente no lineales

La inferencia estadıstica es el conjunto de metodos y tecnicas que permiten inferir, apartir de la informacion empırica proporcionada por una muestra, cual es la relacion dedependencia existente entre una variable respuesta y una o mas variables independientes.

Algunos de los modelos que surgen con suma frecuencia en el analisis estadıstico son,por un lado, los modelos de regresion no lineales y, por otro, los llamados modelos noparametricos. Con el deseo de sacar provecho de lo mejor de cada de uno de ellos surgen losmodelos semiparametricos parcialmente no lineales los cuales extienden y fusionan dichosmodelos. Es bien sabido que los metodos de estimacion clasica para los modelos recienmencionados son altamente sensibles a la presencia de datos atıpicos y es entonces queentra en escena la estadıstica robusta.

En esta tesis, el objetivo principal es estudiar procedimientos de estimacion robustospara el modelo de regreson parcialmente no lineal. A tal fin proponemos una familia deestimadores robustos obtenidos con un procedimiento de tres pasos. Para la propuesta deestimacion estudiamos propiedades teoricas y su comportamiento computacional. Por unlado demostramos, bajo supuestos muy generales, la consistencia y la distribucion asintoti-ca. Por otro lado, estos resultados teoricos se completan con un estudio de simulacion conel objetivo de evaluar el comportamiento de la propuesta robusta frente a distintas pertur-baciones del modelo y tamanos de muestra finitos.

Finalmente, con el objetivo de ilustrar el uso de los estimadores propuestos, presentamosel ajuste de un modelo parcialmente no lineal a un conjunto reales.

Palabras Claves : Regresion no lineal. Modelos no parametricos. Modelos semiparametri-cos parcialmente no lineales. Estimacion robusta.

2

Robust Estimators for partly non linear models

The statistical inference is the set of technics and methods that allows to deduce, fromthe empirical information given by a sample, which is the relationship between a dependentvariable and one or more independent variables.

Some of the models that arise frequently in the statistical analysis are, both, nonlinearregression models as well as the so called nonparametrical ones. In order to take advanta-ge of the best of each one of them, there emerges the semiparametric partially nonlinearmodels. These last ones extend and merge such models. It is well known that the classic es-timation methods for the already mentioned models, are extremely sensitive to the presenceof atypical observations and therefore, comes the concept of robust statistics into scene.

The main aim of this thesis, was to study robust procedures of estimation for the partiallynonlinear regression model. For that, we propose a family of robust estimators obtained bya three-step procedure. For the estimation proposal, we study theoretical properties andtheir computational behavior. On the one hand, we show under very general assumptions,the consistency and asymptotic distribution. On the other hand, those theoretical resultsare completed by a simulation study to evaluate the behavior of the robust proposal underdifferent scenarios of contaminations ans finite sample size.

Eventually, in order to illustrate the use of our proposal, we present a fit of a partiallynon-linear model to a set of real data.

Key words: Nonlinear regression. Nonparametric models. Semiparametric partially non-linear models. Robust estimation.

3

Agradecimientos

No hubiese podido llegar a esta instancia sin la ayuda y carino de mucha gente que meha acompanado a lo largo de todo este camino. Este agradecimiento es para todos y cadauno de ellos.

En primer lugar, agradezco infinitamente a mi directora Daniela por haberme aceptadocomo su alumno, por su paciencia y por su siempre tan buena predisposicion. A Gracielapor su fundamental participacion en este proyecto. Gracias!!

Por otra parte, agradezco a los jurados Ana Bianco, Marcela Svarc y Marıa DoloresJimenez Gamero por tomarse el tiempo de leer con detalle mi trabajo. Agradezco sus ob-servaciones y correcciones las cuales han sido sumamente utiles para mı.

A mis companeros y amigos de la facultad y, en particular, a toda la gente linda delInstituto del Calculo por todos estos anos juntos.

A mis companeros y amigos del ITBA y de la UTN-FRA por el apoyo.

A mis amigos de toda la vida, a los de siempre, esos que sin preguntar nada estanincondicionalmente sin titubear.

A mis viejos, Jose y Susana, por lo mucho que hicieron por mı. A mis abuelos, mishermanos y a todos mis sobrinos.

Por ultimo y muy especialmente a Fabi, el gran amor de mi vida. Nada de esto ni deaquello hubiese sido posibe sin ella.

Gracias a todos de corazon !!

4

Indice general

1. Introduccion 1

2. Nociones Previas 4

2.1. Modelo de Regresion Noparametrica . . . . . . . . . . . . . . . . . . . . . . 4

2.1.1. Estimacion Clasica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.1.2. Estimacion Robusta . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2. Modelo de Regresion Parametrica No Lineal . . . . . . . . . . . . . . . . . . 7

2.2.1. Estimacion Clasica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2.2. Estimacion Robusta . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3. Modelos Semiparametricos Parcialmente No Lineales 11

3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.2. Estimacion Clasica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3.3. Propuesta de Estimacion Robusta . . . . . . . . . . . . . . . . . . . . . . . 13

4. Propiedades Asintoticas 15

4.1. Procesos Empıricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4.2. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4.3. Distribucion Asintotica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

5. Estudio de Simulacion 35

6. Ejemplo con datos reales 44

7. Apendice 51

7.1. Demostraciones de la Seccion 4.2 . . . . . . . . . . . . . . . . . . . . . . . . 51

7.2. Demostraciones de la Seccion 4.3 . . . . . . . . . . . . . . . . . . . . . . . . 57

5

Capıtulo 1

Introduccion

El proposito del estudio de los metodos de regresion es construir modelos matematicosque permitan explicar la relacion de dependencia existente entre una variable respuesta yuna o mas variables independientes.

Una situacion frecuente en el analisis estadıstico es la de los modelos de regresion nolineales en los que los datos consisten en respuestas yi que se sabe estan relacionadas conun vector xi ∈ Rp de covariables a traves de la siguiente ecuacion

yi = g(xi,β0) + εi 1 ≤ i ≤ n, (1.1)

donde β0 ⊆ Rq es el vector de parametros desconocidos a estimar, εi son variables aleatoriasindependientes e independientes de las covariables xi para todo 1 ≤ i ≤ n y, finalmente, sesupone a la funcion de regresion g una funcion conocida.

Un estimador clasico de β0 para este modelo esta basado en el metodo de mınimoscuadrados, es decir

βn = argmınβ

1

n

n∑i=1

(yi − g(xi,β))2.

Es conocido en la literatura que este estimador tienen propiedades optimas bajo ciertossupuestos de regularidad, pero es muy sensible a observaciones atıpicas. Si la distribucionno es exactamente normal, el ajuste puede variar mucho. Por esta razon, se estudian esti-madores robustos que sean mas estables frente a distintas perturbaciones del modelo y quea su vez sean eficientes bajo normalidad.

Existen diferentes propuestas de estimadores robustos en modelos de regresion no linea-les. Fraiman (1983) estudio estimadores con influencia acotada, Sakata y White (2001) intro-dujeron S−estimadores para modelos de regresion no lineal con observaciones dependientes,Stromberg (1993) propuso algoritmos para calcular MM−estimadores. Mas recientemente,Fasano (2009) extendio los M y MM−estimadores al caso de regresion no lineal y estudiosus propiedades asintoticas. Por otro lado, Bianco y Spano (2018) estudiaron este modelobajo respuestas faltantes obteniendo resultados asintoticos relajando algunos supuestos.

1

Varios ejemplos y aplicaciones de estos modelos pueden verse en Bates y Watts (1988)y Seber y Wild (1989).

Otro modelo muy frecuente estudiado en la literatura y aplicado en diferentes situacioneses el modelo de regresion no parametrica el cual supone que los datos (yi,xi) ∈ R1+p estanrelacionados a traves de una funcion de regresion m0, de la cual solo se suponen hipotesisde suavidad, es decir, no asume para m0 ninguna forma predefinida, mediante la siguienteecuacion

yi = m0(xi) + εi 1 ≤ i ≤ n, (1.2)

donde εi son variables aleatorias independientes e independientes de las covariables xi pa-ra todo 1 ≤ i ≤ n y m0 la funcion a ser estimada. Es evidente que este modelo englobapracticamente todas las posibles relaciones entre y con x, incluso las propuestas lineal y nolineal. Estimadores noparametricos clasicos para el modelo de regresion no parametrica fue-ron introducidos por Naradaya (1964) y Watson (1964), en forma independiente, y Collomb(1981). Mientras que estimadores robustos para la funcion de regresion fueron estudiadospor Boente y Fraiman (1989). Si bien estos modelos son mas flexibles que los modelos linea-les o no lineales, la regresion noparametrica en varias variables posee dificultades teoricasy computacionales, conocidas como la “maldicion de la dimension”, que esta asociada alhecho de que los entornos de un punto x ∈ Rp se hacen cada vez mas ralos para valoresde p grandes. Es decir, se necesita un numero exponencialmente mayor de datos para quedichos entornos contengan observaciones de la muestra.

Un primer paso en el intento de vincular las bondades de ambos modelos descriptosanteriormente es considerar los modelos conocidos como “modelos parcialmente lineales”,donde una parte de las covariables se modela linealmente y otra parte se modela nopa-rametricamente. En estos modelos, se supone que las observaciones siguen una relacion deltipo

yi = xTi β0 + η0(ti) + εi 1 ≤ i ≤ n (1.3)

donde los errores son independientes e independientes de (xTi , ti) ∈ IRp+1. Para los modelosparcialmente lineales fueron estudiadas propuestas basadas en polinomios locales, en nucleoso en vecinos mas cercanos (ver por ejemplo, Engle et al., (1986); Heckman, (1986); Chen,(1988); Speckman, (1988); Ma et al., (2006), Fan y Li, (2004); Hu et al., (2004); Wang etal., (2005) y Hardle et al., (2000), para un review). Por otro lado, estimadores robustosbasados en nucleos y en vecinos mas cercanos con nucleos, fueron propuestos por Bianco yBoente (2004).

Li y Nie (2008) consideraron una extension de los modelos parcialmente lineales alcaso de modelos parcialmente no lineales en los cuales las respuestas satisfacen la siguienterelacion

yi = g(xi,β0) + η0(ti) + εi (1.4)

donde la funcion g es una funcion conocida salvo por el parametro β0 ∈ IRq, η0 es unafuncion desconocida con propiedades de regularidad, los errores son independientes e inde-pendientes de (xTi , ti) ∈ IRp+1.

Los estimadores propuestos en Li y Nie (2008) se basan en perfiles no lineales y utilizanestimadores de mınimos cuadrados. La idea de mınimos cuadrados con perfiles no lineales se

2

relaciona con el principio de perfiles de verosimilitud generalizados introducidos por Severiniy Wong (1992). Por estar basados en mınimos cuadrados o en promedios locales, todos losprocedimientos mencionados anteriormente son muy sensibles a observaciones atıpicas.

Tanto los modelos parcialmente lineales como los parcialmente no lineales, pueden in-cluirse en una familia mas general de modelos que son los llamados modelos de regresionsemiparametricos. Esta clase de modelos son utiles para el analisis de datos porque man-tienen la facil interpretacion de los modelos parametricos y la flexibilidad de los modelosnoparametricos, pero evitando la maldicion de la dimension. Ruppert et al., (2003) estu-dian procedimientos de estimacion y muchas aplicaciones de modelos de regresion semipa-rametricos. Por otra parte, en modelos parcialmente lineales generalizados, o sea, cuandoE(yi | xi, ti) = H(xTi β0 +η0(ti)) donde H es una funcion conocida, η0 es una funcion desco-nocida y β0 es un parametro desconocido, estimadores robustos basados en perfiles fuerondados por Boente et al., (2006) y por Boente y Rodriguez (2010).

El objetivo de este trabajo es aportar procedimientos de estimacion robusta en modelosparcialmente no lineales (1.4). Para ello introduciremos estimadores basados en nucleos queincluiran pesos en las covariables los cuales permitiran controlar observaciones de alto leve-rage. Para mostrar las bondades de la propuesta se estudiaran sus propiedades asintoticastales como consistencia y distribucion asintotica. Asımismo, analizaremos el buen funciona-miento de la misma y su comparacion con los metodos clasicos llevando a cabo un estudio desimulacion bajo distintos tipos de contaminaciones. Por ultimo, con el objetivo de ilustrarel uso de los estimadores propuestos, estudiaremos el ajuste de un modelo parcialmenteno lineal al conjunto de datos metereologicos “airquality” obtenidos del Departamento deConservacion del Estado de Nueva York los cuales se encuentran disponibles en la librerıadel software R “robustbase”.

Esta tesis se encuentra organizada de la siguiente manera. A lo largo del Capıtulo 2recordamos los principales metodos de estimacion tanto clasica como robusta para modelosde regresion parametricos (1.1) y no parametricos (1.2). En el Capıtulo 3, introducimos losmodelos parcialmente no lineales (1.4), describimos procedimientos de estimacion clasica yaestudiados y presentamos nuestra propuesta de estimacion robusta. Por otra parte, en elCapıtulo 4 probamos resultados de consistencia y presentamos resultados sobre su distribu-cion asintotica. En el Capıtulo 5 se presentan los resultados de un estudio de simulacion cuyoprincipal objetivo consistio en analizar el comportamiento de la propuesta robusta y poderhacer una comparacion respecto de sus versiones clasicas. Para ello consideramos tanto da-tos sin contaminar como distintos tipos de contaminaciones. Finalmente, en el Capıtulo 6presentamos una aplicacion de nuestra propuesta a un conjunto de datos reales.

3

Capıtulo 2

Nociones Previas

En este capıtulo se describen diversos procedimientos existentes en la literatura, tantoclasicos como robustos de estimacion para la funcion de regresion en los modelos nopa-rametricos puros y del parametro de regresion en los modelos parametricos. Estos metodosde estimacion que describiremos a continuacion ayudaran a la comprension de la propuestade estimacion para los modelos parcialmente no lineales que se desarrollara en el siguientecapıtulo.

2.1. Modelo de Regresion Noparametrica

La teorıa y los metodos de suavizado han cobrado un gran auge en las ultimas decadasunido al avance en materia computacional. Una revision de los mismos se puede encontrarpor ejemplo en los libros de Wand y Jones (1995), Fan y Gijbels (1996) y Loader (1999). Enesta seccion describiremos algunos de los metodos mas relevantes de estimacion, tanto clasi-cos como robustos, para la funcion de regresion bajo un modelo de regresion noparametrico.Como se menciono en la introduccion este modelo esta definido como

y = m0(x) + ε, (2.1)

donde (y,xT ) son variables aleatorias en R1+p, m0 : Rp → R una funcion suave y ε unavariable aleatoria en R independiente de x.

Resulta de gran interes la estimacion de la funcionm0 a partir de una muestra (yi,xTi ), 1 ≤

i ≤ n. En las siguientes subsecciones mostraremos los metodos clasicos de estimacion de m0

y luego seguiremos por los metodos de estimacion robustos.

2.1.1. Estimacion Clasica

Sea una muestra (yi,xTi ), 1 ≤ i ≤ n bajo el modelo (2.1). Los primeros estimadores

no parametricos de regresion son los sencillos estimadores de tipo nucleo propuestos porNaradaya (1964) y Watson (1964) de manera independiente. Para la descripcion de los

4

mismos necesitaremos K , una funcion nucleo en Rp, es decir, una funcion no negativa eintegrable, y hn una sucesion de numeros positivos convergente a cero (llamada ventana).Luego, para cada x ∈ Rp el estimador de Naradaya-Watson esta dado por

m(x) =n∑i=1

wi(x)

n∑j=1

wj(x)

−1

yi, (2.2)

donde wi(x) son los pesos basados en nucleos dados por

wi(x) = K(x− xihn

). (2.3)

Una eleccion habitual para el nucleo K es tomarlo como K(· ) = K(‖· ‖), con K una funcionnucleo univariada de soporte [0, 1], y ‖· ‖ la norma euclıdea en Rp. Notar que en este casoel estimador dado en (2.2) queda definida como

m(x) =

∑ni=1K

(‖x−xi‖hn

)yi∑n

i=1K(‖x−xi‖hn

) . (2.4)

Como se puede apreciar en (2.4), para cada x ∈ Rp, m(x) resulta un promedio pesadode las variables yi cuyos pesos dependen de las distancias euclıdas entre x y cada una delas observaciones xi. Por lo tanto solo aquellas observaciones que disten de x menos que elvalor de hn seran tenidas en cuenta para la estimacion.

Dichos estimadores se han ido refinando y perfeccionando dentro de los denominadosmetodos de regresion basados en polinomios locales, convirtıendose en uno de los metodosmas empleados por diversos analistas en la actualidad. Por simplicidad en la escrituradescribiremos solo el caso univariado. Si suponemos que la funcion de regresion m0 tiene lderivadas en un punto x0 ∈ R, con el fin de estimar m0 localmente mediante polinomios degrado l consideraremos el problema de mınimos cuadrados ponderados

arg mınα

n∑i=1

l∑j=0

(yi − αj(x− x0)j

)2wi(x)

(n∑k=1

wk(x)

)−1

. (2.5)

Ası, una vez obtenidas estimaciones de los coeficientes αj con j = 0, ..., l vemos que laestimacion del termino independiente α0 sera un estimador de m0(x0) y el resto de los

coeficientes αjj! proporcionaran estimaciones de sus derivadas m(j)0 (x0) con j = 1, ..., l. Por

otro lado, se puede ver facilmente que si realizamos un ajuste con polinomios constantesobtenemos el estimador de Nadaraya-Watson dado en (2.2). Tambien cuando el ajustepolinomial es de grado uno, se obtiene el denominado estimador lineal local.

5

2.1.2. Estimacion Robusta

Como puede observarse en (2.5) los metodos de estimacion clasicos estan basados en elmetodo de mınimos cuadrados y por lo tanto son altamente sensibles a cualquier variacionde los datos. Pequenas desviaciones podrıan producir grandes fluctuaciones en el estimadorvolviendolo completamente inestable.

Un primer acercamiento a los estimadores robustos en el caso de variables independientesfue dado por Tsybakov (1982) y Hardle (1984), quienes estudiaron propiedades asintoticaspuntuales de una version robusta del metodo de Nadaraya-Watson cuando la escala esconocida. Mas adelante, Hardle y Tsybakov (1988) extendieron sus resultados previos aM-estimadores equivariantes de escala mediante estimacion simultanea de la funcion deregresion y de escala. Boente y Fraiman (1989) consideraron estimadores noparametricosrobustos equivariantes por escala usando pesos de vecinos mas cercanos y pesos basados ennucleos. Para ello definen mM (x) la solucion de

E[ψ

(y −mM (x)

s(x)

) ∣∣x = x

]= 0, (2.6)

siendo s(x) una medida de escala robusta y ψ una funcion impar, acotada y continua, s(x)puede tomarse como la mediana local de los desvıos absolutos respecto de la mediana local dela distribucion de la variable y condicional a x = x, que denotamos F (y|x = x). Notemosque aquı estamos realizando un abuso de notacion utilizando la variable tambien comoargumento de la funcion de distribucion, entendemos que queda claro segun el contexto.Mas precisamente,

s(x) = mediana (|Y − m(x)||x = x) = MAD(F (y|x = x)), (2.7)

donde m(x) = mediana (F (y|x = x)). Por otro lado, consideran el estimador de la funcionde distribucion empırica condicional de las variables respuestas definida como

F (y|x = x) =

n∑i=1

wi(x)I(−∞,y](yi)

n∑j=1

wj(x)

−1

, (2.8)

donde wi(x) son los pesos basados en nucleos definidos en (2.3) tomando la misma ventanapara todas las componentes. F (y|x = x) provee un estimador de F (y|x = x) y fue estudiadopor Cheng y Chu (1996).

Obervemos que un posible estimador de mM (x) estudiado en Boente y Fraiman (1995) esconsiderar la mediana local calculada como la mediana de F (y|x = x). Un hecho interesantede la mediana local es que, a diferencia de otros estimadores robustos, no necesita unestimador consistente de escala cuando esta es desconocida.

Notemos que (2.6) es un funcional aplicado a F (y|x = x), luego resulta intuitivo imputarF (y|x = x) en (2.6) a fin de obtener un estimador de mM (x). De esta forma, se define unestimador robusto local para la funcion de regresion, mM (x), como la solucion en a de

6

n∑i=1

wi(x)ψ

(yi − as(x)

)= 0, (2.9)

donde s(x) es un estimador de escala robusto. Elecciones posibles de la funcion de escoresψ son la funcion de Huber o la funcion bicuadrada de Tukey, mientras que la escala s(x)puede tomarse como la mediana local de los desvıos absolutos respecto de la mediana localMAD(F (y|x = x)), es decir, la MAD local definida en (2.7) respecto de la distribucionF (y|x = x) definida en (2.8). Las propiedades de consistencia y distribucion asintoticafueron estudiadas en Boente y Fraiman (1989) para el caso de observaciones independientes,mientras que ordenes de convergencia fuerte pueden verse en Boente y Fraiman (1990,1991).

2.2. Modelo de Regresion Parametrica No Lineal

Como mencionamos en la introduccion, dada una muestra aleatoria (yi,xTi ) ∈ R1+p, con

1 ≤ i ≤ n decimos que sigue un modelo de regresion no lineal si

yi = g(xi,β0) + εi (2.10)

donde g es una funcion conocida que no es lineal en el vector de parametros β0 ∈ B ⊆ Rq,el cual es desconocido y es el objetivo de interes, B es el espacio de parametros y εi son loserrores independientes de xi.

2.2.1. Estimacion Clasica

En la estimacion clasica se acostumbra suponer que los errores son independientes eidenticamente distribuıdos con media cero y varianza σ2

0 desconocida. Como mencionamosen la introduccion, el estimador clasico esta basado en el metodo de mınimos cuadrados, esdecir

βn = argmınβ

1

n

n∑i=1

(yi − g(xi,β))2. (2.11)

Notemos que si derivamos la ecuacion (2.11) obtenemos que βn debe cumplir con elsiguiente sistema de ecuaciones

n∑i=1

ri(β)∇βg(xi,β) = 0, (2.12)

donde ri(β) = yi − g(xi,β) son los residuos y ∇βg(x,β) es el gradiente de la funcion g conrespecto a β.

El estimador βn es optimo siempre y cuando los errores tengan distribucion normal. Sila distribucion no es exactamente normal resulta sensible a la presencia de observacionesatıpicas, lo que puede provocar que el ajuste no resulte adecuado. Por esta razon, se utilizanestimadores robustos que son mas estables ante perturbaciones del modelo y que, a su vez,son altamente eficientes bajo normalidad.

7

2.2.2. Estimacion Robusta

Una buena parte de la teorıa de robustez se ocupa del problema de estimacion resistente adatos atıpicos en modelos de regresion. Existen muchas propuestas de estimadores robustosde regresion y en esta seccion nos ocuparemos solo de algunas de ellas.

Una forma de controlar las observaciones atıpicas en (2.11) es reemplazar la funcioncuadratica por una ρ-funcion en el sentido de Maronna et al. (2006) cuya definicion damosa continuacion.

Definicion 2.2.1. Sea ρ una funcion definida en R, decimos que ρ es una ρ-funcion en elsentido de Maronna et al. (2006) si satisface las siguientes condiciones

1. ρ(u) es creciente como funcion del |u|.

2. ρ(0) = 0.

3. ρ(u) es estrictamente creciente para u > 0 tal que ρ(u) < supu ρ(u).

4. si ρ es acotada, se supone ademas que supu ρ(u) = 1.

Definicion 2.2.2. Llamaremos Ψ-funcion a cualquier funcion que sea la derivada de unaρ-funcion. Esto implica en particular que Ψ es impar y Ψ(u) ≥ 0 si u ≥ 0.

Una clase importante de estimadores robustos para regresion lineal son los M -estimadoresintroducidos por Huber (1973). Dentro de esta clase podemos distinguir los S-estimadoresintroducidos por Rousseeuw y Yohai (1984) y los MM -estimadores propuestos por Yohai(1987). Estos estimadores tienen la propiedad de minimizar una funcion objetivo que de-pende de los datos unicamente a traves de los residuos.

En lo que sigue resumiremos las definiciones de los M , S y MM -estimadores de regresionpara el modelo (2.10).

Definicion 2.2.3. Dada una muestra aleatoria (yi,xTi ) ∈ R1+p de tamano n bajo el modelo

(2.10) se define el M−estimador de regresion por

βM = arg mınβ∈Rq

1

n

n∑i=1

ρ

(yi − g(xi,β)

sn

), (2.13)

donde sn es un estimador robusto preliminar de escala de los residuos y ρ es una ρ−funcion.

Para definir los S-estimadores necesitaremos, previamente, definir los llamados M -estimadores de escala.

Definicion 2.2.4. Sea ρ una ρ-funcion en el sentido de Maronna et al. (2006), luego dadorT = (r1, ..., rn) se define el correspondiente M-estimador de escala sn(r) como la solucionen s de la siguiente ecuacion

1

n

n∑i=1

ρ(ris

)= b, (2.14)

donde b es una constante entre 0 y 1.

8

Observacion 2.2.5. Si se desea que el estimador de escala sn(r) definido en (2.14) estimela desviacion tıpica bajo normalidad entonces la constante b se debe elegir como b = Eφ(ρ(u))con φ la funcion de distribucion de una normal estandar.Por otro lado, Yohai y Zamar (1988) prueban que el punto de ruptura de sn(r) es el mınimoentre b y 1− b.

Definicion 2.2.6. Dada una muestra aleatoria (yi,xi) ∈ R1+p de tamano n bajo el modelo(2.10) se define el S−estimador de regresion por

βS = arg mınβ∈Rq

sn(r(β)), (2.15)

donde r(β) = (r1(β), . . . , rn(β)) es el vector de los n residuos observados con componentesri(β) = yi − g(xi,β) y sn(r) es la M-escala definida por (2.14).

S-estimadores muy populares son los llamados LMS y LTS que se obtienen, los prime-ros, al minimizar la mediana de los residuos al cuadrado y, los segundos, al minimizar unsubconjunto apropiado de la suma de los residuos al cuadrado. El punto de ruptura de estosestimadores para modelos no lineales fue estudiado por Stromberg y Ruppert (1992) y enStromberg (1993) se presenta un algoritmo para su computo. Los S-estimadores no puedenser estables y eficientes al mismo tiempo, pero tienen la importante ventaja de poder calcu-larse directamente a partir de los datos sin necesidad de estimadores iniciales de regresionni de escala. Por esta razon, los S-estimadores son a menudo utilizados como estimadoresiniciales en los algoritmos de calculo de estimadores robustos.

Con el objetivo de obtener un estimador con alto punto de ruptura y eficiente bajodistribucion normal, Yohai (1987) introdujo los MM-estimadores para modelos de regresionlineal. Luego, Fasano (2009) extendio este concepto para el caso de un modelo de regresionno lineal de la siguiente manera

Paso 1 Calcular un estimador inicial β1 de β0 con alto punto de ruptura.

Paso 2 Calcular los residuos ri(β1) = yi − g(xi, β1) y el M-estimador de escala basado enla muestra de los residuos observados sn = sn(r(β1)) definido por (2.14) usando ρ0

una ρ-funcion acotada y b = 0.5.

Paso 3 Sea ρ1 otra ρ-funcion acotada tal que cumpla ρ1 ≤ ρ0 luego el MM-estimador sedefine como

βMM = arg mınβ∈Rq

1

n

n∑i=1

ρ1

(ri(β)

sn

), (2.16)

que satisface L(βMM ) ≤ L(β1) siendo L(β) =∑n

i=1 ρ1

(ri(β)sn

).

Observacion 2.2.7. Si derivamos con respecto a β la funcion objetivo definida en (2.16)entonces βMM es la solucion de

n∑i=1

Ψ1

(ri(β)

sn

)∇βg(xi,β) = 0, (2.17)

9

donde ∇βg(x,β) es el gradiente de la funcion g con respecto a β y Ψ1(u) = ρ′1(u).

Observacion 2.2.8. Respecto al estimador inicial en el Paso 1 distintas alternativas sonposibles, la realidad es que puede utilizarse cualquier estimador consistente con punto deruptura alto que no requiera de una escala previa para ser equivariante. En la practica seutilizan en general S-estimadores definidos en (2.15) calibrados de tal manera de obtenerun alto punto de ruptura.

10

Capıtulo 3

Modelos SemiparametricosParcialmente No Lineales

3.1. Introduccion

La inferencia estadıstica generalmente se focaliza sobre modelos de regresion que sonpuramente parametricos (2.10) o puramente no parametricas (2.1).

Un modelo parametrico razonable produce inferencias precisas, pero un modelo pa-rametrico erroneo posiblemente conducira a conclusiones equivocadas. Paralelamente, losmodelos noparametricos, si bien estan asociados con alta estabilidad, tienen menor precision.Ademas el uso de estos encuentra en las aplicaciones a datos reales la dificultad conocidacomo la “maldicion de la dimension”, que esta asociada al hecho de que los entornos de unpunto x ∈ Rp se hacen cada vez mas ralos para valores de p grandes. Es decir, como ya fuemencionado anteriormente, se necesita un numero exponencialmente mayor de datos paraque dichos entornos contengan observaciones de la muestra. Por esta razon, se introdujeronlos modelos semiparametricos parcialmente lineales (1.3) que combinan una componentede regresion lineal y una componente no parametrica. Luego se generalizan estos modelosa traves de los modelos parcialmente no lineales, los cuales son una extension natural delos parcialmente lineales permitiendo flexibilizar la componente parametrica lineal en unafuncion no lineal del parametro.

En este sentido sea (y,xT , t), con y ∈ R, x ∈ Rp y t ∈ R, un vector aleatorio condistribucion H0 y sea (yi,x

Ti , ti) con 1 ≤ i ≤ n una muestra aleatoria proveniente de dicha

distribucion, diremos que la muestra sigue un modelo parcialmente no lineal si

yi = g(xi,β0) + η0(ti) + εi 1 ≤ i ≤ n, (3.1)

donde por un lado, g es una funcion conocida salvo por el parametro de regresion β0 ∈ Rqy no lineal en dicho parametro, por otro lado η0 es una funcion desconocida con ciertaspropiedades de regularidad.

A lo largo de este trabajo asumiremos que los errores εi son independientes, con distri-

11

bucion simetrica F0(·) = F0

(·σ0

)e independientes de (xi, ti) ∈ Rp+1, es decir H0(y,x, t) =

G0(x, t)F0(y − g(x,β0)− η0(t)).

Como hemos mencionado en la introduccion, el objetivo principal de este trabajo seraestudiar procedimientos de estimacion robustos basados en nucleos para el parametro deinteres β0 e inferir un procedimiento de estimacion para la funcion η0. Antes de pasar a lapropuesta en sı introduciremos algunas definiciones y un poco de notacion necesarias parala comprension de la misma.

Supongamos que tenemos una muestra aleatoria (yi,xTi , ti) ∈ R1+p+1 , con 1 ≤ i ≤ n,

que cumple el modelo parcialmente no lineal. Dado un valor fijo de β ∈ Rq llamamosvβ = y − g(x,β) y Fβ(v|t = τ) a la funcion de distribucion de la variable vβ condicional at = τ . Consideremos vi,β = yi − g(xi,β) una muestra aleatoria con la misma distribucionque vβ y definamos, analogamente a (2.8), el estimador de la funcion de distribucion de lavariable vβ condicional a t = τ a partir de su distribucion empırica como

Fβ(v|t = τ) =n∑i=1

wi(τ)I(−∞,v](vi,β)

n∑j=1

wj(τ)

−1

, (3.2)

donde wi(τ) son los pesos basados en nucleos calculados para las variables ti 1 ≤ i ≤ ndefinidos en (2.3).

3.2. Estimacion Clasica

Supongamos que tenemos una muestra aleatoria (yi,xi, ti), con 1 ≤ i ≤ n, bajo el modelo(3.1). En primer lugar notemos que en el enfoque clasico los supuestos habituales para loserrores se reducen a asumir que εi es una variable aleatoria con media cero y varianza σ2

0.Bajo estos supuestos, estimadores clasicos fueron introducidos por Lie y Nie (2008). Estapropuesta puede ser descripta en dos pasos, del siguiente modo. Supongamos que fijamosun valor de β, luego podemos pensar que tenemos para cada β un modelo no parametrico

vi,β = ηβ(ti) + εi ∀1 ≤ i ≤ n,

siendo vi,β = yi−g(xi,β). Por lo tanto, podemos aplicar un metodo no parametrico de esti-macion para obtener un estimador de la funcion ηβ. Lie y Nie (2008) consideran el metodode estimacion basado en polinomios locales de orden uno descripto en (2.5) obteniendo, deesta manera, estimadores ηβ y η

′β para ηβ y η

′β, respectivamente. Es importante no perder

de vista que hasta aquı la propuesta resulta un estimador para ηβ que depende del valorfijado para β.

El segundo paso en el proceso de estimacion consiste en proveer un estimador para elparametro de regresion. Para ello, consideran la siguiente funcion de perdida

Q(β) =n∑i=1

(yi − g(xi,β)− ηβ(ti)

)2. (3.3)

12

De este modo, definen un estimador para el parametro de regresion β0, como aquel βque minimiza (3.3) y finalmente definen un estimador para la funcion no parametrica deregresion η0 como η = η

β.

Li y Nie (2008) estudian propiedades como la consistencia y la distribucion asintotica delestimador de regresion propuesto.

3.3. Propuesta de Estimacion Robusta

Como podemos observar el procedimiento de estimacion descripto en la seccion anteriorpropuesto por Li y Nie (2008) esta basado en el metodo de mınimos cuadrados o regresionlocal lineal y por lo tanto, como mencionamos anteriormente, es altamente sensible a datosatıpicos. En atencion a este hecho, nuestra propuesta de estimacion esta basada en unacombinacion del metodo descripto por Lie y Nie (2008), pero teniendo en cuenta proce-dimientos de estimacion robustos en cada paso. Siguiendo este camino, nuestra propuestapuede ser descripta como un procedimiento de tres pasos que detallamos a continuacion.

Sean ρ, ρ0 y ρ1 ρ−funciones como las definidas en 2.2.1 y, ademas, sea W una funcion realno negativa, la cual jugara el rol de controlar a las covaribles xi ∈ Rp de alto leverage.Esta ultima idea surge de observar que en la ecuacion (2.12) una observacion atıpica puedetener influencia en la determinacion del estimador de mınimos cuadrados tanto a traves delresiduo como del leverage. Ademas desde (2.17) notamos que β puede ser aun afectado porobservaciones con alto leverage.

Luego, dada (yi,xTi , ti) ∈ R1+p+1, con 1 ≤ i ≤ n, una muestra aleatoria bajo el modelo

(3.1) nuestra propuesta de estimacion consiste en llevar a cabo los siguientes tres pasos:

Paso 1. Para cada τ y β, definamos ηβ(τ) como la solucion de:

argmına∈R

n∑i=1

ρ

(yi − g(xi,β)− a

sβ(τ)

)wi(τ),

donde sβ(τ) es un estimador de escala local obtenido de la distribucion empırica condicional

definida en (3.2) y wi(τ) = K(τ−tihn

)los pesos definidos en (2.3).

Paso 2. Para cada β, consideremos ri(β) = yi − g(xi,β) − ηβ(ti) y s0(β) la solucion

en s0 de 1n

∑ni=1 ρ0

(ri(β)s0

)= b. Sea

sn = mınβs0(β).

Luego, si ρ1 ≤ ρ0, definimos el estimador de β0 como

β = argmınβ

n∑i=1

ρ1

(ri(β)

sn

)W (xi). (3.4)

13

Paso 3. El estimador de la componente no parametrica η0 se define como

η(τ) = ηβ

(τ). (3.5)

Observacion 3.3.1. a) En cada uno de los pasos anteriores, las funciones ρ, ρ0 y ρ1

pueden ser elegidas dentro de la familia de funciones bicuadradas de Tukey.

b) Para el Paso 1 el estimador de escala local sβ(τ) puede tomarse como la medianalocal de los desvıos absolutos respecto de la mediana local definida en (2.7) de ladistribucion condicional Fβ(v|t = τ) definida en (3.2), es decir,

sβ(τ) = mediana (|y − g(x,β)− mβ(τ)|t = τ) = MAD(Fβ(v|t = τ)), (3.6)

donde mβ(τ) = mediana (Fβ(v|t = τ)).

c) El Paso 2 es un procedimiento de MM-estimacion como el definido en (2.16) donde,sn es la M-escala previa la cual se obtiene a partir de los pseudo-residuos ri(β) =yi − g(xi,β)− ηβ(ti).

Por otro lado, como ya se menciono anteriormente, con el objetivo de controlar ob-servaciones con alto leverage introducimos en la ecuacion (2.16) una funcion peso W ,que sera una funcion no negativa en las covariables x1, . . . ,xn. Una posibilidad paraobtener el control buscado del gradiente de la funcion de regresion serıa penalizardirectamente las covariables de alta planca. En este caso, la funcion W podrıa elegirsede tal manera de penalizar la distancia de Mahalanobis robusta de las covariables.Para esto, sera necesario estimar los parametros de posicion y escala de x, digamos µy matriz de escala Σ. Ası, si µ y Σ son estimadores robustos de µ y Σ respectivamenteentonces podrıan considerarse pesos de la forma

W (x) = κ(

(x− µ)T Σ−1(x− µ)),

donde κ es una funcion indicadora o caracterısticas de algun intervalo.

d) En este sentido, notemos que si derivamos con respecto a β la funcion definida en(3.4), entonces β es solucion del siguiente sistema de ecuaciones

n∑i=1

Ψ1

(ri(β)

sn

)W (xi)

[∇β(g(xi,β) + ηβ(ti)

)]T= 0, (3.7)

donde Ψ1 = ρ1′ y ∇β(ϕ) = ( ∂ϕ∂β1, ..., ∂ϕ∂βq

)T .

14

Capıtulo 4

Propiedades Asintoticas

Sean (yi,xTi , ti) ∈ R1+p+1, con 1 ≤ i ≤ n, vectores aleatorios independientes con dis-

tribucion H0, que siguen un modelo de regresion parcialmente no lineal (3.1), tal como fuedescripto en la seccion anterior. A lo largo de este capıtulo, estudiaremos las propiedadesde los estimadores definidos en (3.4) y (3.5).

4.1. Procesos Empıricos

Para las demostraciones de los resultados asintoticos, tanto para la consistencia fuertecomo para la convergencia en distribucion, se han usado algunas herramientas de Proce-sos Empıricos. A continuacion presentamos un breve resumen de las definiciones, lemas yteoremas sobre el tema que fueron necesarias en esta tesis. Para mas detalles se puede verPollard (1984) y van der Vaart y Weller (1996).

Definicion 4.1.1. Sea F una clase de funciones, decimos que F es permisible si puede serindexada por un conjunto Γ, es decir, F = f(·, γ) : γ ∈ Γ.

Definicion 4.1.2. Un funcion envolvente de una clase F es una funcion medible F tal que|f | ≤ F para toda f ∈ F .

Sea Lr(P) el conjunto de funciones f : Ω→ R tales que ‖f‖r,P = EP (|f |r)1/r <∞.

Definicion 4.1.3. Dadas dos funciones l y u, el bracket [l, u] se define como el conjunto detodas las funciones f tal que l ≤ f ≤ u. Un ε-bracket en Lr(P) es un bracket [l, u] tal que‖u− l‖r,P < ε.

Definicion 4.1.4. El numero de bracketing N[ ](ε,F , Lr(P)) es el mınimo numero de ε-brackets en Lr(P) necesarios para cubrir a F . La entropıa con bracketing es el logaritmodel numero de bracketing.

Definicion 4.1.5. El numero de cubrimiento N(ε,F , Lr(P)) es el mınimo numero de bolasen Lr(P) de radio ε necesarias para cubrir a F . La entropıa es el logaritmo del numero decubrimiento.

15

Teorema 4.1.6. Supongamos que para todo ε > 0 existe una clase finita de funciones Fεque contiene aproximaciones superiores e inferiores para cada f en F para las cuales:

fε,L ≤ f ≤ fε,U y EP (fε,U − fε,L) < ε.

Luego, supf ∈F |EPn(f )− EP(f )| c.s.−−→ 0, donde Pn es la distribucion empırica.

Teorema 4.1.7. Sea F una clase de funciones permisibles con funcion envolvente F tal queEP(F ) <∞. Si Pn es la distribucion empırica y N[ ](ε,F , L1(P)) <∞ o logN(ε,F , L1(P)) =

op(n) para cada ε > 0 fijo, entonces supf ∈F |EPn(f )− EP(f )| c.s.−−→ 0.

La siguiente observacion es un caso particular del Corolario 2.7.2 de Van der Vaart andWellner (1996).

Observacion 4.1.8. Sea Ω un conjunto convexo y acotado en R y sea H = h ∈ C1(Ω) :‖h‖∞ ≤ 1 ‖h ′‖∞ ≤ 1 entonces para cualquier medida de probabilidad P el numero debracketing N[ ](H, ε, L2(P)) y por ende el numero de cubrimiento N(H, ε, L2(P)) satisfacen

logN(ε/2,H, L2(P)) ≤ logN[ ](ε,H, L2(P)) ≤ Kε−1

para 0 < ε < 2 donde la constante K es independiente de la medida P.

Teorema 4.1.9. Clase de funciones Lipschitz en un parametro.

Sea F = ft : t ∈ T una clase de funciones tal que existe F fija que verifica |ft(x)−fs(x)| ≤d(t, s)F (x) para alguna metrica d en T . Entoces para cualquier norma ‖ · ‖ sobre F ,

N[ ](2ε‖F‖,F , ‖ · ‖) ≤ N(ε, T, d).

Definicion 4.1.10. Diremos que una clase de funciones F es Euclıdea para la funcionenvolvente F en L1(P) si existen constantes A y V tales que

N(ε‖F‖1,P,F , L1(P)) ≤ Aε−V , 0 < ε ≤ 1.

Proposicion 4.1.11. Si F y G son clases Euclıdeas para las funciones envolventes F y Grespectivamente, entonces

a) la clase f + g : f ∈ F , g ∈ G es Euclıdea para la envolvente F +G.

b) la clase f.g : f ∈ F , g ∈ G es Euclıdea para la envolvente F.G.

Definicion 4.1.12. Sea F una familia de funciones f . Llamamos grafico de f ∈ F alconjunto Gf = (x, t) : 0 ≤ t ≤ f(x) o f(x) ≤ t ≤ 0.

Definicion 4.1.13. Se dice que una clase de conjuntos D sobre algun espacio S tienediscriminante polinomial si dado S0 un conjunto de N puntos de S entonces existen a losumo p(N) conjuntos de la forma S0∩D. Al polinomio p se lo llama descriminante polinomialy a D clase polinomial de conjuntos.

16

Proposicion 4.1.14. Sea F una clase de funciones con funcion envolvente F en L1(P).Si los graficos de las funciones en F forman una clase polinomial de conjuntos entonces lafamilia F es Euclıdea para la funcion envolvente F.

Definicion 4.1.15. Sea F una familia de funciones con envolvente F. Se define a la integral

de bracketing por J[ ](δ,F) =∫ δ

0

√1 + log(N[ ](2ε‖F‖2,P,F , L2(P)))dε.

Definicion 4.1.16. Se dice que una familia F de funciones con envolvente F satisface la

condicion de entropıa de bracketing si∫∞

0

√log(N[ ](2ε‖F‖2,P,F , L2(P)))dε <∞.

Proposicion 4.1.17. La funcion J[ ](δ,F) es creciente, J[ ](0,F) = 0, J[ ](1,F) < ∞ yJ[ ](δ,F) → 0 cuando δ → 0 si la familia satisface la condicion de entropıa de bracketingpues

J[ ](δ,F) ≤∫ δ

0

√2(

1 +√

log(N[ ](2ε‖F‖2,P,F , L2(P))))dε

≤√

2

(δ +

∫ δ

0

√log(N[ ](2ε‖F‖2,P,F , L2(P)))dε

).

Proposicion 4.1.18. Desigualdad Maximal para Numeros de Bracketing.Sean x1, · · · ,xn vectores aleatorios i.i.d con distribucion P. Sea F una clase de funcionesP-medibles con envolvente F tal que ‖F‖2,P <∞, EP(f) = 0 para todo f ∈ F y dado δ > 0,sea

a(δ) =δ‖F‖2,P√

1 + log(N[ ](2δ‖F‖2,P,F , L2(P)))

Si ‖f‖2,P < δ‖F‖2,P para toda f ∈ F entonces existe una constante D, independiente de n,tal que

‖ supf∈F|√nEPn(f)| ‖1,P ≤ DJ[ ](δ,F)‖F‖2,P +

√nEP

(FIF>

√na(δ)

)≤ DJ[ ](1,F)‖F‖2,P.

Lema 4.1.19. Para cada n, sea Fn una clase permisible de funciones con numero de cu-brimiento que satisface:

supQN(ε,Fn, L1(Q)) ≤ Aε−W para todo 0 < ε < 1 con A y W constantes independientes de n.

Sea αn una sucesion no creciente y positiva para la cualnδ2

nα2n

log n→ ∞. Si |f | ≤ 1 y

(EPf2)

12 ≤ δn para cada f ∈ Fn luego:

1

δ2nαn

supFn|EPn(f )− EP(f )| c.s.−−→ 0

17

4.2. Consistencia

En primer lugar comenzaremos por estudiar la consistencia de Fisher de la propuestapresentada en el capıtulo anterior. Sea (y,x, t) un vector aleatorio que sigue el modelo (3.1),consideremos el siguiente funcional,

S(β, a, τ) = E(ρ

(y − g(x,β)− a

sβ(t)

)|t = τ

)(4.1)

donde sβ(τ) es una escala robusta respecto a la distribucion condicional a t = τ de vβ =y − g(x,β) la cual denotaremos por Fβ(·|t = τ) y definamos

ηβ(τ) = argmınaS(β, a, τ). (4.2)

En adelante asumiremos que la funcion de regresion g es una funcion continua en lavariable β y la funcion de pesoW es una funcion acotada y no negativa. Ademas aceptaremosla siguiente hipotesis que resulta escencial a la hora de identificar a los parametros delmodelo,

FS.1 P(

(x, t) : x ∈ SW ; g(x,β) + ηβ(t) 6= g(x,β∗) + ηβ∗(t))> 0 para todo β 6= β∗,

donde SW es el soporte de la funcion de pesos W.

Notemos que Fβ0(u|t = τ) = F0(u− η0(τ)), por lo tanto si F0 es simetrica respecto del

0 con funcion de densidad f0 unimodal y ademas la funcion ρ es una ρ− funcion como lasdescriptas en (2.2.1) entonces se tiene que η0(τ) = ηβ0

(τ).

Por otro lado, definamos tambien el funcional

T (β, σ) = E(ρ1

(y − g(x,β)− ηβ(t)

σ

)W (x)

). (4.3)

Por lo tanto, la consistencia de Fisher se reduce a probar que β0 = arg mınT (β, σ0) hechoque se desprende directamente de la Proposicion 3.1.1 de Spano (2016), bajo los mismossupuestos para F0 y la funcion ρ1 descriptos en el parrafo anterior, el hecho que η0 = ηβ0

yde FS.1.

Observacion 4.2.1. Para mas detalles con respecto a estos resultados se recomienda verTeorema 10.2 de Maronna et.al. (2006) y Fassano et.al (2012).

En lo que resta de esta seccion probaremos la consistencia del estimador β propuestopara el parametro de regresion β0 en nuestro modelo dado en (3.1). Para ello introduciremosalgo mas de notacion que utilizaremos a lo largo de las demostraciones.

Dados β ∈ Rq, τ ∈ R y σ ∈ R+, denotemos con

λ(β, τ, a, σ) = E(

Ψ(y − g(x,β)− a

σ

)∣∣∣t = τ)

(4.4)

18

donde Ψ = ρ′, notemos que ηβ(τ) es la unica solucion en a de λ(β, τ, a, sβ(τ)) = 0 dondesβ(τ) es una escala robusta, como la que definimos anteriormente. A lo largo de este trabajoconsideraremos como medida de escala robusta condicional sβ(τ) a la mediana de los desvıosabsolutos a la mediana respecto de la distribucion condicional Fβ(·|t = τ), es decir,

sβ(τ) = MAD(Fβ(·|t = τ)

)= mediana

(|y − g(x,β)−mβ(τ)|

∣∣∣t = τ), (4.5)

donde mβ(τ) es la mediana respecto de Fβ(·|t = τ). Por otra parte, si consideramos la

distribucion condicional empırica Fβ(·|t = τ) definida en (3.2) basada en la muestra vi,β =yi − g(xi,β) para 1 ≤ i ≤ n y en los pesos wi(τ) definidos en (2.3) para las variables ti1 ≤ i ≤ n, luego podemos definir el funcional empırico

λ(β, τ, a, σ) =

∫Ψ

(v − aσ

)dFβ(v|t = τ) =

n∑i=1

Ψ

(vi,β − a

σ

)wi(τ)∑nj=1wj(τ)

(4.6)

Denotemos tambien por sβ(τ) = MAD(Fβ(·|t = τ)

), es decir, un estimador de la escala

local sβ(τ). Por lo tanto, con esta notacion, el estimador ηβ(τ) definido en el paso 1 delprocedimiento de estimacion descripto en la Seccion 3.3 puede pensarse como la solucion ena de λ(β, τ, a, sβ(τ)) = 0, y claramente constituye un estimador de su version poblacionalηβ(τ) definida anteriormente.

Asumiremos el siguiente conjunto de hipotesis:

C1. La funcion de densidad de t, ft es acotada. Ademas, dado T0 compacto en R existeuna constante C(T0) > 0 tal que ft(τ) > C(T0) ∀τ ∈ T0.

C2. El nucleo K : R→ R es una funcion par, no negativa, Lipschitz de orden uno, acotadacon soporte [−1, 1] tal que

∫K(u)du = 1 y

∫u2K(u)du <∞.

C3. Fβ(v|t = τ) es simetrica alrededor de ηβ(τ) con funcion de densidad unimodal paratodo β.

C4. Sean T0 un conjunto compacto en R y B un conjunto compacto en Rq. Entonces,

1. para cada v fijo se verifica que en un entorno de T0

∀ε > 0 ∃δ > 0 : |τ ′ − τ | < δ ⇒ supβ∈B|Fβ(v|t = τ)− Fβ(v|t = τ ′)| < ε

2. se verifica la siguiente condicion de equicontinuidad

∀ε > 0 ∃δ > 0 : |u− v| < δ ⇒ supβ∈B

supτ∈T0|Fβ(u|t = τ)− Fβ(v|t = τ)| < ε.

3. para cada u fijo se verifica la siguiente condicion de continuidad uniforme

∀ε > 0 ∃δ > 0 : |τ − τ ′| < δ y |β1−β2| < δ ⇒ |Fβ1(u|t = τ)−Fβ2

(u|t = τ ′)| < ε.

19

C5. Ψ : R → R es una funcion impar, estrictamente creciente, acotada y continuamentediferenciable.

C6. ρ1 : R→ R es una ρ−funcion acotada con derivada acotada.

C7. La sucesion hn es tal que hn → 0 y nhnlog(n) →∞ de manera creciente.

Para obtener la consistencia del estimador del parametro de regresion estudiaremos laconvergencia uniforme de ηβ a ηβ. Para ello sera necesario obtener resultados de convergen-

cia de Fβ(·|t = τ) a Fβ(·|t = τ) y estudiar como a partir de este hecho podemos obtenerpropiedades sobre la estimacion de la escala local sβ(τ) definida a partir del MAD de

Fβ(·|t = τ). Estos resultados seran obtenidos utilizando una serie de lemas y teoremas queenunciaremos a continuacion y cuyas demostraciones seran relegadas al Apendice.

Lema 4.2.2. Sea T0 ⊂ R un conjunto compacto y R0n(τ) = 1nhn

∑ni=1K

(τ−tihn

)entonces

dado ε > 0 se verifica que∑n∈N

P(

supτ∈T0|R0n(τ)− ER0n(τ)| > ε

)<∞

Lema 4.2.3. Si T0 ⊂ R y B ⊂ Rq son conjuntos compactos, entonces la hipotesis C4.3implica que dado ε > 0 existen numeros reales a, b tales que, para todo τ ∈ T0 y para todoβ ∈ B se cumple que Fβ(b|t = τ) > 1− ε y Fβ(a|t = τ) < ε.

Lema 4.2.4. Las hipotesis C4.3 y C5 implican que λ(β, τ, a, σ) y ηβ(τ) son funcionescontinuas de variables (β, τ, a, σ) y (β, τ) respectivamente.

Lema 4.2.5. Sean T0 ⊂ R y B ⊂ Rq conjuntos compactos y sea Fn,β(v|t = τ) una sucesionde funciones de distribucion condicional que verifica

supv∈R

supβ∈B

supτ∈T0|Fn,β(v|t = τ)− Fβ(v|t = τ)| → 0 (4.7)

luego, si Fβ(v|t = τ) verifica las hipotesis C4.2 y C4.3 entonces existen constantes 0 < A ≤B tales que sn,β(τ) = MAD(Fn,β(·|t = τ)) verifica A ≤ sn,β(τ) ≤ B para todo τ ∈ T0, paratodo β ∈ B y para todo n > n0.

Teorema 4.2.6. Sean B ⊂ Rq y T0 ⊂ R conjuntos compactos. Supongamos que valen lashipotesis C1−C6 y ademas se cumple la siguiente condicion

F.E. La familia de funciones F =fv,β(y,x) = I(−∞,v](y − g(x,β)), v ∈ R, β ∈ B

tiene

numero de cubrimiento N(ε,F , L1(Q)) ≤ Aε−W para cualquier probabilidad Q y paratodo 0 < ε < 1, entonces

supv∈R

supβ∈B

supτ∈T0|Fβ(v|t = τ)− Fβ(v|t = τ)| → 0 ctp .

20

Teorema 4.2.7. Sean T0 ⊂ R y B ⊂ Rq conjuntos compactos. Supongamos que la funcionK : R→ R es de variacion acotada. Entonces, bajo las hipotesis C1-C5 y C7, se tiene que

supβ∈B

supτ∈T0|ηβ − ηβ| → 0 ctp

Demostracion: Como Fβ(v|t = τ) es simetrica alrededor de ηβ(τ) y Ψ es una funcionimpar y acotada tenemos que λ(β, τ, ηβ(τ), σ) = 0 para todo σ > 0. Dado a ∈ R definamos

por Ψa(u) = Ψ(u−ηβ(τ)−a

sβ(τ)

), luego por C5 se tiene que Ψa es una funcion de variacion

acotada en R para cada β ∈ B y τ ∈ T0. Ademas se puede ver que, ‖Ψa‖V = ‖Ψ‖V /sβ(τ)donde ‖Ψ‖V indica la norma de variacion de la funcion Ψ. El Lema 4.2.5 y el Teorema 4.2.6implican que existen constantes reales positivas A y B tales que A < sβ(τ) < B para todoβ ∈ B y τ ∈ T0. Luego, usando el hecho de que |

∫ΨdG| ≤ ‖Ψ‖V ‖G‖∞ donde G es una

funcion continua y acotada, obtenemos que

|λ(β, τ, ηβ(τ) + a, sβ(τ)) − λ(β, τ, ηβ(τ) + a, sβ(τ))|

≤ ‖Ψa‖V supv∈R|Fβ(v|t = τ)− Fβ(v|t = τ)|,

y por lo tanto

supβ∈B

supτ∈T0|λ(β, τ, ηβ(τ) + a, sβ(τ)) − λ(β, τ, ηβ(τ) + a, sβ(τ))|

≤ 1

A‖Ψ‖V sup

β∈Bsupτ∈T0

supv∈R|Fβ(v|t = τ)− Fβ(v|t = τ)|.

Luego, el Teorema 4.2.6 implica que

supβ∈B

supτ∈T0|λ(β, τ, ηβ(τ) + a, sβ(τ))− λ(β, τ, ηβ(τ) + a, sβ(τ))| c.s−→ 0 (4.8)

Por otro lado, dado ε > 0 tenemos que C3 y C5 implican

λ(β, τ, ηβ(τ) + ε, σ) < 0 < λ(β, τ, ηβ(τ)− ε, σ).

Ademas, de la compacidad de B y T0, la continuidad de λ(β, τ, ηβ(τ) ± ε, σ) en (β, τ, σ) yde ηβ(τ) en (β, τ) dadas por el lema 4.2.4 se deduce que

λ1 = supβ∈B

supτ∈T0

supA≤σ≤B

λ(β, τ, ηβ(τ) + ε, σ)<0< supβ∈B

supτ∈T0

supA≤σ≤B

λ(β, τ, ηβ(τ)−ε,σ)=λ2. (4.9)

Usando (4.8) y el hecho de que P(A < sβ(τ) < B) = 1 a partir de n0 ∈ N suficientementegrande, entonces de (4.9) obtenemos que para todo β ∈ B, τ ∈ T0 y para todo n > n0

λ(β, τ, ηβ(τ) + ε, sβ(τ)) <λ1

2< 0 <

λ2

2< λ(β, τ, ηβ(τ)− ε, sβ(τ)).

21

Por ultimo basta observar que como λ(β, τ, a, sβ(τ)) es estrictamente decreciente en a en-tonces ηβ(τ) − ε < ηβ(τ) < ηβ(τ) + ε casi seguramente para todo β ∈ B y τ ∈ T0 luego

supβ∈B supτ∈T0 |ηβ − ηβ|c.s−→ 0 como se querıa demostrar.

El siguiente teorema muestra que el estimador de regresion es fuertemente consistente.Para ello sera necesaria la siguiente condicion de entropıa:

CE La clase de funciones F = gβ,σ(y,x, t) = ρ1

(y−g(x,β)−ηβ(t)

σ

)W (x), β ∈ B, σ ∈ S

donde S es un entorno de σ0, tiene numero de bracketig finito, es decir,N[ ](ε,F , L1(H0)) <∞ o logN(ε,F , L1(Hn)) = op(n) donde H0 es la distribucion de (y,x, t) y Hn es ladistribucion empırica correspondiente.

Observacion 4.2.8. La condicion de entropıa CE se puede verificar en variadas situa-ciones que, por supuesto, dependeran, por un lado, de la caracterısticas de la funcion deregresion g, de la estructura de los espacios B y S y, por otro lado, de las propiedades here-dadas por la funcion ηβ(τ). Por ejemplo, notar que, al ser la funcion de peso W acotada eindependiente de los parametros y el espacio S un intervalo real acotado, luego si la funcionde perdida ρ1 es Lipschitz con constante L y llamanado F∗ = g(x,β)+ηβ(t),β ∈ B ento-ces, siguiendo a Anthony y Bartlett (1999), seccion 14.3, obtenemos que N(ε,F , L1(H0)) ≤N(ε/L,F∗, L1(H0)).

Teorema 4.2.9. Sean (yi,xi, ti) vectores aleatorios independientes e identicamente distri-buıdos que satisfacen el modelo (3.1). Entonces si

supβ∈B

supτ∈T0|ηβ(τ)− ηβ(τ)| ctp−−→ 0 (4.10)

donde ηβ y ηβ fueron definidas en (4.2) y el Paso 1 del proceso de estimacion respectiva-mente, sn es un estimador consistente para σ0, E(|W (x)|) < ∞ y ademas se satisface lacondicion de entropıa CE, entonces el estimador β propuesto en (3.4) resulta un estimadorconsistente de β0.

Demostracion: Consideremos

Tn(β, σ) =1

n

n∑i=1

ρ1


σ

)W (xi),

Tn(β, σ) =1

n

n∑i=1

ρ1


σ

)W (xi).

En primer lugar mostremos que si

supβ∈B|Tn(β, sn)− T (β, σ0)| ctp−−→ 0 (4.11)

donde el funcional T fue definido en (4.3), entonces βctp−−→ β0.

22

Para ello observemos que C6, la continuidad la funciones g y η, el hecho que W esuna funcion acotada y el Teorema de Convergencia Dominada garantizan la continuidaddel funcional T (β, σ0). Luego, sea βk una subsucesion de β tal que βk → β∗, suponga-mos sin perder generalidad que β → β∗. Si ‖β∗‖ < ∞, de (4.11) y la continuidad de

T (β, σ0) deducimos que Tn(β, sn)− T (β∗, σ0)ctp−−→ 0 y Tn(β0, sn)− T (β0, σ0)

ctp−−→ 0. ComoTn(β0, sn) ≥ Tn(β, sn) y T tiene un unico mınimo en β0, facilmente se obtiene β∗ = β0.

Supongamos que ‖β∗‖ =∞ luego igual que antes tenemos que Tn(β, sn)−T (β, σ0)ctp−−→

0, Tn(β0, sn)−T (β0, σ0)ctp−−→ 0 y Tn(β0, sn) ≥ Tn(β, sn) entonces lım

n→∞T (β, σ0)−T (β0, σ0) ≤

0, llegando a una contradiccion, por lo tanto ‖β∗‖ <∞.

Por lo tanto la demostracion del Teorema se reduce a probar (4.11). Para ello veremos

supβ∈B

|Tn(β, sn)− Tn(β, sn)| ctp−−→ 0, (4.12)

supβ∈B

|Tn(β, sn)− T (β, sn)| ctp−−→ 0, (4.13)

supβ∈B

|T (β, sn)− T (β, σ0)| ctp−−→ 0. (4.14)

Comencemos por ver (4.12). Dado ε > 0 existe Γ0 un conjunto compacto tal que P (t ∈Γ0) > 1− ε. Sea Vn = n−1

∑ni=1 I(ti 6∈ Γ0), ρ′1 = Ψ1 y M > 0 tal que 1/M < sn luego

supβ∈B

|Tn(β, sn)− Tn(β, sn)| ≤ ‖W‖∞M‖Ψ1‖∞ supβ∈B

supτ∈Γ0

|ηβ − ηβ|+ 2‖ρ1‖∞Vn.

Por lo tanto, usando (4.10) y la Ley de los Grandes Numeros tenemos (4.12)

Veamos ahora (4.13), notemos que

supβ∈B|Tn(β, sn)− T (β, sn)| ≤ sup

β∈B,σ∈S|Tn(β, σ)− T (β, σ)|.

Luego, usando la condicion de entropıa CE, el hecho que E(|W (x)|) <∞, C6 y el Teorema4.1.7 se obtiene lo deseado. Finalmente (4.14) se deduce de C6 junto con del Teorema deConvergencia Dominada.

Teorema 4.2.10. Sea β un estimador consistente de β0 entonces el estimador de la com-ponente no parametrica definido en (3.5) verifica que

supτ∈T0‖ηβ − η0‖

ctp−−→ 0.

Demostracion: La demostracion es una consecuencia inmediata del teorema (4.2.7), lacontinuidad de ηβ y el hecho que ηβ0(τ) = η0(τ).

23

4.3. Distribucion Asintotica

En esta seccion deduciremos la distribucion asintotica del estimador propuesto delparametro de regresion β para el modelo estudiado.

Para simplificar la notacion notaremos por |A| a la norma euclıdea de cualquier matrizo vector. Ademas, dados k y ε constantes positivas, definimos Tk = τ ∈ R : |τ | ≤ k,Xk = x ∈ Rp : |x| ≤ k y B y S entornos de β0 y σ0 respectivamente, es decir, B = β ∈Rq : |β − β0| ≤ ε y S = s ∈ R > 0 : |s− σ0| ≤ ε.

Sea h : IRq → IR una funcion, notaremos por ∇zh(z) y Hzh(z) al vector gradiente y lamatriz hessiana, respectivamente con respecto a z y a modo de simplificar la notacion enlo que sigue llamaremos

υ(τ,β) = ηβ(τ)− ηβ(τ)

ν(τ,β) = ∇β(ηβ(τ)− ηβ(τ))∣∣∣β=β

= (ν1(τ,β), . . . , νq(τ,β)),

z(s, τ,β) = ∇β(g(s,β) + ηβ(τ))∣∣∣β=β

= (z1(s, τ,β), . . . , zq(s, τ,β)),

z(s, τ,β) = ∇β(g(s,β) + ηβ(τ))∣∣∣β=β

= (z1(s, τ,β), . . . , zq(s, τ,β)).

Asumiremos, a partir de ahora, que la variable t tiene distribucion con soporte compacto yconvexo T y, tambien, consideraremos el siguiente conjunto de hipotesis:

N1. La funcion ρ′1 = Ψ1 es impar, continua y acotada.

N2. Las funciones Ψ′1, Ψ

′′1 , Ψ2 = tΨ

′1 y Ψ3 = tΨ

′′1 son continuas y acotadas.

N3. La funcion de peso W es acotada.

N4. 1. La funcion de regresion g(x,β) es de clase C2 como funcion de β y verifica lasiguiente condicion de equicontinuidad, dados β1,β2 ∈ B,

| g(x,β1)− g(x,β2)| ≤ F(x)|β1 − β2|

con F una funcion real que verifica supx∈Xk|F(x)| <∞ para todo k > 0 y, ademas,

pediremos que supx∈Xk

g(x,β0) <∞ para todo k > 0.

2. Para todo 1 ≤ j, l ≤ q se satisface la siguiente condicion de equicontinuidad

| ∂2

∂βj∂βlg(x,β1)− ∂2

∂βj∂βlg(x,β2)| ≤ R(x)|β1 − β2| para β1,β2 ∈ B.

con R una funcion real que verifica E[R2(x)

]<∞ y sup

x∈Xk|W (x)R(x)| <∞ para

todo k > 0.

24

3. Para todo 1 ≤ j, l ≤ q y se satisface la siguiente condicion

| ∂∂βj

g(x,β0)| ≤ H1(x) y | ∂2

∂βj∂βlg(x,β0)| ≤ H2(x),

con Hi funciones reales que verifican E[H2i (x)

]<∞ para i = 1, 2 y, ademas,

supx∈Xk|√W (x)H1(x)| <∞ y sup

x∈Xk|W (x)H2(x)| <∞

para todo k > 0.

N5. Las funciones ηβ(τ) y ηβ(τ) son de clase C1 como funciones de (β, τ) y de clase C2

como funciones de β tal que ∂2

∂βl∂βlηβ0

(τ) es acotada. Ademas para todo 1 ≤ j, l ≤ qse satisface la siguiente condicion de equicontinuidad

∀ε > 0, ∃δ > 0 : |β1 − β2| < δ ⇒ ‖ ∂2

∂βj∂βlηβ1− ∂2

∂βj∂βlηβ2‖∞ < ε.

N6. 1. ‖ηβ− η0‖∞

P−−→ 0 para cualquier estimador consistente β de β0.

2. Para cada τ ∈ T y β ∈ B, υ(τ,β)P−−→ 0. Ademas, n

14 ‖υ(τ,β0)‖∞

P−−→ 0

y n14 ‖νj(τ,β0)‖∞

P−−→ 0 para todo 1 ≤ j ≤ q.

3. ‖∂υ(τ,β0)∂τ ‖∞

P−−→ 0 y ‖∂νj(τ,β0)∂τ ‖∞

P−−→ 0 para todo 1 ≤ j ≤ q.

4. supβ∈B‖ν(·,β)‖∞

P−−→ 0 y supβ∈B‖ ∂

∂βlν(·,β)‖∞

P−−→ 0 para todo 1 ≤ l ≤ q.

N7.

E[W (x)|z(x, t,β0)T z(x, t,β0)|

]<∞

E[W (x)|Hβ(g(x,β) + ηβ(t))

∣∣∣β=β0

|]<∞

N8. La matriz Σ es definida positiva donde

Σ = E[Ψ2

1

(ε

σ0

)]E[W 2(x)z(x, t,β0)z(x, t,β0)T

].

N9. La matriz A es no singular donde

A =1

σ0E[Ψ

′1

(ε

σ0

)]E[W (x)z(x, t,β0)z(x, t,β0)T

].

N10. E[W (x)z(x, t,β0)

∣∣∣t]= 0.

25

Observacion 4.3.1. Las condiciones N5 y N6.4 implican que para cualquier estimador

consistente β de β0 tenemos que ∆nP−−→ 0 y ∧n

P−−→ 0 con

a) ∆n = max1≤j≤q

‖ ∂

∂βjηβ− ∂

∂βjηβ0‖∞

b) ∧n = max1≤j,l≤q

‖ ∂2

∂βj∂βlηβ− ∂2

∂βj∂βlηβ0‖∞

Observacion 4.3.2. Los supuestos N1-N3 son condiciones estandar sobre la funcion deperdida y la funcion de peso en modelos de regresion. Lo supuesto en N5 y N6 es similar alo pedido en Boente-He et al. (2006).

La condicion N4.1 se cumple, por ejemplo si g(x,β) tiene derivadas parciales continuas

con respecto a β como funciones de las covariables, N4.2 se verifica si ∂3

∂βj∂βl∂βkg(x,β)

es continua como funcion de las covariables para todo 1 ≤ j, l, k ≤ q y con una eleccionadecuada de la funcion peso W .

La condicion N7 es usada para asegurar la consistencia de estimadores de la matriz Abasados en estimadores consistentes previos del parametro β0 y de la funcion ηβ (ver Lema4.3.4).

Ademas notar que N10 se satisface si, por ejemplo, W ≡ 1. Efectivamente, como ηβ(τ)minimiza a S(β, a, τ) para cada τ , y cada β entonces satisface

E(

Ψ1

(y − g(x,β)− ηβ(τ)

sβ(t)

)|t = τ

)= 0,

luego derivando con respecto a β obtenemos

E(

Ψ′1

(y − g(x,β)− ηβ(τ)

sβ(t)

)∇β(y − g(x,β)− ηβ(τ)

sβ(t)

)|t = τ

)= 0,

por ultimo basta con evaluar en β0, considerar N1 y usar la independencia entre (x, t) y ε.

El siguiente lema y su demostracion resultan de una pequena adaptacion del Lema 3.4.1presentado en Spano (2016). El lema presenta resultados que pueden ser aplicados en uncontexto general de convergencia en probabilidad para ciertos procesos empıricos.

Lema 4.3.3. Consideremos las funciones ρ : R → R y M(x, t,β) : Rp × R × Rq → Rq×qtales que cumplan las siguientes hipotesis:

L1. ρ es una funcion continua y acotada.

L2. Existe ε > 0 tal que E(

supβ∈B |M(x, t,β)W (x)|)<∞.

L3. La funcion M(x, t,β) es equicontinua como funcion de β en el siguiente sentido, da-do ε > 0 existe η > 0 tal que si |β1 − β2| < η y |βi − β0| < η con i = 1, 2entonces|M(x, t,β1) −M(x, t,β2)| < ε si x ∈ Xk y t ∈ Tk. Ademas, pediremos que

supx∈Xk,t∈Tk

|M(x, t,β0)W (x)| <∞ para todo k > 0.

26

Si (yi,xTi , ti) ∈ R1+p+1 son vectores aleatorios i.i.d. bajo el modelo no lineal (3.1), sn y

β son estimadores consistentes de σ0 y β0 respectivamente y se satisface N4.1 entonces,

DnP−→ D siendo

Dn =1

n

n∑i=1

1

snρ(yi − g(xi, β)− η0(ti)

sn

)M(xi, ti, β)W (xi),

D =1

σ0Eρ

(ε

σ0

)E[M(x, t,β0)W (x)

].

Demostracion: Llamemos a I(y,x, t,β, s) = ρ(y−g(x,β)−η0(t)

s

)M(x, t,β)W (x). Luego bas-

tara ver que

a) lımn→∞

E[

1snI(y,x, t, β, sn)

]= D

b) supβ∈B,s∈S

∣∣∣ 1n

n∑i=1

I(yi,xi, ti,β, s)− E[I(y,x, t,β, s)

]∣∣∣ p−−→ 0.

El item a) se desprende de L1,L2, L3, N4.1, de la consistencia de β y de sn, de la inde-pendecia entre (x, t) y ε y del Teorema de Convergencia Dominada pues |I(y,x, t,β, s)| ≤‖ρ‖ supβ∈B |M(x, t,β)W (x)| que es integrable.

Para probar el item b) estudiaremos la convergencia de cada elemento Iij de la matrizI. Por el Teorema 4.1.6 bastara probar que, dado ε > 0 existe una clase finita de funcionesFε tal que para todo β ∈ B y s ∈ S existen Iijε,l ∈ Fε y Iijε,u ∈ Fε tales que

E(Iijε,u(y,x, t)− Iijε,l(y,x, t)

)< ε,

Iijε,u(y,x, t) ≤ Iij(y,x, t,β, s) ≤ Iijε,l(y,x, t).

Sea ε > 0 podemos tomar k ∈ N tal que si definimosAk =

(y,x, t) :∣∣∣y−g(x,β0)−η0(t)

σ0

∣∣∣ ≤ k, |x| ≤ k, |t| ≤ kentonces P(Ak) > 1 − ε1 y ademas, como vale L2, E

[supβ∈B|M(x, t,β)W (x)|IAck

]< ε1 sien-

do ε1 = ε/5‖ρ‖. Ahora, si definimos C = supXk,β∈B

|g(x,β)| + supTk|η0(t)|, y consideramos k1 =

σ0k+C entonces, llamando Bk = |y| ≤ k1, |x| ≤ k, |t| ≤ k, tenemos que Bk ⊇ Ak. Por otrolado, sea M > 0 tal que, para todo β ∈ B y s ∈ S se verifica que ‖β‖ ≤M y M−1 < s < M .

Luego, si (y,x, t) ∈ Ak, β ∈ B y s ∈ S entonces |y−g(x,β)−η0(t)s | ≤M(k1 + C) = b1.

Por L3 existe b2 ≥ 0 tal que supBk,β∈B

|M(x, t,β)W (x)| ≤ b2. De L1 tenemos que la funcion

g(a, z) = ρ(a).z es uniformemente continua en Ck = |a| ≤ b1, |z| ≤ b2 y, por lo tanto,existe τ tal que |ρ(a1).z1 − ρ(a2).z2| < ε/10 si |a1 − a2| < τ , |z1 − z2| < τ , (a1, z1) ∈ Ck y(a2, z2) ∈ Ck.

27

Como valen L3 y N4.1, si (y,x, t) ∈ Bk entonces existe γ > 0 tal que si |β1 − β2| < γcon β1,β2 ∈ B y |s1 − s2| < γ con s1, s2 ∈ S, entonces

∣∣∣y − g(x,β1)− η0(t)

s1− y − g(x,β2)− η0(t)

s2

∣∣∣ < τ,∣∣∣M(x, t,β1)−M(x, t,β2)∣∣∣ < τ.

Sean (Bq)Nq=1 una coleccion finita de bolas cuyos centros βq pertezcan a B de radio menor

a γ y (Sm)Nm=1 otra coleccion finita de bolas cuyos centros sm pertezcan a S de radio menora γ tales que B =

⋃Nq=1 Bq y S =

⋃Nm=1 Sm. Entonces dados β ∈ B y s ∈ S existen ındices

(q,m) tales que β ∈ Bq y s ∈ Sm entonces

|Iij(y,x, t,β, s)− Iij(y,x, t,βq, sm)| ≤ |Iij(y,x, t,β, σ)− Iij(y,x, t,βq, sm)| IAk+ 2‖ρ‖ sup

β∈B|M(x, t,β)W (x)| IAck

≤ ε

10+ 2‖ρ‖ sup

β∈B|M(x, t,β)W (x)| IAck .

Entonces, definiendo φ(y,x, t) = ε10 + 2‖ρ‖ supB |M(x, t,β)W (x)| IAck y luego considerando

a Iijε,l(y,x, t) = Iij(y,x, t,βq, sm)−φ(y,x, t) y Iijε,u(y,x, t) = Iij(y,x, t,βq, sm)+φ(y,x, t) te-

nemos que Fε = Iijε,l, Iijε,u es una familia con cardinal N2, Iijε,u(y,x, t) ≤ Iij(y,x, t,β, s) ≤

Iijε,l(y,x, t) y E(Iijε,u(y,x, t)− Iijε,l(y,x, t)

)≤ ε

5 + 4‖ρ‖ ε5‖ρ‖ ≤ ε. Por lo tanto Dn

P−−→ 0 como

querıamos ver.

Lema 4.3.4. Sean (yi,xi, ti) observaciones independientes que cumplen el modelo (3.1) y

sean βP−−→ β y sn

P−−→ σ0. Supongamos que se satisfacen las hipotesis N1 hasta N5, N6.1,

N6.4 y N7 entonces AnP−−→ A, donde A esta definida en N9 y

An =

− 1

n

n∑i=1

Ψ′1

(yi − g(xi, β)− η

β(ti)

sn

)1

snW (xi)z(xi, ti, β)z(xi, ti, β)T

+1

n

n∑i=1

Ψ1


β(ti)

sn

)W (xi)

[Hβ

(g(xi,β) + ηβ(ti)

)∣∣∣β=β

]T.

Demostracion: Consideremos a las funciones ϕ(a) = Ψ1

(yi−g(xi,β)−a

sn

)y ϕ(a) = Ψ′1

(yi−g(xi,β)−a

sn

).

Luego, mediante desarrollos de Taylor de primer orden para ϕ y ϕ centrados en η0(ti) y

28

algunos manejos algebraicos se puede ver que An =∑n

i=1 A(j)n donde

A(1)n = − 1

n

n∑i=1

1

snΨ

′1

(yi − g(xi, β)− η0(ti)

sn

)W (xi)z(xi, ti,β0)z(xi, ti,β0)T ,

A(2)n =

1

n

n∑i=1

1

snΨ1

(yi − g(xi, β)− η0(ti)

sn

)W (xi)

[Hβ


)∣∣∣β=β0

]T,

A(3)n =

1

n

n∑i=1

1

s2n

Ψ′′1

(yi − g(xi, β)− ξ1,i

sn

)W (xi)[η0(ti)− ηβ(ti)]z(xi, ti,β0)z(xi, ti,β0)T ,

A(4)n =

1

n

n∑i=1

1

snΨ

′1

(yi − g(xi, β)− ξ2,i

sn

)W (xi)[η0(ti)− ηβ(ti)]

[Hβ


)∣∣∣β=β0

]T,

A(5)n =

1

n

n∑i=1

1

snΨ

′1


β(ti)

sn

)W (xi)

[z(xi, ti, β)z(xi, ti, β)T − z(xi, ti,β0)z(xi, ti,β0)T

],

A(6)n = − 1

n

n∑i=1

1

snΨ1


β(ti)

sn

)W (xi)

[Hβ


)∣∣∣β=β−Hβ


)∣∣∣β=β0

]T,

donde ξ1,i y ξ2,i son puntos intermedios entre ηβ(ti) y η0(ti). Usando N2, N3, N4.3, N5,

N7 y el Lema 4.3.3 es sencillo ver que A(1)n

P−−→ A. Veamos entonces que A(j)n

P−−→ 0 paratodo 2 ≤ j ≤ 6.

Para obtener convergencia de A(2)n basta observar la imparidad de Ψ1 dada en N1, N3,

N4.3, N5, N7 y el Lema 4.3.3. Usando N2, N6.1 y N7 junto con la LGN obtenemos la

convergencia de A(3)n y A

(4)n . Para ver la convergencia de A

(5)n notar que

z(xi, ti, β)z(xi, ti, β)T − z(xi, ti,β0)z(xi, ti,β0)T =(z(xi, ti, β)− z(xi, ti,β0)

)(z(xi, ti, β)− z(xi, ti,β0)

)T+(z(xi, ti, β)− z(xi, ti,β0)

)z(xi, ti,β0)T

+ z(xi, ti,β0)(z(xi, ti, β)− z(xi, ti,β0)

)T,

luego usando N2, N3, N4, N7 y la Observacion 4.3.1 a), obtenemos lo deseado. Por ultimo

usando N1, N3, N4.2 y la Observacion 4.3.1 b), concluımos con la convergencia de A(6)n .

Teorema 4.3.5. Supongamos que se satisfacen las hipotesis N1 hasta N10 y que snP−−→ σ.

Luego para cualquier estimador β solucion de (3.7) consistente de β0 se tiene que

√n(β − β0

)D−−−→ N

(0, A−1ΣA−1T

)donde las matrices Σ y A estan definidas en N16 y N17 respectivamente.

Demostracion:

Definamos

29

Ln(σ,β) =1

n

n∑i=1

Ψ1


σ

)W (xi)z(xi, ti,β)T ,

Ln(σ,β) =1

n

n∑i=1

Ψ1


σ

)W (xi)z(xi, ti,β)T .

Notemos que β satisface Ln(sn, β) = 0 o equivalentemente si llamamos Ln,j a la j-esima

coordenada de Ln, entonces β verifica Ln,j(sn, β) = 0 para cada 1 ≤ j ≤ q. Haciendo una

expansion de Taylor de primer orden centrada en β = β0 de Ln,j(sn,β) obtenemos:

Ln,j(sn,β) =1

n

n∑i=1

Ψ1

(yi − g(xi,β0)− ηβ0

(ti)

sn

)W (xi)zj(xi, ti,β0) +A(j)

n (β)(β − β0),

donde

A(j)n (β) =

−1

n

1

sn

n∑i=1

Ψ′1


β(ti)

sn

)W (xi)zj(xi, ti, β)z(xi, ti, β)T

+1

n

n∑i=1

Ψ1


β(ti)

sn

)W (xi)∇βzj(xi, ti,β)

∣∣∣Tβ=β

,

con β un punto intermedio entre β y β0. Por lo tanto, si β = β y An ∈ Rq×q es la matriz

cuya j− esima fila es A(j)n (β) obtenemos que

−√n A−1

n Ln(sn,β0) =√n (β − β0).

Del Lema 4.3.4 sabemos que Anp−→ A donde la matriz A esta definida en N9. Luego en

orden de obtener la distribucion asintotica de β sera suficiente analizar el comportamientoasintotico de Ln(sn,β0). Para ello veremos que

1.√nLn(σ0,β0)

D−−→ N(0,Σ) donde Σ es la matriz definida en N8.

2.√n[Ln(sn,β0)− Ln(sn,β0)]

P−−→ 0.

3.√n[Ln(sn,β0)− Ln(σ0,β0)]

P−−→ 0.

El primer punto se desprende facılmente de N1, la simetria y la independtencia de ε y delTeorema Central del Lımite.

30

Para demostrar el punto 2 usaremos argumentos analogos a los presentados en Boente, Heet.all (2006). Notar que mediante una expansion de Taylor podemos escribir

√n [Ln(sn,β0)− Ln(sn,β0)] = L1

n + L2n + L3

n + L4n,

donde,

L1n =

1√n

n∑i=1

1

snΨ

′1

(yi − g(xi,β0)− η0(ti)

sn

)W (xi)υ(ti,β0)z(xi, ti,β0),

L2n =

1√n

n∑i=1

Ψ1


sn

)W (xi)ν(ti,β0),

L3n =

1√n

n∑i=1

1

snΨ

′1


sn

)W (xi)υ(ti,β0)ν(ti,β0),

L4n =

1√n

n∑i=1

1

s2n

Ψ′′1

(yi − g(xi,β0)− ξi

sn

)W (xi)υ(ti,β0)2 z(xi, ti,β0).

De las condiciones N2, N3, N6.2, N6.4, N7 y del hecho que sn → σ se desprende que

L3n

P−−→ 0 y L4n

P−−→ 0.

Veamos en lo que sigue que LjnP−−→ 0 para j = 1, 2.

Para demostrar la convergencia de L1n llamemos zj(s, τ,β) a la j−coordenada de z(s, τ,β)

para cada 1 ≤ j ≤ q y definamos

J jn,1(σ, v) =1√n

n∑i=1

1

σΨ

′1


σ

)W (xi)v(ti)zj(xi, ti,β0),

luego bastara probar que para cualquier ε > 0, P(|J jn,1(sn, υ(τ,β0))| > ε) → 0 para cada1 ≤ j ≤ q.

Sean los conjuntos V = v ∈ C1(T ) : ‖v‖∞ ≤ 1 y ‖v′‖∞ ≤ 1 y P = (σ02 , 2σ0). Notemospor |(v, σ)| = ‖v‖+ |σ| a la norma sobre V ×P y definamos la siguiente familia de funciones

F j1 =

f j1,v,σ(y,x, t) =

1

σΨ

′

1

(y − g(x,β0)− η0(t)

σ

)W (x)v(t)zj(x, t,β0), v ∈ V, σ ∈ P

Mediante un desarrollo de Taylor de primer orden en la variable σ, usando N2, N3 y algunosmanejos algebraicos obtenemos que

|f j1,vl,σs(y,x, t)− fj1,v,σ(y,x, t)| ≤

√W (x)|zj(x, t,β0)|

∣∣∣∣ 1σΨ′1

(y − g(x,β0)− η0(t)

σ

)√W (x)|v(t)− vl(t)|

+1

(σ∗)2Ψ

′′1

(y − g(x,β0)− η0(t)

σ∗

)(y − g(x,β0)− η0(t)

σ∗

)√W (x)vl(t)|σs − σ|

+1

(σ∗)2Ψ

′1

(y − g(x,β0)− η0(t)

σ∗

)√W (x)vl(t)|σs − σ|

∣∣∣∣≤√W (x)|zj(x, t,β0)|(4 + 2σ0

σ20

)‖√W‖∞

[2‖Ψ′

1‖∞ + ‖Ψ3‖∞]|(vl, σs)− (v, σ)|

31

donde σ∗ es un punto intermedio entre σ y σs.

Luego llamandoA1 = 4+2σ0σ20‖√W‖∞

[2‖Ψ′

1‖∞ + ‖Ψ3‖∞]

y S(x, t) = A1

√W (x)|zj(x, t,β0)|

tenemos que, por un lado, N7 implica que la funcion S es una envolvente en L2 para lafamilia F j1 y ademas se verifica que

|f j1,vl,σs − fj1,v,σ| ≤ S(x, t)|(vl, σs)− (v, σ)| (4.15)

Por otro lado, como vale N10 tenemos que E (f(y,x, t)) = 0 para todo f ∈ F j1 . Luego,

debido a que vale (4.15), por el teorema (4.1.9), tenemos que la familia F j1 verifica lasiguiente la condicion de bracketing

N[ ](2ε‖S‖P,2,Fj1 , L

2(P)) ≤ N(ε,V, L2(P))N(ε,P, | · |)

y, por lo tanto, por la proposicion (4.1.17) junto con la obsevacion (4.1.8) se tiene que lafamilia F j1 satisface que

J[ ](δ,Fj1) −−−→

δ→00. (4.16)

Ademas, si F0 ⊆ F j1 y la envolvente S es usada para F0 se tiene que J[ ](δ,F0) ≤ J[ ](δ,Fj1).

Por consiguiente, usando N6.2, N6.3 y del hecho que snP−−→ σ0 tenemos que dado δ > 0

existe n0 ∈ N tal que para todo n > n0 se cumple

P (|σ0 − sn| > δ) <δ

2y P (υ(τ,β0) ∈ V y ‖υ(·,β0)‖∞ > δ) <

δ

2,

por lo tanto, dado ε > 0 tenemos que

P(|J jn,1(sn, υ(τ,β0))| > ε

)≤ P

(|J jn,1(sn, υ(τ,β0))| > ε, |σ0 − sn| < δ, ‖υ(τ,β0)‖∞ < δ

)+ P (|σ0 − sn| > δ o ‖υ(τ,β0)‖∞ > δ)

≤ P

(sup

|σ0−σ|<δ,‖v‖∞<δ|J jn,1(σ, v)| > ε

)+ δ

≤ 1

εE

(sup

|σ0−σ|<δ,‖v‖∞<δ|J jn,1(σ, v)|

)+ δ.

Luego es suficiente ver que

lımn→∞

lımδ→0

E

(sup

|σ0−σ|<δ,‖v‖∞<δ|J jn,1(σ, v)|

)= 0.

Dado δ > 0, consideremos la subclase

32

F jδ,1 =f j1,v,σ(y,x, t) ∈ F j1 : ‖v‖∞ < δ

Es sencillo ver que la subclase F jδ,1 cumple que ‖f j1,v,σ‖2,P ≤ δ‖F‖2,P para toda f j1,v,σ ∈ F

jδ,1

donde la funcion envolvente S(x, t) fue definida anteriormente. Luego, de la desigualdadmaximal enunciada en la Proposicion (4.1.18), tenemos que

E

(sup

|σ0−σ|<δ,‖v‖<δ|J jn,1(σ, v)|

)≤ D1J[ ](δ,F

jδ,1)‖S‖2,P +

√nE(S(x, t)IF (x,t)>

√na(δ)

)≤ D1J[ ](δ,F

j1)‖S‖2,P +

1

a(δ)E(S2(x, t)IS(x,t)>

√na(δ)

).

Dado que la funcion S tiene segundo momento finito se desprende que para δ fijo,

lımn→∞

EP

(S2IF>

√na(δ)

)= 0,

entonces

lımn→∞

E

(sup

|σ0−σ|<δ,‖v‖<δ|J jn,1(σ, v)|

)≤ D1J[ ](δ,F

j1)‖S‖2,P.

Luego, por lo dicho en (4.16) sabemos que J[ ](δ,Fj1) −−−→

δ→00 concluyendo ası lo que se querıa

probar.

Similarmente, para demostrar la convergencia de L2n, definamos por νj,0(τ) a la j−coordenada

de ν(τ,β0) y

Jn,2(σ, v) =1√n

n∑i=1

Ψ1


σ

)W (xi)v(ti),

luego bastara probar que para cualquier ε > 0, P(|Jn,2(sn, νj,0(τ))| > ε) → 0. Para ellollamaremos

F2 =

f2,v,σ(y,x, t) = Ψ1

(y − g(x,β0)− η0(t)

σ

)W (x)v(t), v ∈ V, σ ∈ P

y

Fδ,2 = f2,v,σ(y,x, t) ∈ F2 : ‖v‖∞ < δ y |σ − σ0| < δ .

Notar que por N1, la simetrıa de ε y su independencia con (x, t) obtenemos que E (f2,v,σ) =0, y junto con N3 tenemos que existe una constante positiva C2 tal que |f2,v,σ(y,x, t)| ≤ C2

para todo v ∈ V y σ ∈ P y por ultimo observemos que bajo N2,

|f2,vl,σs − f2,v,σ| ≤ A2|(vl, σs)− (v, σ)|,

con A2 = ‖W‖∞[‖Ψ1‖∞ + 2

σ0‖Ψ2‖∞

].

33

Luego, siguiendo la lınea de razonamiento anterior, tenemos que

J[ ](δ,F2) −−−→δ→0

0.

Por consiguiente, para cada 1 ≤ j ≤ q, por N6.2, N6.3 y el hecho de que snP−−→ σ0, entonces

dado δ > 0 existe n0 ∈ N tal que para todo n > n0 se cumple

P (|σ0 − sn| > δ) <δ

2y P (νj,0 ∈ V y ‖νj,0‖∞ > δ) <

δ

2.

Trabajando de la misma manera que la descripta anteriormente tenemos para cada 1 ≤ j ≤ qdado ε > 0, existe D2 y n0 ∈ N tal que para todo n > n0

P (|Jn,2(sn, νj,0)| > ε) ≤ 1

εD2J[ ](δ,F2) + δ.

Por lo tanto, L2n = (Jn,2(sn, v0,1), ..., Jn,2(sn, v0,q))

P−−→ 0 como se querıa demostrar.

Para finalizar faltarıa probar el punto 3, es decir que√n[Ln(sn,β0)−Ln(σ0,β0)]

P−−→ 0.Este resultado se obtiene usando argumentos similares al anterior por lo que su demostracionsera delegada al apendice.

34

Capıtulo 5

Estudio de Simulacion

En este Capıtulo se describiran los resultados de un estudio de simulacion cuyo objeti-vo es medir la performance del estimador robusto para un modelo parcialmente no linealpropuesto en (3.3), al que notaremos por ROB, y comparar su comportamiento versus unade sus versiones de estimacion clasica descripta en (3.2) la que notaremos por CLA.

Para llevar a cabo los distintos pasos de nuestro estimador definido en (3.3) se consideropor un lado, en el Paso 1, la funcion nucleo de Epanechnikov para el calculo de los pesoswi, es decir,

K(t) = 3/4(1− t2)I|t|≤1 (5.1)

con diferentes valores para la ventana h. Ademas para la ρ-funcion se eligio la ρk-funcionde Huber, es decir

ρk(x) =

x2 si |x| ≤ k

2k|x| − k2 si |x| > k

con constante de calibracion k = 1, 345. Por ultimo para sβ(t) usamos la MAD local muestraldefinida en (3.6).

Por otro lado, en el Paso 2, se usaron para ρ0 y ρ1 una ρ-funcion dentro de la familiabicuadrada de Tukey definida por

ρc = mın1− (1− (x/c)2)3, 1

con constante de calibracion c = 4 y se considero b = 0.5. Ademas, para el calculo de lospesos W (x) se penalizo la distancia de Mahalanobis robusta de la covariable x, para lo cualse computaron estimadores robustos, µ y Σ, de los parametros de posicion y escala, respec-tivamente, basados en x1, ...,xn y se considero como funcion penalizadora con constante decalibracion d = χ2

0.975,3 a

κ(x) = I(|x|≤d)

(1− (x/d)2

)2,

35

finalmente los pesos fueron calculados de la forma

W (x) = κ(

(x− µ)T Σ−1(x− µ)).

Para medir la performance del estimador propuesto β para β0 en base a los resultadosobtenidos calculamos como medidas resumen el desvıo estandar (SD), el sesgo (BIAS) yel error cuadratico medio (MSE) para cada una de sus componentes. Por otro lado, paramedir la performance de la estimacion no parametrica η para η0 calculamos la media, lamediana y el desvıo estandar del error MSE(η), que denotamos por M.MSE, Med.MSEy SD.MSE respectivamente, definido de la siguiente manera

MSE(η) =1

n

n∑i=1

(η(ti)− η0(ti))2.

Para este estudio de simulacion se realizaron N = 1000 replicaciones en las que se gene-raron muestras aleatorias independientes (yi,x

Ti , ti) de tamano n = 100 para el modelo par-

cialmente no lineal (3.1) donde consideramos como g(x,β) = (xTβ0)2 con β0 = (1, 2, 1.5)T

y η0(t) = sin(2πt) con t ∼ U [0, 1]. Para los procedimientos de suavizado se utilizaron dis-tintos valores para la ventana h, solo presentaremos los resultados obtenidos para el valorh = 0.3 dado que los resultados obtenidos para cada un de ellas son muy similares entresi. Los estimadores propuestos se evaluaron tanto bajo muestras sin contaminar, a la quellamaremos C0, como tambien bajo muestras contaminadas C1, C2, C3 y C4 definidas a con-tamiacion. Los 1000 conjuntos de datos fueron generados para cada uno de los siguientescinco escenarios considerados en Jiang et al. (2017):

C0: x = (x1, x2, x3) ∼ N3 (0, I3) y la variable ε ∼ N(0, 1).

C1: x = (x1, x2, x3) ∼ N3 (0, I3) y la variable ε ∼ t1, la distribucion T de Student con ungrado de libertad, es decir la distribucion estandar Cauchy.

C2: x = (x1, x2, x3) ∼ N3 (0, I3) y la variable ε ∼ 0.9N(0, 1) + 0.1N(0, 102).

C3: x = (x1, x2, x3) ∼ N3 (0, I3) reemplazando un 10 % de los valores originales por valoresatıpicos (5, 5, 5) y la variable ε ∼ t1.

C4: x = (x1, x2, x3) ∼ N3 (0, I3) reemplazando un 10 % de los valores originales por valoresatıpicos (5, 5, 5) y la variable ε ∼ N(0, 1).

El primer escenario es para evaluar la performance de nuestra propuesta y poder com-pararlo con el metodo clasico cuando los errores provienen de una distribucion normal yno hay valores atıpicos en la muestra. El segundo y tercer escenario consideran errores concolas pesadas. El cuarto escenario estudia la robustez del estimador propuesto bajo la pre-sencia de outliers tanto en la variable x como en los errores. Por ultimo, el quinto escenarioconsidera outliers de alto leverage en la variable x.

36

Los siguientes graficos y tablas resumen los resultados de la simulacion. Los boxplot y lasestimaciones de la densidad corresponden a las propuestas de estimacion de los parametrosβ01, β02 y β03 bajo los distintintos escenarios considerados, mientras que las tablas muestranlas medidas resumen SD, BIAS y el MSE para cada uno de ellos y M.MSE, Med.MSEy SD.MSE para la funcion η0. Por otro lado, en la Figura 5.8 se muestra el grafico paralas estimaciones clasica y robusta de la funcion η0 en una de las mil replicaciones versus lagrafica de la verdadera funcion en cada uno de los escenarios propuestos.

Figura 5.1: Boxplots de β1 por el metodo CLA vs. el metodo ROB bajo C0 y las contamina-ciones C1, C2, C3 y C4 de izquierda a derecha. La lınea roja se encuentra sobre el verdaderovalor de β01.

37



38

Metodo β01 = 1 β02 = 2 β03 = 1.5BIAS SD MSE BIAS SD MSE BIAS SD MSE

C0CLA 0.0005 0.0206 0.0004 -0.0001 0.0187 0.0003 -0.0003 0.002 0.0004ROB 0.0004 0.0312 0.0010 -0.0090 0.0274 0.0007 0.0002 0.0297 0.0009

C1CLA -0.0820 0.6081 0.3762 -0.0270 0.6081 0.3701 -0.0710 0.6712 0.4552ROB -0.0004 0.0500 0.0025 -0.0009 0.0445 0.0020 -0.0005 0.0474 0.0022

C2CLA -0.0600 0.5653 0.3229 0.036 0.5839 0.342 -0.001 0.593 0.3513ROB 0.0008 0.0314 0.0010 -0.0002 0.0274 0.0008 0.0015 0.0297 0.0009

C3CLA 0.2785 0.7084 0.5789 1.073 0.7754 1.7520 0.8057 0.7620 1.2292ROB 0.0010 0.0513 0.0026 0.0077 0.0458 0.0022 0.0044 0.0507 0.0026

C4CLA 0.4255 0.3621 0.3120 1.2535 0.4350 1.7612 1.0360 0.3570 1.2010ROB 0.0015 0.0281 0.0008 0.0043 0.0271 0.0008 0.0040 0.0284 0.0008

Cuadro 5.1: Medidas resumen para las estimaciones de los parametros β01, β02, β03 bajo losescenarios C0, C1, C2, C3 y C4 descriptos anteriormente.

Figura 5.4: Estimacion de la densidad dados los 1000 valores estimados de β01 para elmetodo clasico en rojo y robusto en negro bajo C0, C1, C2, C3 y C4.

39



40

Figura 5.7: Estimacion de la densidad de Med.MSE(η) obtenidas bajo los cinco escenariosdescriptos anteriormente. La curva en negro corresponde al metod CLA y las dadas en rojocorresponden al metodo ROB.

Estimacion para η0

Metodo M.MSE SD.MSE Med.MSE

C0CLA 0.0926 0.0331 0.0869ROB 0.0997 0.0437 0.0923

C1CLA 5 62.9 8328 3.668ROB 0.1783 0.1275 0.1438

C2CLA 30.9236 35.0628 20.3381ROB 0.1084 0.0511 0.0981

C3CLA 573.5674 7893.1058 31.9639ROB 0.3012 0.2765 0.2257

C4CLA 31.5823 13.9275 29.4050ROB 0.1286 0.0651 0.1151

Cuadro 5.2: Medidas resumen para la funcion no parametrica η0 bajo los cinco escenariosdescriptos anteriormente.

41

Figura 5.8: Con trazo negro se muestra la curva real η0, en puntos rojos y negros se muestransus valores estimados con el metodo ROB y CLA respectivamente.

42

En los Cuadros 5.1 y 5.2 podemos observar que bajo el escenario C0, si bien, comoes de esperar, existe una diferencia entre los estimadores, esta es mınima. Es decir, elcomportamiento del estimador robusto propuesto, tanto para el parametro β0 como parala funcion η0, es similar al del estimador de mınimos cuadrados cuando la muestra esta sincontaminar.

Al introducir distintas alteraciones en la muestra podemos ver como el estimador demınimos cuadrados es severamente afectado en comparacion del estimador robusto.

Por un lado, en la estimacion para el parametro de regresion β0 usando el metodo clasicobajo los escenarios C1 y C2 podemos ver que existe un aumento considerable en los valoresde los ECM ’s pero no ası en los valores de los sesgos (BIAS). Es decir, este aumentopareciera ser por el incremento en los valores de los desvios (SD). Esta situacion se vereflejada, no solo en las filas correspondientes a C1 y C2 del Cuadro 5.1 sino tambien puedeser observada graficamente en los boxplot correspondientes dados en las Figuras 5.1, 5.2,5.3 y en la Figuras 5.4, 5.5 y 5.6 en las que se muestran las estimaciones de las densidad delos estimadores de los parametros de regresion.

Bajo los escenarios propuestos en C3 y C4 es donde se encuentran las mayores diferenciasentre ambos estimadores. Podemos observar que, usando el metodo clasico, los ECM ’s delparametro β aumentan hasta en diez mil veces su valor con respecto al escenario C0 dado,a diferencia de los escenarios C1 y C2, por un aumento en los valores del sesgo (BIAS),mientras que el estimador robusto se conserva dentro de rangos razonables.

Por otro lado, podemos observar que la estimacion robusta (ROB) para la funcion η0

bajo una muestra sin contaminar tiene un comportamiento similar a la estimacion clasica(CLA). Bajo los distintos escenarios de contaminacion propuestos el estimador clasico paraη0 se ve afectado a niveles exagerados perdiendo casi el sentido de la ”buena” estimacion,mientras que el estimador robusto conserva la lınea como puede observarse en los valoresresumenes del Cuadro 5.2 y en las Figuras 5.7 y 5.8.

43

Capıtulo 6

Ejemplo con datos reales

En esta seccion, con el objetivo de ilustrar el uso de los estimadores propuestos, estudia-remos el ajuste de un modelo parcialmente no lineal (3.1) al conjunto de datos metereologicos“airquality” obtenidos del Departamento de Conservacion del Estado de Nueva York loscuales se encuentran disponibles en el Software R . Con la intencion de estudiar la calidaddel aire en el area metropolitana de Nueva York fueron registrados diariamente entre el 1

de mayo y el 30 de septiembre de 1973 un total de 153 observaciones, cada registro constabade mediciones de cuatro variables: ozono (O), radiacion solar, promedio de la velocidad delviento (V) y la temperatura maxima medida en grados Fahrenheit (T). Es importante re-saltar que este conjunto de datos posee observaciones faltantes, entre las 153 observacionesse encuentran 37 con datos faltantes, para nuestro analisis y a modo de ilustrar nuestroprocedimiento trabajaremos solo con las 116 que fueron registradas de modo completo.

Este conjunto de datos fue introducido en Chambers et al. (1983). Cleveland (1985)estudio la relacion entre el ozono y la velocidad del viento detectando una relacion no linealen la cual a medida que la velocidad aumenta, el ozono decrece. Esto se debe al incrementode ventilacion que se produce cuando la velocidad del viento es mayor. En Spano (2016)retoman el analisis propuesto por Cleveland (1985) pero, a diferencia de este, no descartanlos datos incompletos si no que trabajan en un contexto donde puede haber datos faltantes.Luego de probar diferentes modelos obtienen que utilizar una regresion no lineal con unafuncion de decrecimiento exponencial dado por la siguente funcion de regresion

g(V, β1, β2, β3) = β1 exp (β2V ) + β3 (6.1)

resulta un modelo adecuado para explicar la relacion entre el ozono y la velocidad delviento. Asimismo, realizan un estudio para detectar valores atıpicos en la muestra dondese identifican y explican la presencia de 5 outliers, que corresponden a las observacionesnumero 86, 100, 101, 121 y 126 de la muestra original.

En lo que sigue discutiremos si resulta razonable la inclusion de la variable temperaturaa fin de obtener un mejor ajuste de la variable ozono. Para ello consideraremos un modelode regresion no parametrico definido en (2.1),

O = m(V, T ) + ε

44

donde m : R2 → R es una funcion suave y ε una variable aleatoria en R.

Para un primer analisis a modo descriptivo estimaremos la funcion m con el procedi-miento de estimacion robusto descripto en (2.1.2) y tomando como funcion nucleo el deEpanechnicov (5.1). Realizamos el ajuste para distintos valores de ventanas y como se pue-de apreciar en la Figura 6.1, debido a que el rango de las observaciones temperatura yvelocidad del viento es considerablemente diferente usamos dos ventanas diferentes.

Wind

5

10

15

20Temp

60

70

80

90O

zone

50

100

150

Figura 6.1: Conjunto de datos correspondientes al ozono, la temperatura y la velocidad delviento, en rojo se pueden apreciar los puntos considerados atıpicos en Spano (2016).

La Figura 6.2 ilustra algunos de los ajustes obtenidos para diferentes valores de ventanas,en ella se observa por un lado que a pesar de considerar diferentes valores de ancho de bandael comportamiento de la funcion de regresion estimada no presenta un cambio considerablede forma. Por otro, lado observamos claramente que la variable ozono tiene una dependenciaimportante para diferentes condiciones de temperatura.

Luego, a partir del analisis anterior consideraremos la inclusion de la variable tempe-ratura al modelo de regresion no lineal considerado en Spano (2016), proponiendo unadependencia noparametrica con la variable ozono, es decir ajustaremos el siguiente modeloparcialmente no lineal

O = β1 exp (β2V ) + η(T ) + ε. (6.2)

Notemos que a diferencia del modelo puramente no lineal, en este modelo no consideramosel parametro β3 ya que sera modelado como parte de la funcion η evitando un problema deidentificabilidad.

En la Tabla 6.1 resumiremos el error cuadratico medio (ECM) y error cuadratico me-diano (ECMed) calculados con el fin de evaluar los diferentes ajustes de los modelos con-

45

Wind

Temp

Ozone

Wind

Temp

Ozone

Wind

Temp

Ozone

Figura 6.2: Estimador noparametrico de la regresion usando diferentes ventanas.

46

siderados. Mas especıficamente, calculamos

ECM(m) =1

n

n∑i=1

(Oi − m(Vi, Ti))2,

ECMed(m) = median((Oi − m(Vi, Ti))2),

donde m(V, T ) correspondera al estimador de la funcion de regresion en el punto (V, T )bajo el modelo calculado. En particular, comparamos nuestro procedimiento de estimacionutilizando:

un modelo puramente no parametrico que notamos como (NP ), para las variablesregresoras velocidad del viento y temperatura que estimamos utilizando estimadoresrobustos.

un modelo no lineal para la variable velocidad del viento estimado a partir del proce-dimiento robusto presentado en Spano (2016) que denotamos (NLR).

un modelo parcialmente no lineal estimado (PNLR) a partir del procedimiento ro-busto el cual presentamos en (3.3).

mNP mNLR mPNLR

ECM 376.6914 903.6621 275.6815ECMed 70.6501 126.3261 53.41841

Cuadro 6.1: ECM y ECMed para los diferentes modelos considerados.

Tanto para el calculo del estimador NP como de nuestro procedimiento PNLR querequieren de la seleccion de un parametro de suavizado se han computado los estimadorespara diferentes valores de ventanas y se ha elegido aquella con menor ECM . En la Figura6.3 observamos el resultado del ECM y el ECMed de nuestra propuesta de estimacionpara diferentes valores de ventana. Bajo el modelo PNLR, los valores estimados para β1 yβ2 correspoden a 186.8735 y −0.3524, respectivamente.

Como se obeserva en la Tabla 6.1, modelar la variable ozono a partir de la variablevelocidad del viento y temperatura conduce a un mejor ajuste. Esto se ve plasmado alcomparar el ECMed obtenido bajo un modelo puramente no lineal frente al ECMed de losestimadores obtenidos en el modelo parcialmente no lineal, cabe destacar que correspondeaquı comparar el ECMed en lugar del ECM ya que debido a la presencia de outliers estaultima no representa una medida adecuada. Por otro lado en la Figura 6.3 obsevamos queaun los valores mas altos de ECMed obtenidos para diferentes ventanas se conservan pordebajo del 126.3261 que corresponde al ECMed del estimador bajo el modelo no lineal.Finalmente si comparamos la estimacion bajo el modelo parcialmente no lineal frente alestimador bajo un modelo puramente no parametrico, notamos una reduccion del ECMed.Esto pone de manifiesto que el modelo propuesto parece adecuarce a la variable a serexplicada.

47

2 4 6 8 10

100

200

300

400

h

Figura 6.3: ECM en rojo y ECMed en azul del estimador mPNLR calculados para diferentesanchos de banda.

Para finalizar el analisis, utilizaremos los estimadores robustos calculados para detectardatos atıpicos en la muestra. En la Figura 6.5 se resume con dos graficos los residuosestandarizados basados obtenidos. En base a los mismos podemos detectar 5 outliers, quecorresponden a las observaciones numero 30, 62, 86, 117 y 126 de la muetra original que semuestran el la Figura 6.4

Las obervaciones 86 y 126 tambien fueron detectadas como atıpicas en Spano (2016);una de ella corresponde a un nivel muy bajo de velocidad del viento asociada a un valorrelativamente bajo de ozono. Dos de las observaciones detectadas se corresponden a al-tos valores de ozono pero bajas velocidades de viento. Ası mismo en todos los casos lastemperaturas correspondientes a los outliers encontrados conservan valores medios altos.

Por ultimo eliminamos las 5 observaciones detectadas como atıpicas y calculamos elestimador clasico obteniendo un ECM = 125.4424 y ECMed = 49.204 y los parametros deβ fueron estimados con β1 = 112.2661 y β2 = −0.3175. Intentando una comparacion masclara de ambos ajustes, es decir el ajuste clasico sin outliers frente al ajuste robusto conla muestra completa, calculamos para cada ajuste residuos parciales de la componente noparametrica y de la parametrica. Es decir, obtuvimos resi = Oi−g(β, Vi) y resi = Oi−η(Ti)para cada observacion i de la muestra, donde los estimadores β y η fueron calculados deacuerdo al procedimiento clasico y robusto segun correspondıa. La Figura 6.6, resume elajuste de la componente no parametrica η y la componente parametrica g(·, β). Como sepuede obervar en la figura, el ajuste robusto frente a la presencia de outliers tiene uncomportamiento similar al ajuste clasico obtenido en la muestra sin datos atıpicos.

48

Wind

5

10

15

20 Temp60

7080

90

Ozone

50

100

150

Figura 6.4: Conjunto de datos correspondientes al ozono, la temperatura y la velocidad delviento, en rojo se pueden apreciar los puntos considerados atıpicos.

−4

−2

02

46

8

0 20 40 60 80 100 120

−4

−2

02

46

8

Index

resi

dual

s

Figura 6.5: Graficos de residuos estandarizados versus el indice y boxplot de los residuosestandarizados.

49

60 70 80 90

020

4060

8010

0

Temp

part

ial r

esid

uals

5 10 15 20

050

100

Wind

part

ial r

esid

uals

a) b)

Figura 6.6: a) temperatura versus resi (puntos negros robusto y diamantes azules clasico), lalınea negra corresponde al ajuste robusto de η y en rojo el ajuste clasico de η. b) velocidaddel viento versus resi (puntos negros robusto y diamantes azules clasico), la lınea negracorresponde al ajuste robusto de g(·, β) y en rojo el ajuste clasico.

50

Capıtulo 7

Apendice

7.1. Demostraciones de la Seccion 4.2

Comenzaremos esta seccion demostrando el Lema 4.2.2 para ello utilizaremos la siguientedesigualdad.

Lema 7.1.1. Desigualdad de Bernstein

Sean X1, . . . , Xn variables aleatorias independientes con esperanza 0 y varianza finita, sipara todo 1 ≤ i ≤ n se verifica que |Xi| ≤M casi seguramente luego

P

(|n∑i=1

Xi| > ε

)≤ 2 exp

(− 3ε2

2(3V +Mε)

)donde V >

∑ni=1 V ar(Xi).

Demostracion del Lema 4.2.2: Sea τ ∈ T0, llamemos wi(τ) = K(τ−tihn

)−E

(K(τ−tihn

))y Sn(τ) =

∑ni=1wi(τ). Como K es una funcion acotada entonces existe A1 ∈ R tal que

para todo 1 ≤ i ≤ n se cumple que |wi| ≤ A1, ademas por C1 y C2 tenemos que E(wi) = 0y V ar(wi) ≤ ‖K‖∞‖ft‖∞hn para todo 1 ≤ i ≤ n. Luego usando C7 y la desigualdad deBernstein (7.1.1) tenemos que dado ε > 0 existen n1 ∈ N y alguna constante positiva α ∈ Rtal que para todo n > n1 se verifica que P( 1

nhn|Sn(τ)| > ε) ≤ exp(−αnhn) y como la cota

no depende de τ llegamos a

supτ∈T0

P(1

nhn|Sn(τ)| > ε) ≤ 2 exp(−αnhn). (7.1)

Por otro lado como T0 es un conjunto compacto, podemos considerar una coleccion finitade bolas Bj = Bhγn(τj) con centros τj ∈ T0 y radio hγn con γ = 3 tal que T0 ⊆

⋃lj=1Bj .

Luego

supτ∈T0|Sn(τ)| ≤ max

1≤j≤lsupτ∈Bj

|Sn(τ)− Sn(τj)|+ max1≤j≤l

|Sn(τj)|.

51

Por C2 la funcion K es Lipschitz de orden uno, llamemos ‖K‖L a su constante Lipschitz.Entonces, para cada τ ∈ Bj tenemos que

1

nhn|Sn(τ)− Sn(τj)| ≤

1

nhn‖K‖Lnhγ−1

n = Chγ−2n . (7.2)

Luego, como hn → 0 entoces existe n2 ∈ N tal que para todo n > n2 tenemos que

max1≤j≤l

supτ∈Bj

1

nhn|Sn(τ)− Sn(τj)| < ε.

Finalmemte por C7, (7.1) y (7.2) existe n0 = maxn1, n2 tal que para todo n > n0 severifica

P(

1

nhnsupτ∈T0|Sn(τ)| > 2ε

)≤ P

(max1≤j≤l

1

nhn|Sn(τj)| > ε

)

≤l∑

j=1

P(

1

nhn|Sn(τj)| > ε

)≤ 2l exp (−αnhn) ≤ Cn−2

lo cual concluye la demostracion.

Demostracion del Lema 4.2.3: Veamos que, dado ε > 0, existe a real tal que, paratodo τ ∈ T0 y para todo β ∈ B se verifica que Fβ(a|t = τ) < ε. Efectivamente, seanβ ∈ B y τ ∈ T0 fijos entonces existe a(β, τ) ∈ R tal que Fβ(a(β, τ)|t = τ) < ε. Como por

C4.3, Fβ(v|t = τ) es una funcion continua de (β, τ), tambien existe δ = δ(β, τ) > 0 talque si |β − β| < δ y |τ − τ | < δ entonces Fβ(a(β, τ)|t = τ) < ε. Trivialmente T0 × B ⊆⋃Bδ(β,τ)(β, τ), luego, como T0×B es un conjunto compacto existen (β1, τ1), ..., (βm, τm) ∈

T0 × B tales que T0 × B ⊆⋃mi=1Bδ(βi,τi)(βi, τi). Sean a(β1, τ1), ..., a(βm, τm) ∈ R tales que

Fβi(a(βi, τi)|t = τi) < ε para 1 ≤ i ≤ m. Definamos a = mın1≤i≤m(a(βi, τi)). Por ultimonotar que dado (β, τ) existe 1 ≤ i ≤ m tal que (β, τ) ⊆ Bδ(βi,τi)(βi, τi) de donde se deduceque Fβ(a|t = τ) ≤ Fβ(a(βi, τi)|t = τ) < ε.

La otra desigualdad se demuestra analogamente.

Demostracion del Lema 4.2.4: Para la continuidad de λ veamos que dada (βn, τn, an, σn)→(β, τ, a, σ) se cumple que λ(βn, τn, an, σn)→ λ(β, τ, a, σ) cuando n→∞. Para ello bastaraver que

a)∫

Ψ(v−aσ

)dFβn(v|t = τn)→

∫Ψ(v−aσ

)dFβ(v|t = τ).

b)∫ [

Ψ(v−anσn

)−Ψ

(v−aσ

) ]dFβn(v|t = τn)→ 0.

Para el punto a) basta con notar que como valen C4.3 y C5 estamos bajo las condicionesdel Lema de Portmanteau.

52

Veamos el punto b). Para ello tomemos ε > 0, el Lema 4.2.3 implica que existe n0 ∈ Ny constantes a y b tales que Fβn(b|t = τn) > 1 − ε/4‖Ψ‖∞ y Fβn(a|t = τn) < ε/4‖Ψ‖∞para todo n > n0. Por otro lado, por C5 sabemos que existe n1 ∈ N tal que |Ψ

(v−anσn

)−

Ψ(v−aσ

)| < ε/2 para todo n > n1 y para todo v en [a, b]. Luego, tomando n = maxn0, n1

llegamos a∫ [Ψ

(v − anσn

)−Ψ

(v − aσ

)]dFβn(v|t = τn) ≤ (ε/2)

∫[a,b]

dFβn(v|t = τn)

+ 2‖Ψ‖∞∫

[a,b]cdFβn(v|t = τn)

≤ ε.

concluyendo ası lo que querıamos probar. Por otro lado, para ver la continuidad de ηβ(τ)observemos que como Ψ es estrictamente creciente tenemos que para todo ζ > 0

λ(β, τ, ηβ(τ)− ζ, σ) > λ(β, τ, ηβ(τ), σ) > λ(β, τ, ηβ(τ) + ζ, σ).

Debido a la continuidad de λ sabemos que ∀ε > 0, ∃δ > 0 tal que |(β1, τ1) − (β, τ)| < δentonces

|λ(β1, τ1, ηβ(τ)± ζ, σ)− λ(β, τ, ηβ(τ)± ζ, σ)| < ε (7.3)

Sea ε = mınλ(β, τ, ηβ(τ), σ)−λ(β, τ, ηβ(τ) + ζ, σ), λ(β, τ, ηβ(τ)− ζ, σ)−λ(β, τ, ηβ(τ), σ)entonces (7.3) implica que existe δ1 > 0 tal que si |(β1, τ1)− (β, τ)| < δ1 se tiene que

λ(β1, τ1, ηβ(τ) + ζ, σ) < λ(β, τ, ηβ(τ) + ζ, σ) + ε < λ(β1, τ1, ηβ1(τ1), σ)

y, por lo tanto, ηβ1(τ1) − ηβ(τ) < ζ. Analogamente se ve que existe δ2 > 0 tal que si

|(β1, τ1) − (β, τ)| < δ2 entonces −ζ < ηβ1(τ1) − ηβ(τ). Por lo tanto, dado ζ > 0 si δ =

mınδ1, δ2 se tiene que si

|(β1, τ1)− (β, τ)| < δ ⇒ |ηβ(τ)− ηβ1(τ1)| < ζ.

Demostracion del Lema 4.2.5: Por Lema 4.2.3 existen constantes a, b tales que Fβ(b|t =τ) > 7

8 y Fβ(a|t = τ) < 18 para todo τ ∈ T0 y para todo β ∈ B. Por (4.7) sabemos que, dado

ε > 0 existe n0 ∈ N tal que −ε < Fn,β(v|t = τ) − Fβ(v|t = τ) < ε para todo n > n0. Enparticular tomando ε = 1

8 , v = a y v = b llegamos a Fn,β(a|t = τ) < 14 y Fn,β(b|t = τ) > 3

4para todo n > n0, para todo τ ∈ T0 y para todo β ∈ B, luego se deduce que a < mn,β(τ) < b,donde mn,β(τ) es la mediana respecto a la distribucion Fn,β(·|t = τ). Es sencillo ver quela eleccion de a, b y n0 implican ademas que sn,β(τ) ≤ b − a para todo n > n0, para todoτ ∈ T0 y para todo β ∈ B. Como vale C4.2 tenemos que para cada τ y β fijos Fβ(v|t = τ)es una funcion de distribucion continua, luego dados β0 ∈ B y τ0 ∈ T0 existen constantesa(β0, τ0) y b(β0, τ0) tales que Fβ0

(a(β0, τ0)|t = τ0) = 13 y Fβ0

(b(β0, τ0)|t = τ0) = 710 . Por

C4.3 sabemos que existe δ0 = δ(β0, τ0) tal que si |β − β0| < δ y |τ − τ0| < δ entonces

1

3− ε < Fβ(a(β0, t0)|t = τ) <

1

3+ ε y

7

10− ε < Fβ(b(β0, τ0)|t = τ) <

7

10+ ε.

53

Sea Bh(c) la bola de centro c y radio h. Trivialmente T0 × B ⊆⋃Bδ(β,τ)(β, τ), luego

como T0 × B en un conjunto compacto existen (β1, τ1), ..., (βm, τm) ∈ T0 × B tales queT0×B ⊆

⋃mi=1Bδ(βi,τi)(βi, τi). Para cada (βi, τi), con 1 ≤ i ≤ m, existen a(βi, τi) y b(βi, τi)

tales que Fβi(a(βi, τi))|t = τi) = 13 y Fβi(b(βi, τi))|t = τi) = 7

10 , por lo tanto, para todo(β, τ) ∈ Bδ(βi,τi)(βi, τi) tenemos que

1

3− ε < Fβ(a(βi, τi)|t = τ) <

1

3+ ε y

7

10− ε < Fβ(b(βi, τi)|t = τ) <

7

10+ ε.

Por C4.2 existe η > 0 tal que

1

3−2ε < Fβ(a(βi, τi)−η|t = τ) <

1

3+2ε y

7

10−2ε < Fβ(b(βi, τi)+η|t = τ) <

7

10+2ε,

y por (4.7) tenemos que para todo (β, τ) ∈ Bδ(βi,τi)(βi, τi), para todo n > n0 y 1 ≤ i ≤ m

1

3−3ε < Fn,β(a(βi, τi)−η|t = τ) <

1

3+3ε y

7

10−3ε < Fn,β(b(βi, τi)+η|t = τ) <

7

10+3ε.

Finalmente, tomando ε = 160 obtenemos que para todo n > n0, Fn,β(a(βi, ti)|t = τ) < 1

2 ,Fn,β(a(βi, τi)− η|t = τ) > 1

4 , Fn,β(b(βi, τi)|t = τ) > 12 y Fn,β(b(βi, τi) + η|t = τ) < 3

4 paratodo n > n0 y para todo 1 ≤ i ≤ m. Por lo tanto a(βi, τi) < mn,β(τ) < b(βi, τi) para todo(β, τ) ∈ Bδi(βi, τi) y sn,β(τ) > η para todo τ ∈ T0 y para todo β ∈ B si n > n0 concluyendoası la demostracion.

Demostracion del Teorema 4.2.6: Notemos que si consideramos para cada v ∈ R fijozi,β = I(−∞,v](vi,β) y K la funcion nucleo, entonces Fβ(·|t = τ) puede escribirse como elcociente entre R1n(β, τ) y R0n(τ) donde

R1n(β, τ) =1

nhn

n∑i=1

zi,βK

(τ − tihn

)y R0n(τ) =

1

nhn

n∑i=1

K

(τ − tihn

),

mediante algunos sencillos manejos algebraicos, llegamos a la siguiente desigualdad:

|Fβ(v|t = τ)− Fβ(v|t = τ)| ≤[∣∣R1n(β, τ)− E(R1n(β, τ))

∣∣+∣∣E(R1n(β, τ))− Fβ(v|t = τ)E(R0n(τ))

∣∣+∣∣Fβ(v|t = τ)| |E(R0n(τ))−R0n(τ)

∣∣] 1

R0n(τ)

54

por lo tanto, bastara probar que:

supv∈R

supβ∈B

supτ∈T0

∣∣R1n(β, τ)− E(R1n(β, τ))∣∣→ 0 ctp (7.4)

supτ∈T0|E(R0n(τ))−R0n(τ)

∣∣→ 0 ctp (7.5)

supv∈R

supβ∈B

supτ∈T0

∣∣E(R1n(β, τ))− Fβ(v|t = τ)E(R0n(τ))| → 0 ctp (7.6)

Para algun a > 0 se verifica que∑n≥1

P(

ınfτ∈T0

R0n(t) ≤ a)<∞ (7.7)

Empecemos probando (7.7). Para ello observemos que C1 y C2 implican que

E (R0n(τ)) > ınfτ∈T0

ft(τ) = I > 0.

Por otro lado se puede ver que

ınfτ∈T0

R0n(τ) > I − supτ∈T0|E(R0n(τ))−R0n(τ)|.

Entonces, tomando a = I2 llegamos a que

P(

ınfτ∈T0

R0n(τ) ≤ a)≤ P

(supτ∈T0|E(R0n(τ))−R0n(τ)| ≥ a

)por ultimo, usando el Lema 4.2.2 se concluye lo que querıamos ver. La prueba de (7.5)tambien resulta una consecuencia inmediata del Lema 4.2.2 junto con el lema de Borel-Cantelli.

Para probar (7.4) veamos que estamos bajo las condiciones del Lema 4.1.19 . Para ello,para cada n ∈ N, definamos la siguiente familia de funciones

Fn =

fv,β,τ,hn(y,x, t) = ‖K‖−1

∞ I(−∞,v](y − g(x,β)) K

(t− τhn

), v ∈ R,β ∈ B, τ ∈ T0

.

Por un lado, como vale C2, siguiendo a Pollard (1984), Capıtulo 2, Problema [27], junto a la

Proposion 4.1.14 tenemos que para cada n ∈ N, la familiaK(·−τhn

), τ ∈ T0

es Euclıdea.

Este hecho empalmado a la condicion F.E. y a la Proposicion 4.1.11 , implica que para todo0 < ε < 1 el numero de cubrimiento de Fn verfica que supQN(ε,Fn, L1(Q)) ≤ A1ε

−W1 conQ medida de probabilidad y A1 y W1 constantes independientes de n.

Por otro lado para cada fv,β,τ,hn ∈ Fn se verifica que |fv,β,τ,hn | ≤ 1 y, ademas

E(f2v,β,τ,hn) ≤ 1

‖K‖2∞

∫K2

(u− τhn

)ft(u)du ≤ ‖ft‖∞

‖K‖∞hn

∫K(u)du, (7.8)

por lo tanto, por (7.8), C2, C6 y llamando C = ‖ft‖∞‖K‖∞ , δ(n) = Ch

1/2n y α(n) =

(nhn

log(n)

)−1/4

estamos bajo las hipotesis del Lema 4.1.19. Luego, para concluir, basta observar que

55

‖K‖∞ supv∈R

supβ∈B

supτ∈T0

∣∣R1n(β, τ)− E(R1n(β, τ))∣∣ =

1

hnsupf∈Fn

|EPn(f )− EP(f )|

≤ 1

δ2nαn

supf∈Fn

|EPn(f )− EP(f )|.

Finalmente demostremos (7.6) , para ello notemos que

E(R1n(β, τ)) =1

nhn

n∑i=1

E(K

(τ − tihn

)Fβ(v|t = ti)

),

Fβ(v|t = τ)E(R0n(τ)) =1

nhn

n∑i=1

E(K

(τ − tihn

)Fβ(v|t = τ)

).

Luego

∣∣∣E(R1n(β, τ))− Fβ(v|t = τ)E(R0n(τ))∣∣∣ ≤ 1

n

n∑i=1

E[ 1

hnK

(τ − tihn

)(Fβ(v|t = ti)− Fβ(v|t = τ)

)]≤∫

1

hnK

(τ − uhn

)|Fβ(v|t = u)− Fβ(v|t = τ)| ft(u) du

≤ A1(β, τ) +A2(β, τ)

Donde,

A1(β, τ) =

∫T ε0

1

hnK

(τ − uhn

)|Fβ(v|t = u)− Fβ(v|t = τ)| ft(u) du,

A2(β, τ) =

∫T ε0

1

hnK

(τ − uhn

)|Fβ(v|t = u)− Fβ(v|t = τ)| ft(u) du,

siendo T ε0 el entorno de T0 establecido en C4.1 y T ε0 su complemento, es decir, T ε0 ⊂ R esun conjunto abierto tal que T0 ⊂ T ε0 y d(T ε0 , T0) > ε siendo d la distancia entre conjuntos.

Acotemos primero A2(β, τ). Como u ∈ T ε0 y hn converge a cero entonces existe n0 natural

tal que |τ−u|hn/∈ [0, 1] para todo n > n0, luego por C2 tenemos que K

(τ−uhn

)= 0 y por lo

tanto A2(β, τ) = 0 para todo n > n0, para todo β ∈ B y para todo τ ∈ T0.

Veamos como acotar A1(β, τ). Por C4.1 sabemos que dado η > 0 existe δ > 0 tal que siu ∈ T ε0 y |τ − u| < δ entonces supβ∈B |Fβ(v|t = u)− Fβ(v|t = τ)| < η.

Por otro lado, como hn → 0 sabemos que existe n1 ∈ N tal que hn < δ para todo n > n1,

luego, como la funcion K tiene soporte compacto en [−1, 1] tenemos que K(τ−uhn

)= 0 para

todo u ∈ Bhn(τ) y para todo n > n1. Por lo tanto

A1(β, τ) =

∫T ε0∩Bhn (τ)

1

hnK

(τ − uhn

)|Fβ(v|t = u)− Fβ(v|t = τ)| ft(u) du

56

Ademas, podemos tomar n2 ∈ N tal que hn < ε para todo n > n2 resultando T ε0 ∩Bhn(τ) =Bhn(τ) si n > n2. Por ultimo tomando n = maxn1, n2 obtenemos que

A1(β, τ) ≤ 1

hn‖K‖∞

∫Bhn (τ)

|Fβ(v|t = u)− Fβ(v|t = τ)| fT (u) du ≤ 2η‖ft‖∞‖K‖∞.

Por lo tanto deducimos que para cada v ∈ R se cumple que

supβ∈B

supτ∈T0|Fβ(v|t = τ)− Fβ(v|t = τ)| → 0 ctp. (7.9)

Finalmente, para cada q ∈ Q definimos Nq = ω ∈ Ω : supβ∈K supτ∈T0 |Fβ(q|t = τ) −Fβ(q|t = τ)| 6→ 0 y N =

⋃q∈QNq. Luego (7.9) implica que P(N ) = 0. Sea ω /∈ N , entonces

supβ∈B supτ∈T0 |Fβ(q|t = τ)− Fβ(q|t = τ)| → 0 para todo q ∈ Q. Dado ε > 0, por el Lema4.2.3 sabemos que existen a , b ∈ Q tales que Fβ(a|t = τ) < ε y Fβ(b|t = τ) > 1 − ε paratodo β ∈ B y τ ∈ T0. Por otro lado, la equicontinuidad pedida en C4.2 implica que existena = v1 < v2 < ... < vl = b, con vi ∈ Q tal que |vi−vi−1| < δ y |Fβ(v|t = τ)−Fβ(vi|t = τ)| < εpara todo β ∈ B y τ ∈ T0, y para todo v tal que |v − vi| < δ. Sea n0 ∈ N tal que para todon > n0, max1≤i≤l supβ∈B supτ∈T0 |Fβ(vi|t = τ) − Fβ(vi|t = τ)| < ε. Entonces es sencillo

ver que supv∈R supβ∈B supτ∈T0 |Fβ(v|t = τ) − Fβ(v|t = τ)| < 2ε para todo n > n0, lo cualconcluye la demostracion.

7.2. Demostraciones de la Seccion 4.3

Demostracion del Teorema 4.3.5: Para concluir con la demostracion del teorema faltaver que

√n[Ln(sn,β0)− Ln(σ0,β0)]

P−−→ 0.

Para ello llamemos zj(s, τ,β) a la j−esima coordenada de z(s, τ,β) para cada 1 ≤ j ≤ q ydefinamos

Jn(σ) =1√n

n∑i=1

[Ψ1


σ

)−Ψ1


σ0

)]W (xi)zj(xi, ti,β0),

luego bastara probar que para cualquier ε > 0, P(|Jn(sn)| > ε)→ 0 para cada 1 ≤ j ≤ q.Sea P = (σ02 , 2σ0) y definamos la siguiente familia de funciones

F j =

f jσ(y,x, t) =

[Ψ1

(y − g(x,β0)− η0(t)

σ

)−Ψ1

(y − g(x,β0)− η0(t)

σ0

)]W (x)zj(x, t,β0), σ ∈ P

Usando el Teorema de Lagrange para Ψ1 en la variable σ y N2 obtenemos que

|f jσs(y,x, t)− f jσ(y,x, t)| ≤

√W (x)|zj(x, t,β0)|

∣∣∣∣ 1

σ∗Ψ

′

1

(y − g(x,β0)− η0(t)

σ∗

)(y − g(x,β0)− η0(t)

σ∗

)∣∣∣∣ |σs − σ|≤ 2

σ0‖√W‖∞‖Ψ2‖∞

√W (x)|zj(x, t,β0)||σs − σ|.

57

donde σ∗ es un punto intermedio entre σ y σs.

Luego llamando A = 2σ0‖√W‖∞‖Ψ2‖∞ y S(x, t) = A

√W (x)zj(x, t,β0) tenemos que, por

un lado, N7 implica que la la funcion S es una envolvente en L2 para la familia F j y ademasse verifica que

|f jσs − fjσ| ≤ S(x, t)|σs − σ| (7.10)

Por otro lado, como vale N10 tenemos que E (f(y,x, t)) = 0 para todo f ∈ F j .Asimismo, debido a que vale (7.10), por el Teorema 4.1.9, tenemos que la familia F j

verifica la siguiente la condicion de bracketing

N[ ](2ε‖S‖P,2,F j , L2(P)) ≤ N(ε,P, | · |)

y, por lo tanto, por la proposicion (4.1.17) se tiene que la familia F j satisface que

J[ ](δ,F j) −−−→δ→0

0. (7.11)

Por consiguiente, del hecho que snP−−→ σ0 tenemos que dado δ > 0 existe n0 ∈ N tal que

para todo n > n0 se cumple

P (|σ0 − sn| > δ) <δ

2.

Por lo tanto, dado ε > 0 tenemos que

P(|J jn(sn)| > ε

)≤ P

(|J jn(sn)| > ε, |σ0 − sn| < δ

)+ P (|σ0 − sn| > δ)

≤ P

(sup

|σ0−σ|<δ|J jn(σ)| > ε

)+ δ

≤ 1

εE

(sup

|σ0−σ|<δ|J jn(σ)|

)+ δ.

Luego es suficiente ver que

lımn→∞

lımδ→0

E

(sup


)= 0.

Dado δ > 0, consideremos la subclase

F jδ =f jσ(y,x, t) ∈ F j : |σ0 − σ| < δ

Es sencillo ver que la subclase F jδ cumple que ‖f jσ‖2,P ≤ δ‖S‖2,P para toda f jσ ∈ F jδ dondela funcion envolvente S(x, t) fue definida anteriormente. Luego, de la desigualdad maximalenunciada en la Proposicion 4.1.18, tenemos que

58

E

(sup


)≤ DJ[ ](δ,F

jδ )‖S‖2,P +

√nE(S(x, t)IS(x,t)>

√na(δ)

)≤ DJ[ ](δ,F j)‖S‖2,P +

1

a(δ)E(S2(x, t)IS(x,t)>

√na(δ)

).

Dado que la funcion S tiene segundo momento finito se desprende que para δ fijo,

lımn→∞

EP

(S2IS>

√na(δ)

)= 0,

entonces

lımn→∞

E

(sup


)≤ DJ[ ](δ,F j)‖S‖2,P.

Luego, por lo dicho en (7.11) sabemos que J[ ](δ,F j) −−−→δ→0

0 concluyendo ası lo que se querıa

probar.

59

Bibliografıa

[1] Anthony, M. y Bartlett, P. (1999). Neural Network Learning: Theoretical Founda-tions, Cambridge University Press.

[2] Bates, D. y Watts, D. (1988). Nonlinear Regression Analysis and Its Applications.

[3] Bianco, A. y Boente, G. (2004). Robust estimators in semiparametric partly linearregression models. Journal of Statistical Planning and Inference, 122, 229-252.

[4] Bianco, A. y Spano, P. (2017). Robust inference for nonlinear regression models.Journal TEST , https://doi.org/10.1007/s11749-017-0570-2.

[5] Boente, G. y Fraiman, R. (1989). Robust Nonparametric Regression Estimation.Journal of Multivariate Analysis, 29, 180-198.

[6] Boente, G. y Fraiman, R. (1991). Strong Uniform Convergence Rates for SomeRobust Equivariant Nonparametric Regression Estimates for Mixing Processes. In-ternational Statistical Review, 59, 355-372.

[7] Boente, G. y Fraiman, R. (1995). Asymptotic distribution of smoothers based onlocal means and local medians under dependence. Journal of Multivariate Analysis,54, 77-90.

[8] Boente, G., He, X. y Zhou, J. (2006). Robust estimates in generalized partially linearmodels. The Annals of Statistics, 34, 2856-2878.

[9] Boente, G. y Rodriguez, D. (2010). Robust inference in generalized partially linearmodels. Computational Statistics and Data Analysis, 54, 2942-2966.

[10] Chambers, J. M., Cleveland, W.S., Kleiner, B. y Tukey, P. A. (1983). GraphicalMethods for Data Analysis. Belmont, CA: Wadsworth.

[11] Chen, H. (1988). Convergence rates for parametric components in a partly linearmodel. The Annals of Statistics, 16, 136-146.

[12] Cheng, P.E. y Chu, C.K. (1996). Kernel estimation of distribution functions andquantiles con missing data. Statistica Sinica , 6, 63-78.

61

[13] Cleveland, W. (1985). The elements of graphing data, Bell Telephone LaboratoriesInc., New Jersey.

[14] Collomb, A. (1981). Estimation nonparametrique de la regression, revue bibliograp-hique. International Statistical Review, 49, 73-93.

[15] Engle R., Granger C., Rice J. y Weiss A. (1986). Semiparametric estimates of therelation between weather and electricity sales. Journal of the American StatisticalAssocciation, 81, 310-320.

[16] Fan J. y Gijbels, I. (1996). Local Polynomial Modelling and Its Applications. Chap-man and Hall, London.

[17] Fan, J. y Li, R. (2004). New estimation and model selection procedures for semipa-rametric modeling in longitudinal data analysis. Journal of the American StatisticalAssociation, 99, 710-723.

[18] Fasano, V. (2009). Teorıa asintotica de estimadores robustos en regresion no lineal.Tesis Doctoral, Departamento de Matematicas, Facultad de Ciencias Exactas, Uni-versidad Nacional de La Plata.

[19] Fasano, V., Marona, R., Sued, M. y Yohai, V. (2012). Continuity and differentiabilityof regression M functionals. Bernoulli, 18, 1284-1309.

[20] Fraiman, R. (1983). General M-estimator and applications to bounded influence esti-mation for non-linear regression. Communication in Statistics-Theory and Methods,22, 2617-2631.

[21] Green, P.J., Chapman y Hall. Nonparametric Regression and Generalized LinearModels, a roughness penalty approach, London.

[22] Hardle, W. (1984). Robust regression function estimation. Journal of MultivariateAnalysis, 14, 169-180.

[23] Hardle, W., Liang, H. y Gao, J. (2000). Partially Linear Models. Springer-Verlag.

[24] Hardle, W. y Tsybakov, A. (1988). Robust nonparametric regression with simulta-neous scale curve estimation. The Annals of Statistics, 16, 120-135.

[25] Huber, P.J. (1964). Robust estimation of a location parameter. Annals of Mathe-matical Statistics, 35, 73-101.

[26] Huber, P.J. (1973). Robust Regression: Asymptotics, Conjetures and Monte Carlo.Journal of Multivariate Analysis, 1, 799-821.

[27] Huet, S., Bouvier, V., Poursat, M. y Jolivet, E. (2004). Statistical tools for nonli-near regression a practical guide with S-PLUS and R examples. Springer Series inStatistics, New York.

62

[28] Jiang, Y. y Tian, GL. (2017). A robust and efficient estimation method for partiallynonlinear models via a new MM algorithm. Stat Papers, 108, 632-643.

[29] Li, R. y Nie, L. (2008). Efficient Statistical Inference Procedures for Partially Non-linear Models and their Applications. Biometrics, 64, 904-911.

[30] Loader, C. (1999). Local Regression and Likelihood. Springer, New York.

[31] Ma, Y., Chiou, J.M. y Wang, N. (2006). Efficient semiparametric estimator forheteroscedastic partially linear models. Biometrika , 93, 75-84.

[32] Maronna, R., Martin, D. y Yohai, V. (2006). Robust statistics: Theory and methods,Wiley, New York.

[33] Nadaraya, E.A. (1964). On estimating regression. Theory of Probability and itsApplications, 9, 141-142.

[34] Pollard, D. (1984). Convergence of Stochastic Processes, Springer-Verlag, New YorkInc.

[35] Rousseuw, P.J. y Yohai, V.J. (1984). Robust regression by means of S-estimators.Lecture Notes in Statist, 26, 256-272. Springer, New York.

[36] Ruppert, D. y Sheather, S.J. (1995). Effective Bandwidth Selector for Local LeastSquares Regression. Journal of the American Statistical Association, 90, 1257-1270.

[37] Ruppert, D., Wand M.P. y Carroll, R.J. (2003). Semiparametric Regression. NewYork, ,Cambridge University Press.

[38] Sakata, S. y White, H. (2001). S-Estimation of Nonlinear Regression Models WithDependent and Heterogeneous Observations. Journal of Econometrics , 103, 5-72.

[39] Seber, G. y Wild, C. (1989). Nonlinear regression, John Wiley and Sons, Inc.

[40] Severini, T.A. y Wong W.H. (1992). Profile likelihood and conditionally parametricmodels. The Annals of Statistics, 20, 1768-1802.

[41] Spano, P. (2016). Inferencia robusta en modelos no lineales con respuestas faltan-tes. Tesis Doctoral, Departamento de Matematicas, Facultad de Ciencias Exactas,Universidad de Buenos Aires.

[42] Speckman, P. (1988). Kernel smoothing in partial linear models. Journal of theRoyal Statistical Society. Series B ,50, 413-436.

[43] Stromberg, A.J. (1993). Computation of High Breakdown Nonlinear Regression Pa-rameters. Journal of the American Statistical Association, 88, 237-244.

[44] Stromberg, A. y Ruppert, D. (1992). Breakdown in nonlinear regression. Journal ofthe American Statistical Association, 87, 991-997

63

[45] Tsybakov, A. (1982). Robust Estimates of a Function. Problems Inform. Transmis-sion, 18, 190-201.

[46] Vahnovan, V. (2013). Estimadores robustos en modelos de regresion noparametricosfuncionales y en modelos semi-funcionales parcialmente lineales. Tesis Doctoral, De-partamento de Matematicas, Facultad de Ciencias Exactas, Universidad Nacionalde La Plata.

[47] van der Geer, S. (2000). Empirical processes in M-estimation, Cambridge UniversityPress.

[48] van der Vaart, A. (1998), Asymptotic Statistics, Cambridge University Press

[49] van der Vaart, A. y Wellner, J. (1996). Weak Convergence and Empirical Processes,Springer-Verlag New York Inc.

[50] Wand, M.P. y Jones, M.C. (1995). Kernel Smoothing. Chapman and Hall, London.

[51] Wang, N., Carroll, R.J. y Lin, X. (2005). Efficient semiparametric marginal estima-tion for longitudinal clustered data. Journal of the American Statistical Assoccia-tion, 100, 147-157.

[52] Watson, G.S. (1964). Smooth Regression Analysis. Sankhya, The Indian Journal ofStatistics. Series A, 26, 359-372.

[53] Yohai, V. (1987). High Breakdown point and high efficiency estimates for regression.Journal of the American Statistical Association, 15, 642-656.

64

Estimadores robustos en modelos parcialmente no...

Documents

Transcript of Estimadores robustos en modelos parcialmente no...