Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la...

156
P LS

Transcript of Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la...

Page 1: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

Regresión por Mínimos CuadradosParciales PLS Aplicada a Datos

Variedad Valuados

Carlos Gaviria Peña

Universidad Nacional de Colombia

Facultad de Ciencias, Escuela de Estadística

Medellín, Colombia

2016

Page 2: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal
Page 3: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

Regresión por Mínimos CuadradosParciales PLS Aplicada a Datos

Variedad Valuados

Carlos Gaviria Peña

Tesis o trabajo de grado presentada(o) como requisito parcial para optar al título de:

Magister en Ciencias-Estadística

Director:

Raúl Perez Agámez, PhD

Profesor Asociado.

Línea de Investigación:

Análisis Multivariado.

Universidad Nacional de Colombia

Facultad de Ciencias Exactas, Escuela de estadística

Medellín, Colombia

2015

Page 4: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal
Page 5: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

A mi Esposa y mi Hijo.

Page 6: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal
Page 7: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

Agradecimientos

Quiero expresar los mas sinceros agradecimientos, primero a Dios por que me ha guiadoen cada uno de mis pasos; a mis padres Edilma Peña y Walter Gaviria y a mi abuela AnaMuñoz por que con su esfuerzo, su amor, sus palabras, sus enseñanzas y su guía me hanllevado al estado actual; a mis hermanos por estar siempre de forma incondicional a milado; a mi esposa Monica Ramirez por estar presente bajo cualquier circunstancia; a miasesor de tesis Raúl Alberto Perez Agámez que con su tiempo, empeño y dedicación hizoque este trabajo fuera posible; a María Eugenia Puerta que le dedicó valioso tiempo aaspectos teóricos y prácticos relacionados con el desarrollo este proceso y todas aquellaspersonas que de alguna u otra forma participaron en la realización de este trabajo.

Page 8: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal
Page 9: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

Resumen

La regresión por mínimos cuadrados parciales (PLS) es una técnica de relación de va-riables introducida por Wold (1972,1975,1985), Wold (1972), Wold (1985) y extendidaposteriormente al campo de la quimiometría por su hermano Wold Et al. (1984), Wold(2001). La regresión lineal múltiple ordinaria generalmente manipula variables controla-bles o fácilmente medibles para predecir el comportamiento de otras variables y es usualcuando las variables explicativas son pocas, cuando no existen problemas de multicoli-nealidad y cuando existe una relación clara entre las variables. Si alguna de estas trescondiciones falla entonces la regresión lineal múltiple ordinaria no es e�caz. Por otro lado,la regresión lineal múltiple se puede utilizar con muchas variables explicativas, pero cuan-do el número de variables es demasiado grande se puede generar un modelo que ajustemuy bien los datos, pero que falla en la predicción de nuevos datos. En estos casos, dondeexisten muchas variables explicativas, puede que existan pocas variables no observablesque recojan la mayor variabilidad de la(s) variable(s) respuesta. El objetivo general dela regresión PLS es extraer estas variables latentes, recogiendo la mayor variación de lasvariables explicativas de manera que sirvan para modelar la(s) variable(s) respuesta de lamejor manera posible.

Actualmente existen datos que provienen de problemas reales y tales que no pertenecena un Espacio Euclídeo y por tal razón deben implementarse metodologías para datos concaracterísticas especiales. Existen dos líneas en particular para abordar éste problema: laprimera es la geometría diferencial, que permite construir una variedad que transforma losdatos y los transporta a un espacio Euclídeo donde se hace la regresión múltiple requeriday posteriormente transporta los datos nuevamente sobre el espacio no Euclídeo donde sehacen las respectivas interpretaciones con los resultados obtenidos. La segunda línea es lalínea del embebimiento que permite incrustar el conjunto que no es un espacio Euclídeoen otro que si es espacio Euclídeo, mediante la construcción de un conjunto cociente queresulta de una relación de equivalencia entre los elementos del conjunto inicial.

En este trabajo se implementa la metodología de regresión PLS y se aplica a un tipode datos variedad valuados, en particular datos relacionados con imágenes y se realiza laevaluación de dicha metodología usando criterios apropiados mediante la comparación conotras metodologías clásicas para datos Euclídeos, los cuales se tratarán de implementar altipo de datos utilizado. La metodología de regresión PLS se compara con metodologías

ix

Page 10: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

x

tales como regresión por componentes principales PCR, análisis y correlación canónico,regresión de Ridge y regresión Lasso. Para dicho propósito se implementa la metodologíaPLS en R utilizando datos simulados y datos reales, si es posible. Por otro lado, a manerade trabajo futuro, se extiende la metodología de regresión PLS al caso donde tanto lasvariables explicativas como las variables respuesta y los coe�cientes de regresión son deltipo intervalo. De ésta manera se propone una metodología de regresión que resuelvetres problemas que se presentan con los datos de tipo real: en primer lugar problemasde multicolinealidad tanto en las variables explicativas como en las variables respuesta,en segundo lugar problemas cuando los datos no pertenecen a un Espacio Euclídeo ypor último problemas cuando la incertidumbre en los datos se representa por medio deintervalos. De ésta manera este trabajo presenta dos enfoques diferentes: el primer enfoquedesde la línea de las variedades Riemannianas, en particular sobre el conjunto de matricesde�nidas positivas y el segundo enfoque desde la línea del embebimiento, en particularsobre los conjuntos de multi-intervalos y multi-matrices.

Palabras clave: Componentes Principales PCR, Mínimos cuadrados Parciales PLS,

Variedades, Datos de imágenes, Regresión PLS intervalo-valuada.

Page 11: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

xi

Abstract

Partial least squares regression (PLS) is a method of relaiont of variables introduced byWold (1972,1975,1985), Wold (1972), Wold (1985) and later extended to the �eld of che-mometrics by his brother Wold Et al. (1984), Wold (2001). Regression generally handledcontrollable variables or measurable variables easily to predict the behavior of other varia-bles. The ordinary multiple linear regression is usual when the explanatory variables arefew, when there aren't problems of multicollinearity and when there is a clear relationshipbetween the variables. If any of these three conditions fails then ordinary linear regressionis not e�ective. Furthermore, multiple linear regression uses many explanatory variables,but when the number of variables is too large can create a model that �t the data verywell, but fails in predicting new data. In these cases, where there are many explanatoryvariables, there may be few unobservable latent variables that re�ect the greater variabi-lity in the response variable. The overall objective of the PLS regression is extract theselatent variables, collecting the greatest variation of the explanatory variables so that theyserve to model the response variable in the best way possible.

Actually there are data come from real problems such non-Euclidean space and thus mustbe implemented methodologies for data with special characteristics. There are two lines inparticular to solve this problem: the �rst line is di�erential geometry for building a varietythat transforms and transports data to a Euclidean space where the multiple regression ismade and then again carries the date on no Euclidean space where the respective perfor-mances with the results obtained are made. The second line is the line that allows you toembedding the set, that is not a Euclidean space, on another Euclidean space by buildinga cocient set resulting from an equivalence relation between the elements of the initial set.

In this work the regression methodology PLS is implemented and these methods are ap-plied to a data type valued variety, including data related to images and evaluation of thismethodology is performed using appropriate evaluation criteria by comparing with otherclassical Euclidean methodologies for data, which seek to implement the type Data used.Methodology PLS regression compared to methodologies such as principal componentregression PCA, canonical correlation analysis and Regression or Ridge. PLS methodo-logy is implemented in R to the type of data used in the work to make such comparisonsusing simulated data and actual data, if possible. Furthermore, the methodology PLSregression to the case where both the explanatory variables as the response variablesand the regression coe�cients are of the type interval extends. In this way a regressionmethodology solves three problems encountered with actual data type is proposed: �rstmulticollinearity in explanatory and response variables, second real data does not belongto a Euclidean space and �nally, problems when uncertainty in the data is represented byintervals. Thus, this work presents two di�erent approaches: the �rst approach from theline of Riemannian manifolds, in particular on the set of positive de�nite matrices and

Page 12: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

xii

the second approach from the line of embedding, in particular on the sets of intervals andmulti multimatrices.

Keywords: Principal Components PCR, Partial Least Square PLS, Manifolds, Image

Data, PLS Regression interval-valued.

Page 13: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

Contenido

Agradecimientos vii

1. Introducción 3

2. Propuesta Inicial 7

2.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.1. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.2. Objetivos especí�cos . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2. Metodología . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3. Regresión Lineal Múltiple y PLS 9

3.1. Regresión Lineal Múltiple . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.2. Componentes Principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.2.1. Cálculo de las Componentes Principales . . . . . . . . . . . . . . . 12

3.3. Análisis de Correlación Canónica . . . . . . . . . . . . . . . . . . . . . . . 15

3.4. Regresión de Ridge y Regresión de Lasso . . . . . . . . . . . . . . . . . . . 16

3.5. Regresión PLS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3.5.1. Fundamentos de la Regresión PLS1 . . . . . . . . . . . . . . . . . . 20

3.5.2. Normalización de los Datos . . . . . . . . . . . . . . . . . . . . . . 21

3.5.3. Algoritmo PLS1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.5.4. Algoritmo PLS2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.5.5. Algoritmo PLS2 Mediante Etapas . . . . . . . . . . . . . . . . . . 35

4. Regresión PLS. Implementación 41

4.1. Matrices De�nidas Positivas. Geometría . . . . . . . . . . . . . . . . . . . 41

4.1.1. Matriz Exponencial y Matriz Logarítmica . . . . . . . . . . . . . . 42

xiii

Page 14: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

xiv CONTENIDO

4.1.2. El Conjunto de Matrices De�nidas Positivas como unaVariedad Riemanniana . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.1.3. El Mapeo Exponencial Riemanniano. . . . . . . . . . . . . . . . . . 47

4.1.4. Distribución de Probabilidad para Matrices De�nidasPositivas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

4.2. Datos respuesta en Sym+(p). Modelo de Regresión. . . . . . . . . . . . . . 54

4.2.1. Métrica Log-Euclídea. . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.2.2. Métrica de Frobenius. . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.3. PLS para Datos Respuesta en el Conjunto Sym+(p) . . . . . . . . . . . . 60

4.4. Implementación con Datos Simulados. . . . . . . . . . . . . . . . . . . . . . 62

5. Conclusiones y Trabajos Futuros. 83

A. Anexo: Elementos de Topología y Geometría Diferencial 85

A.1. Conceptos de Topología . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

A.2. Variedades Diferenciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

A.3. Geometría Riemanniana . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

A.4. Grupos de Lie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

A.4.1. Mapa Exponencial y Logarítmico de Grupos de Lie . . . . . . . . . 95

A.4.2. Métricas Bi-Invariantes . . . . . . . . . . . . . . . . . . . . . . . . . 95

A.4.3. Espacios Simétricos . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

A.4.4. Acciones de Grupos de Lie . . . . . . . . . . . . . . . . . . . . . . . 96

A.4.5. Espacios Simétricos como Grupos de Lie Cocientes . . . . . . . . . 97

B. Anexo: Teorema de Rådström 99

C. Anexo: Multi-Intervalos y Multi-Matrices 103

C.1. El conjunto I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

C.2. El Conjunto Im . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

C.3. Órdenes Parciales y Convexidad . . . . . . . . . . . . . . . . . . . . . . . . 108

C.4. El conjunto In×p(R) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

C.4.1. Intervalo-eigenvalores e Intervalo-eigenvectores . . . . . . . . . . . . 111

C.4.2. Intervalo-Valores Singulares . . . . . . . . . . . . . . . . . . . . . . 113

D. Anexo: Algunos Elementos de Estadística Intervalo Valuada 115

Page 15: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

CONTENIDO 1

E. Trabajo Futuro. Regresión PLS. Datos de Intervalo. 119

E.1. Regresión Lineal con Datos de Intervalos . . . . . . . . . . . . . . . . . . . 120

E.1.1. Método del Centro . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

E.1.2. Método del Centro y el Rango . . . . . . . . . . . . . . . . . . . . . 121

E.1.3. Método Bivariante de Centro y el Rango . . . . . . . . . . . . . . . 121

E.1.4. Método Restringido . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

E.1.5. Estimación de Parámetros con Optimización Intervalo-valuada . . . 122

E.1.6. Regresión Lineal Simple con datos Intervalos . . . . . . . . . . . . . 128

E.1.7. Regresión de Polinimios con Datos Intervalos . . . . . . . . . . . . . 129

E.1.8. Regresión Lineal Múltiple con Datos de Intervalos . . . . . . . . . . 129

E.2. Análisis de Componentes Principales con Datos de Intervalos . . . . . . . . 130

E.2.1. Metodología de Regresión por Componentes Principales con Datosde Intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

E.3. Regresión PLS con datos de Intervalos . . . . . . . . . . . . . . . . . . . . 133

E.3.1. Algoritmo Kernel para PLS con Datos intervalo. . . . . . . . . . . 134

E.3.2. Algoritmo NIPALS para PLS con Datos Intervalo. . . . . . . . . . 135

Bibliografía 136

Page 16: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

2 CONTENIDO

Page 17: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

Capítulo 1

Introducción

La regresión por mínimos cuadrados parciales (PLS), por sus siglas en inglés, es una téc-nica de relación de variables introducida en el año 1975 por Svante Wold, Hermand Wold yHarald Martenes. El método de regresión PLS surgió con el �n de resolver el problema dela multicolinealidad en un modelo de regresión, entendiendo que ésta se presenta cuandolos coe�cientes de un modelo de regresión son estimados y hay un número relativamentegrande de variables explicativas, escritas de manera compacta mediante la matriz X, conuna relación de extrema dependencia entre ellas. El problema de multicolinealidad implicaque la estimación de coe�cientes puede ser insigni�cante a la variable explicada y estopuede causar di�cultades en la interpretación de la ecuación de regresión debido a quelos coe�cientes pueden tener signos inconsistentes. Cuando se presenta este problema, lasolución más directa es reducir la dimensionalidad de X, el conjunto de variables expli-cativas. La pregunta inmediata es cómo llevar a cabo esta reducción. La respuesta porlo general consiste en encontrar un conjunto de nuevas variables que se crean como unacombinación lineal de las originales de tal manera que el problema de multicolinealidad seelimine. El método de los componentes principales ha sido ampliamente utilizado durantemuchos años y hasta hace poco era un punto de referencia entre las técnicas de reducciónde dimensionalidad. La aplicación del método de componentes principales se re�ere ge-neralmente como regresión por componentes principales o (PCR), por sus siglas en inglés.

La metodología (PCR) realiza un análisis de componentes principales de X y estas com-ponentes se utilizan como variables explicativas de las variables respuesta contenidas enla matriz Y. Sin embargo, el problema de la elección de un subconjunto óptimo de varia-bles independientes, (es decir, las componentes principales), se sigue presentando, ya quelas componentes se eligen para explicar X, pero no hay garantía de que las componen-tes principales que explican a X sean pertinentes para explicar a Y. La Regresión PLSencuentra componentes latentes, llamadas componentes PLS que explican no solamentea X sino que son las mejores para explicar Y. Esto signi�ca que se extiende el análisiscon una fase de regresión para que los componentes latentes de X expliquen la covarianzaentre X y Y en la medida de lo posible. En otras palabras, la regresión PLS pretendeextraer variables latentes de manera que conserven la mayor parte de la variación de lasvariables X reales (observables) de tal manera que también se pueden usar para explicar

3

Page 18: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

4 1 Introducción

la respuesta Y (dependiente).

Se ha desarrollado la técnica de regresión por mínimos cuadrados parciales PLS, para evi-tar el efecto de multicolinealidad (entre otros factores) en la estimación de los parámetrosde regresión. A su vez, el modelo de regresión PLS busca predecir variables dependientes.En la práctica, este objetivo representa un intento de maximizar la varianza explicada dedichas variables (varianza de Y explicada por la correlación existente entre X y Y). Porlo tanto, la regresión PLS puede ser más apropiada para �nes de predicción. En efec-to, Wold (1979) a�rma que la regresión PLS es adecuada principalmente para análisiscausales predictivos en situaciones altamente complejas con conocimiento teórico pocodesarrollado. Por tanto, la regresión PLS es un método de predicción más orientado queel método PCR, ya que éste último se centra en la reducción de la dimensionalidad de Xsin tener en cuenta la relación que existe entre X y Y.

Las dos técnicas, una basada en la regresión por componentes principales PCR y otra enla regresión PLS, se comparan en la solución del problema de multicolinealidad en la esti-mación de los parámetros de regresión. Tanto la regresión PLS como la PCR tienen comouno de sus objetivos principales reducir la dimensionalidad y abordar así los problemasque ocurren a menudo en grupos de variables explicativas que tienen alta multicolinea-lidad. Sin embargo, las dos técnicas adoptan enfoques diferentes y por lo tanto obtienenresultados diferentes. PCR establece la máxima variabilidad de las variables explicativasy PLS propone hacer lo mismo, pero además tiene en cuenta la relación entre X y Y. Esdecir, la regresión PLS estima los parámetros de regresión de modo que la varianza de Yexplicada por la correlación existente entre X y Y es máxima, o, lo que es equivalente,que la varianza residual de las relaciones de predicción es mínima.

Sin embargo, a pesar de las ventajas mencionadas, la regresión PLS no se desarrolla confacilidad, ya que inicialmente fue difícil posicionarla dentro de un contexto estadístico yesto hace lenta su aplicación. Por esta razón, es una buena idea revisar su historia. Comose explica anteriormente, el método PLS fue desarrollado por Herman Wold. En 1975,con los algoritmos NIPALS, Wold mostró cómo calcular las componentes principales através de una secuencia iterativa de simples mínimos cuadrados ordinarios (OLS) por sussiglas en inglés, así como la forma de calcular correlaciones canónicas con una secuenciade múltiples regresiones iterativas. En efecto, Herman Wold aplicó la técnica a nuevosproblemas y campos. En la década de 1980, los intereses de investigación de PLS pasa-ron de las ciencias sociales a aplicaciones de la química, en lo que hoy se conoce comola quimiometría. La persona responsable de esta transición fue Svante Wold, el hijo deHerman Wold. En 1983, Svante Wold junto con Martens Harald, adaptaron el algoritmoNIPALS para resolver el problema de multicolinealidad en modelos de regresión lineal.Ellos desarrollaron una nueva rama de las técnicas de regresión PLS en química analíticaconocida como regresión PLS. Además de proporcionar una solución al problema de mul-ticolinealidad en los modelos de regresión, la técnica de regresión PLS también resuelve elproblema que surge cuando el número de individuos es menor que el número de variablesy el efecto que esto tiene sobre la estimación de coe�cientes de regresión. Esto da una

Page 19: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

5

idea del potencial de este método en situaciones con muestras pequeñas. Los métodos deregresión PLS son una poderosa herramienta de análisis debido a sus exigencias mínimasen términos de escalas de medida, el tamaño de la muestra y la distribución residual. Unade las grandes ventajas de la regresión PLS, es que no necesita de datos provenientes dedistribuciones normales o conocidas.

En la actualidad, la regresión PLS tiene gran utilidad para modelar problemas asociadosa la investigación de mercados, a la economía, biología, comunicación, medicina, análisisde imagen, análisis sensorial, diseño de experimentos, entre otros.

La metodología de regresión PLS está implementada sobre datos que están en Espa-cios Euclídeos, entendiendo estos como espacios vectoriales normados de dimensión �nitadonde la norma es heredada de un producto interno, y en el caso de tener datos de otrotipo, tales como datos variedad valuados o datos del tipo intervalo valuado, no existenactualmente muchas implementaciones. El objetivo de este trabajo es implementar estametodología a este tipo de datos, pues en muchas aplicaciones tales como datos especialesde imágenes medicas o problemas que involucran incertidumbre en la medida, pueden serabordados.

El presente trabajo está estructurado de la siguiente manera: en el capítulo 2 se da unapropuesta inicial, donde se enuncian los objetivos general y especí�cos así como la meto-dología con la cual se lleva a cabo la investigación. En el capítulo 3 se habla de regresiónlineal múltiple y algunas metodologías que resuelven el problema de multicolinealidad,tales como: regresión por componentes principales, método de correlación canónica, mé-todos de regresión de Ridge y de Lasso y regresión por mínimos cuadrados parciales PLS,de manera que se tengan los preconceptos necesarios para llevar a cabo la extensión de lametodología de regresión PLS a espacios no Euclídeos. En el capítulo 4 se hace uso dela simulación para utilizar la regresión por mínimos cuadrados parciales PLS con datosvariedad valuados, en particular sobre un conjunto de matrices de�nidas positivas, y secomparan los resultados obtenidos con las metodologías descritas en el capítulo 3. En elcapítulo 5 se dan conclusiones y recomendaciones alrededor del trabajo, así como temasde trabajos futuros. En el apéndice E, a manera de una propuesta de trabajo futuro,se extienden los conceptos de regresión PLS al caso donde las variables respuesta, lasvariables explicativas y los coe�cientes de regresión son del tipo intervalo. Por último,en los apéndices A, B, C y D se hace una revisión sobre las propiedades matemáticasde los objetos geométricos que se consideran en el trabajo; se habla de elementos talescomo topología, variedades diferenciales, geometría Riemanniana y grupos de Lie; así co-mo los elementos básicos necesarios sobre el conjunto de intervalos, el conjunto de multiintervalos y el conjunto de multi matrices.

Page 20: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

6 1 Introducción

Page 21: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

Capítulo 2

Propuesta Inicial

2.1. Objetivos

2.1.1. Objetivo general

Aplicar la metodología de regresión por mínimos cuadrados parciales (PLS) a datos noEuclídeos y evaluar las ganancias obtenidas desde el punto de vista estadístico al compa-rarse con otras metodologías.

2.1.2. Objetivos especí�cos

• Objetivo 1. Estudiar la metodología de regresión por mínimos cuadrados parcialesPLS en el caso de datos sobre espacios Euclídeos y estudiar aplicaciones de éstametodología.

• Objetivo 2. Aplicar la metodología de regresión PLS a datos no Euclídeos.

• Objetivo 3. Implementar la metodología de regresión PLS en R y compararla conotra(s) metodología(s) existente(s) desde el punto de vista predictivo.

• Objetivo 4. Desarrollar o aplicar criterios apropiados de evaluación estadística dela metodología propuesta.

• Objetivo 5. Extender la metodología de regresión por mínimos cuadrados parcialesPLS al caso donde las variables explicativas, las variables respuesta y coe�cientesde regresión son del tipo intervalo.

7

Page 22: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

8 2 Propuesta Inicial

2.2. Metodología

Se inicia esta investigación con una búsqueda de información sobre todos los temas re-lacionados que se proponen en el trabajo, además de las de�niciones básicas que sonnecesarias para la comprensión y contextualización de todo el contenido de éste. Basadosen los algoritmos existentes PLS1 y PLS2 con relación a datos sobre Espacios Euclídeos,se propone la aplicación de dichos algoritmos a datos especiales que no pertenecen a unEspacio Euclídeo. Además, basados en los algoritmos de regresión PLS y la extensiónexistente de componentes principales con matrices de entradas intervalos, se extiende lametodología de regresión PLS al caso intervalo-valuado, a manera de trabajo futuro. Porúltimo, se implementan los algoritmos en R y se compararan con otros ya existentes, talescomo: regresión por componentes principales, análisis y correlación canónico, regresiónRidge y regresión Lasso.

Page 23: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

Capítulo 3

Regresión Lineal Múltiple y PLS

A continuación se habla de los algoritmos PLS1 y PLS2 sobre Espacios Euclídeos entérminos de su utilización y las propiedades matemáticas alrededor de su construcción,de modo que las extensiones que se hacen en este trabajo acerca de ésta metodologíaa espacios no Euclídeos resulte un poco más natural. Como la regresión PLS se aplicasobre un modelo de regresión lineal múltiple bajo la presencia de multicolinealidad en lasvariables explicativas y en las variables respuesta, entonces para mayor comprensión delos algoritmos PLS se hace de forma preliminar una contextualización muy general de laregresión lineal múltiple, así como de otras técnicas asociadas con ésta y que resuelven elproblema de multicolinealidad; de ésta manera se logra un trabajo autocontenido.

Los resultados presentados a continuación relacionados con Regresión Lineal MúltipleMLR y Análisis de Componentes Principales PCR se presentan en Geladi, P. & Kowalski,B. (1986).

3.1. Regresión Lineal Múltiple

La regresión por componentes principales (PCR), la regresión por mínimos cuadradosparciales (PLS) y otras técnicas como análisis de correlación canónico, regresión Ridge,regresión Lasso, entre otras, son usuales cuando se presenta multicolinealidad en las varia-bles explicativas. La diferencia principal entre las metodologías PCR y PLS, por ejemplo,es que la primera solo tiene en cuenta las variables explicativas para construir las variableslatentes, mientras que la segunda además de considerar las variables explicativas, tam-bién tiene en cuenta la(s) variable(s) respuesta(s). Por otro lado, el análisis de correlacióncanónico, al igual que PCR y PLS es una técnica de reducción de dimensionalidad, sinembargo tiene problemas de predicción e interpretación en las variables latentes. Las me-todologías Ridge, Lasso y otras no reducen la dimensionalidad para resolver el problemade multicolinealidad, sino que resuelven un problema de optimización para que el nuevoproblema sea lo más próximo posible a la no presencia de ésta. En ésta sección se explicacada una de éstas metodologías, su construcción matemática, sus diferencias, sus ventajas

9

Page 24: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

10 3 Regresión Lineal Múltiple y PLS

y desventajas.

Para detectar la multicolinealidad se pueden usar distintas procedimientos e índices comolos son: índices de condición, número de condición, factores de in�ación de la varianza(VIF), pruebas de independencia, entre otros.

El problema de regresión lineal múltiple (MLR), por sus siglas en inglés, se puede es-tablecer de la siguiente manera: las características se miden para m variables xj conj = 1, 2, · · · ,m y para una variable y con el objetivo de establecer una relación lineal (ode primer orden) entre ellas. Esto se puede representar matemáticamente como:

y = β0 + β1x1 + β2x2 + · · ·+ βmxm + ε = β0 +m∑j=1

βjxj + ε = xTβ + ε.

En esta ecuación, los xj para j = 1, 2, · · · ,m, se llaman variables independientes e y esla variable dependiente. Los βj son los coe�cientes y ε es el error o residual.

Esta ecuación describe dependencias multilineales para una muestra con una sola obser-vación. Si se tiene una muestra de n observaciones, los yi para i = 1, 2, · · · , n puedenescribirse como un vector columna Y , β sigue siendo el mismo y los vectores, xTi dadospor xTi = (x1i, x2i, · · · , xmi), son las �las de la matriz X:

Y = Xβ + ε

Ahora, es posible distinguir tres casos.

1. m > n. Existen más variables que las observaciones. En este caso, hay un númeroin�nito de soluciones para β.

2. m = n. El número de observaciones y variables son iguales. Esta situación no seencuentra a menudo en situaciones prácticas. Sin embargo, se da una solución únicapara β, siempre que X tenga rango completo. Esto permite escribir

ε = Y −Xβ = 0

ε es llamado el vector residual. En este caso, este es un vector de ceros.

3. m < n. Hay más observaciones que variables. Esto no permite una solución exacta paraβ. Sin embargo, se puede obtener una solución, reduciendo al mínimo la longituddel vector residual ε en la siguiente ecuación:

ε = Y −Xβ.

Page 25: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

3.2 Componentes Principales 11

El método más popular para hacer esto, se llama el método de mínimos cuadrados. Lasolución de mínimos cuadrados es:

β = (XTX)−1XTY.

Esta ecuación da una idea del problema más frecuente en MLR: la inversa de XTX pue-de no existir. Colinealidad, determinante cero y singularidad son nombres para el mismoproblema.

En este punto, puede parecer que siempre tiene que haber por lo menos tantas observa-ciones como variables, pero hay otras maneras de formular este problema. Una de ellas esla de eliminar algunas de las variables en el caso m > n. Existen muchos métodos paraelegir qué variables eliminar.

En general,MLR es usual para una variable dependiente. Este es el caso que casi siemprese encuentra en los libros. También, la mayoría de los paquetes de software ejecutanMLRde esta manera. Es fácil de extender MLR para más variables dependientes. El ejemplodado a continuación es para dos variables, pero la extensión de más de dos variables esanálogo. Suponga que hay dos variables dependientes, Y1 y Y2. En este caso, se puedesimplemente escribir dos MLR y encontrar dos vectores de coe�cientes, β1 y β2:

Y1 = Xβ1 + ε1; Y2 = Xβ2 + ε2.

Pero se puede poner Y1 y Y2 en una matriz de orden n× 2 y hacer lo mismo para β1 y β2

y ε1 y ε2. Así que se tiene:

Y = XB + E.

Donde Y T = (Y1, Y2), BT = (β1, β2) y ET = (ε1, ε2).

3.2. Componentes Principales

Esta técnica fue introducida inicialmente por Pearson a �nales del siglo XIX y posterior-mente los estudios de ésta fueron retomados por Hotelling en el primer tercio del sigloXX.El método de regresión por componentes principales PCA surgió con el �n de eliminar elproblema de la multicolinealidad en un modelo de regresión. Cuando los coe�cientes deun modelo de regresión son estimados y hay un número relativamente grande de variablesexplicativas con una relación de extrema dependencia entre ellas, existe multicolinealidad.El problema de multicolinealidad signi�ca que la estimación de coe�cientes puede ser in-signi�cante a la variable explicada y esto puede causar di�cultades en la interpretaciónde la ecuación de regresión debido a signos de los coe�cientes erráticos. Cuando apare-ce este problema, la solución más directa es reducir la dimensionalidad de la matriz devariables explicativas X. La intención es encontrar un conjunto de nuevas variables que

Page 26: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

12 3 Regresión Lineal Múltiple y PLS

se crean como una combinación lineal de las originales de tal manera que el problema demulticolinealidad se elimine.

La PCA realiza un análisis de las componentes principales de la matriz X y estas compo-nentes se utilizan como variables explicativas de la(s) variable(s) dependiente(s) Y. Lascomponentes principales se van construyendo según el orden de importancia en relacióna la variabilidad total que las variables van recogiendo de la muestra. En términos colo-quiales, si se tienen inicialmente p variables explicativas que presentan multicolinealidad,entonces el objetivo es determinar m < p variables que no presentan multicolinealidad,tales que las p variables iniciales son combinación lineal de las m componentes y queademás éstas m variables recojan la mayor parte de la información o variabilidad de losdatos. La metodología PCA no requiere el supuesto inicial de distribución multivariadade los datos; sin embargo, si éste supuesto se satisface entonces la interpretación de lascomponentes es mas profunda.

3.2.1. Cálculo de las Componentes Principales

Se considera una serie de variables x1, x2, · · · , xp sobre un grupo de objetos o individuosy la idea es encontrar a partir de éstas, un nuevo conjunto de variables t1, t2, · · · , tpincorrelacionadas entre sí y cuyas varianzas vayan decreciendo progresivamente. Esto es,se quiere encontrar un conjunto de variables t1, t2, · · · , tp, tales que cada ti para i =1, 2, · · · , p sea combinación lineal de las xi para i = 1, 2, · · · , p. En términos matemáticos,debe darse que para cada ti se satisface:

ti = ai1x1 + ai2x2 + · · ·+ aipxp = aTi x

donde aTi = (ai1, ai2, · · · , aip)T es un vector de constantes y x = (x1, x2, · · · , xp)T es elvector de variables originales.

Como se quiere maximizar la varianza, entonces una forma simple de elegir los coe�cientesaij es maximizarlos. Por lo tanto, para mantener la ortogonalidad de la transformación seimpone la restricción que la magnitud del vector aTi = (ai1, ai2, · · · , aip)T = 1; esto es, seimpone que:

aTi ai =

p∑j=1

a2ji = 1

La primera componente principal se calcula eligiendo a1 de modo que t1 recoja la mayorvarianza posible, sujeto a la restricción aT1 a1 = 1. La segunda componente principal secalcula eligiendo a2 de modo que la componente t2 recoja la mayor variabilidad posibley esté incorrelacionada con la componente t1. Del mismo modo se encuentran las compo-nentes principales t3, t4, · · · , tp incorrelacionadas entre sí de modo que la varianza de tisea menor que la varianza de ti+1.

Page 27: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

3.2 Componentes Principales 13

Proceso de Elección de los ai.

Se quiere elegir a1 de modo que a1 maximice la varianza de la primera componente t1,sujeta a la restricción aT1 a1 = 1. Se tiene que:

V ar[t1] = V ar[aT1 x] = aT1 Σa1,

donde Σ es la matriz de covarianzas. El método usual para maximizar una función devarias variables sujeta a restricciones es el método de los multiplicadores de Lagrange. Enel problema que consiste en maximizar la función aT1 Σa1 sujeta a la restricción aT1 a1 = 1,se tiene que la incógnita es a1. A continuación se considera la función Lagrangiana L:

L(a1) = aT1 Σa1 − λ[aT1 a1 − 1]

El máximo de la función L se encuentra derivando con respecto a a1 e igualando a 0. Estoes:

∂L

∂a1

= 2Σa1 − 2λIa1 = 0

de donde [Σ− λI]a1 = 0. Este último es un sistema de ecuaciones lineales, el cual por elteorema de Rouché-Frobenius, tiene una solución distinta de cero siempre que la matrizΣ.λI no sea invertible; esto es, siempre que el determinante de esta matriz sea cero. Alconsiderar |Σ − λI| = 0 se concluye que λ es un valor propio de la matriz Σ. Ahora, lamatriz de covarianzas Σ es de orden p y si además se satisface que es de�nida positiva,entonces se cumple que tiene p valores propios diferentes λ1, λ2, · · · , λp.A partir de [Σ− λI]a1 = 0 se tiene que Σa1 = λIa1, por lo tanto V ar[t1] = aT1 λIa1; estoes V ar[t1] = λ. Se concluye que para maximizar la varianza de la componente t1 se tieneque tomar el mayor valor propio λ y el correspondiente auto vector a1 asociado a λ.

El segundo componente principal t2 se obtiene mediante un argumento similar a la formaen que se obtiene la componente t1; además debe tenerse en cuenta que las componentest1 y t2 tienen que ser incorrelacionadas, esto es, tiene que darse que Cov[t1, t2] = 0. Ahora:

Cov[t1, t2] = Cov[aT1 x, aT2 x]

= aT2E[(x− µ)(x− µ)T ]a1

= aT2 Σa1

esto es, se requiere que aT2 Σa1 = 0. Pero se sabe que Σa1 = λa1, por lo tanto λaT2 a1 = 0,de donde se puede concluir que a1 y a2 son ortogonales pues a1a2 = 0. Por lo tanto, setiene que maximizar la varianza de t2 sujeta a las restricciones aT2 a2 = 1 y aT1 a2 = 0. Conun procedimiento y argumentos similares a los que se tuvieron en cuenta para elegir a a1,se elige a a2 como el auto vector de Σ asociado al segundo valor propio mas grande de Σ.

En general, aj es el j-ésimo vector propio de Σ asociado al j-ésimo valor propio masgrande de Σ. De esta manera todas las componentes principales se pueden expresar como

Page 28: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

14 3 Regresión Lineal Múltiple y PLS

el producto de una matriz formada por los vectores propios de Σ, multiplicada por elvector x que contiene las variables originales x1, x2, · · · , xp. Esto es t = Ax, donde tes un vector formado por las componentes principales y A es la matriz formada por losvectores propios ai de Σ. Además la matriz de covarianzas de t es una matriz diagonaldonde �guran en la diagonal los valores propios λ1, λ2, · · · , λp de Σ; denote esta últimapor Λ. Se tiene entonces que:

Λ = V ar[t] = ATV ar[x]A = ATΣA

o equivalentemente, se tiene que:

Σ = AΛAT

A partir del siguiente teorema se puede hablar del porcentaje de variabilidad.

Teorema 3.2.1. Si x1, x2, · · · , xp es el conjunto de variables originales y t1, t2, · · · , tp esel conjunto de componentes principales, entonces

p∑i=1

V ar[xi] =

p∑i=1

V ar[ti]

Prueba. Se sabe que V ar[ti] = λi donde λi es el valor propio i asociado a la matriz Σ;

por lo tanto se tiene quep∑i=1

V ar[ti] =p∑i=1

λi = traza(Λ). Ahora, por las propiedades del

operador traza se tiene que:

traza(Λ) = traza(ATΣA) = traza(ATAΣ) = traza(Σ).

dado que ATA = I pues A es una matriz ortogonal. Se tiene entonces que:

p∑i=1

V ar[ti] = traza(Λ) = traza(Σ) =

p∑i=1

V ar[xi]

A partir del teorema 3.2.1 se puede hablar del porcentaje de variabilidad total que recogeun componente principal:

λip∑i=1

λi

=λi

p∑i=1

V ar[xi]

.

De la misma manera se puede hablar del porcentaje de variabilidad que recogen las mprimeras componentes principales, para m < p:

Page 29: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

3.3 Análisis de Correlación Canónica 15

m∑i=1

λi

p∑i=1

λi

3.3. Análisis de Correlación Canónica

El objetivo del análisis de correlación canónica CCA, por sus siglas en inglés, es determi-nar relaciones de naturaleza lineal, entre dos matrices de datos X y Y que son medidassobre los mismos objetos. Para lograr dicho objetivo, CCA resuelve un problema parti-cular de optimización. El objetivo en CCA es minimizar la correlación entre los scores delos x-datos y los y-datos. En CCA se asume usualmente que el número n de objetos esmás grande que el el rango de las matrices X y Y.

Las matrices X y Y son modeladas por variables latentes de acuerdo a los modelos deregresión:

X = TPT + EX , Y = UQT + EY .

Con EX y EY matrices de errores. Las matrices T y U son llamadas matrices scores ylas matrices P y Q son llamadas matrices de cargas y son tales que tienen a columnascon a ≤ min(m,n, q). Los vectores scores tj y uj son proyecciones lineales de los datossobre los correspondientes vectores de cargas pj y qj; esto es tj = Xpj y uj = Yqj, paraj = 1, 2, · · · , a componentes.

El objetivo de CCA es determinar las direcciones p y q en los x,y-espacios que resuelvenel problema:

max Corr(Xp,Yq)

s.a

{‖Xp‖ = 1

‖Yq‖ = 1

(3.1)

donde Corr denota el coe�ciente de correlación de Pearson. Las soluciones del proble-ma de optimización 3.1 son los vectores de cargas pj y qj, para j = 1, 2, · · · , a, bajo elsupuesto de que los vectores scores están incorrelacionados; esto es Corr(tj, tk) = 0 yCorr(uj,uk) = 0 para i 6= j. La correlación máxima resultante rj = Corr(tj,uj), recibeel nombre de j-ésimo coe�ciente de correlación canónica. En general, los vectores de car-gas pj y qj, no son ortogonales.

Los vectores de cargas pj y qj son encontradas resolviendo dos problemas de eigenvaloresy eigenvectores propios. Considere SX = Cov(X), SY = Cov(Y) y SXY = Cov(X,Y),

Page 30: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

16 3 Regresión Lineal Múltiple y PLS

las matrices de covarianzas muestrales de las matrices X y Y y la matriz de covarian-zas muestral entre las matrices X y Y, respectivamente. Se tiene que, Jhonson,R.A. &Wichern, D.W. (2002):

r2j es eigenvalor de S−1

X SXY S−1Y STXY con eigenvector pj.

r2j es eigenvalor de S−1

Y STXY S−1X SXY con eigenvector pj.

para j = 1, 2, · · · , a. Los coe�cientes de correlación están en el intervalo [0, 1], donde 1 in-dica una dirección en el x-espacio y una dirección en el y-espacio con una perfecta relaciónlineal. Usualmente los eigenvectores son ordenados de acuerdo a eigenvalores decrecientes,y el primer coe�ciente de correlación canónica mide la relación lineal máxima entre losx-datos y los y-datos; el segundo coe�ciente de correlación canónica mide mide la máximarelación lineal pero sólo entre las direcciones que conducen a scores no correlacionados, yasí sucesivamente.

De la de�nición de coe�ciente de correlación canónico se deduce que si existe alta corre-lación entre un solo vector x con el mismo vector x, entonces puede correrse el riesgo dehallar un alto coe�ciente de correlación canónico; esto es, el CCA no es fuerte para mediruna correspondencia global entre los x-datos y los y-datos. Por esta razón, CCA no esuna buena herramienta para propósitos de predicción; sin embargo, es muy utilizado parahacer pruebas de hipótesis en relación a no correlación. En dicho caso, la hipótesis nulaes que la matriz de covarianzas teórica, entre x-variables y y-variables es la matriz cero.

3.4. Regresión de Ridge y Regresión de Lasso

Las metodologías de regresión de Ridge y regresión de Lasso son alternativas a la metodo-logía de regresión por componentes principales, en el sentido que se usan cuando existenproblemas de multicolinealidad. La diferencia entre éstas dos metodologías, es que la re-gresión Ridge utiliza todas la variables explicativas para construir el modelo, mientras quela regresión de Lasso utiliza un subconjunto de las variables explicativas para construirel modelo. Ambas metodologías dependen de la elección de un parámetro que permiteencontrar el mejor modelo de predicción Hoerl, A. & Kennard, R. (1970), Tibshirani, R.(1996). Los métodos de regresión Ridge y Lasso son llamados métodos contraídos, porque ambos contraen los coe�cientes de regresión con el �n de estabilizar sus estimaciones.De este modo, se tienen modelos donde el rango permitido de coe�cientes de regresiónabsolutos es acotado.

Los métodos de regresión de Ridge y Lasso resultan de la minimización de un problemade optimización restringida, de manera que las metodologías utilizan la misma funciónobjetivo pero diferente restricción. El problema de optimización que se resuelve en lametodología de regresión de Ridge, está dado por:

Page 31: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

3.4 Regresión de Ridge y Regresión de Lasso 17

mınn∑i=1

(yi − β0 −

m∑j=1

xijβj

)2

s.a :

{m∑j=1

β2j ≤ s

(3.2)

mientras que la metodología de regresión Lasso resuelve el problema de optimizaciónrestringida:

mınn∑i=1

(yi − β0 −

m∑j=1

xijβj

)2

s.a :

{m∑j=1

|βj| ≤ s

(3.3)

El problema de optimización 3.2, se puede escribir como el siguiente problema penalizadode optimización:

mınn∑i=1

(yi − β0 −

m∑j=1

xijβj

)2

+ λR

m∑j=1

β2j (3.4)

Por otro lado, el problema de optimización 3.3, se puede escribir de la siguiente manera:

mınn∑i=1

(yi − β0 −

m∑j=1

xijβj

)2

+ λL

m∑j=1

|βj| (3.5)

Al resolver los problemas de optimización 3.4 y 3.5, se obtienen las estimaciones de loscoe�cientes de regresión βR y βL, respectivamente. La única diferencia entre los problemasde optimización 3.4 y 3.5, es que el primero usa la norma L2 para las penalizaciones yel segundo usa la norma L1. El uso de las normas L2 y L1 tiene consecuencias teóricas,por ejemplo, en la metodología de regresión de Ridge, se tiene que la estimación de losparámetros de regresión de Ridge βR son una función lineal de la variable dependiente Y ,dado que el problema de optimización 3.4, puede escribirse como:

mın (y −Xβ)T (y −Xβ) + λRβTβ (3.6)

donde la matriz X es media centrada y β no incluye intercepto. La solución del problema3.6, esta dada por:

βR =(XTX + λRI

)−1XTy (3.7)

Para λR = 0 se tiene mínimos cuadrados ordinarios. El parámetro λR es tal que λR ≥ 0 ygeneralmente se estima por validación cruzada o bootstrap. Existe una conexión entre las

Page 32: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

18 3 Regresión Lineal Múltiple y PLS

metodologías de regresión Ridge y PCR. Se sabe que la metodología de regresión PCRcalcula nuevas variables, llamadas componentes principales, y ellas pueden ser ordenadasde manera decreciente de acuerdo a la varianza, donde la primera componente capturala mayor variabilidad. Estas nuevas variables son usadas para explicar la respuesta Y .Se puede mostrar que la metodología de regresión Ridge da mas peso a las direccionesde las primeras componentes principales y menos peso a las componentes principales quecapturan menos variabilidad Hastie, T. (2001). Esto es, la contracción en la metodolo-gía de regresión Ridge es proporcional a la varianza de las componentes principales. Ladiferencia fundamental entre ambas metodologías, es que en la metodología de regresiónPCR se usan las variables latentes, mientras que en la metodología de regresión Ridge seusan todas las variables explicativas.

En la metodología de regresión Lasso, se tiene que la estimación de los parámetros deregresión Lasso βL no son una función lineal de la variable dependiente Y . No existeen general una expresión en forma cerrada para βL y el cálculo de la estimación deλL se puede hacer escribiendo el problema de optimización 3.3, como un problema deoptimización cuadrática.

3.5. Regresión PLS

El método original de regresión PLS fue introducido alrededor de 1975 por el estadísticoHerman Wold para un tratamiento de cadenas de matrices y aplicaciones en econometría.Su hijo, Svante Wold y otros introducen la idea de regresión PLS en quimiometría; sinembargo, la regresión PLS fue por largo tiempo desconocida por los estadísticos. Las ideasoriginales de la regresión PLS fueron en principio heurísticas y sus propiedades estadísti-cas un misterio. Posteriormente las propiedades estadísticas y matemáticas de la regresiónPLS son conocidas y dicha metodología toma fuerza en disciplinas como la quimiometría.

En esencia, las estructuras de los modelos de regresión por componentes principales PCRy regresión por mínimos cuadrados parciales PLS son muy similares. Ambas metodolo-gías transforman las variables explicativas en un conjunto de variables latentes linealmenteindependientes y algunas de esas nuevas variables son utilizadas para explicar la(s) varia-ble(s) respuesta. La diferencia entre ambas metodologías es que la regresión por compo-nentes principales PCR no considera la variable respuesta para determinar las variableslatentes, mientras que la regresión por mínimos cuadrados parciales PLS determina lasvariables latentes teniendo en cuenta tanto a las variables regresoras o independientescomo a las variables respuesta. De esta manera, la regresión PLS puede considerarse co-mo una mezcla de PCA (máxima varianza modelando las variables explicativas) mínimoscuadrados ordinarios (máxima correlación modelando la(s) respuesta(s)).

Los modelos de regresión PCR y PLS son lineales (aunque existen versiones no lineales),por tanto las variables latentes que predicen la(s) respuesta(s) son combinación lineal delas variables originales. En general, las estimaciones de los coe�cientes de regresión cuando

Page 33: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

3.5 Regresión PLS 19

se utilizan las metodologías de mínimos cuadrados ordinarios, regresión PCA y regresiónPLS son diferentes y las predicciones de los modelos también.

A continuación se muestran algunos factores importantes que motivan la utilización de lametodología PLS:

1. El modelo de regresión PLS es un potente método de regresión lineal, que considerala multicolinealidad en las variables explicativas y acepta un número muy grandede variables.

2. El modelo resultante predice la(s) respuesta(s) a partir de un conjunto de variableslinealmente dependientes x1, x2, · · · , xn.

3. Durante el desarrollo del modelo, un relativo número pequeño de componentes PLSson calculados y utilizados para la regresión.

4. El número de componentes PLS determina la complejidad de el modelo y puede seroptimizado para tener un alto rendimiento en la predicción.

Cuando se aplica el modelo de regresión PLS con una única variable respuesta, y, seprocede como sigue:

1. Se calcula la primera componente PLS como la variable latente que tiene la máximacovarianza entre los scores y la respuesta y.

2. Luego, la información de esta componente es eliminada de las variables explicativas.Este proceso es llamado de�ación. Esto se puede ver como una proyección del espaciode las variables respuesta sobre sobre un hiper plano que es ortogonal a la direcciónde la componente encontrada. La matriz residual resultante tiene el mismo númerode variables que que la matriz original formada por las variables explicativas, perola dimensionalidad intrínseca se reduce en uno.

3. A partir de la matriz residual, se calcula la siguiente componente.

4. Este proceso continua hasta que se observe que el modelamiento de la respuesta y nose mejore.

Como las componentes PLS son calculadas como variables latentes que tienen una al-ta correlación con y, entonces generalmente el número óptimo de componentes PLS esmenor que el número óptimo de componentes principales. Un aspecto complicado de laregresión PLS es el cálculo paso a paso de las componentes.

La regresión PLS con una sola variable respuesta recibe el nombre de PLS1. Cuandohay mas de una variable respuesta, la regresión PLS recibe el nombre de regresión PLS2.Existen algoritmos para este tipo de regresión y se ven con más detalle en posteriorescapítulos.

Page 34: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

20 3 Regresión Lineal Múltiple y PLS

3.5.1. Fundamentos de la Regresión PLS1

En general, la regresión por mínimos cuadrados parciales PLS1 está compuesta de dospasos fundamentales:

1. La regresión PLS1 primero transforma la matriz de variables explicativas X de ordenn × p, teniendo en cuenta el vector respuesta y de orden n × 1, en una matriz devariables latentes T = [t1, t2, · · · , tp] de orden n × p; llamadas componentes PLS.Este paso contrasta la metodología PCR en el sentido que tiene en cuenta a y paraconstruir T.

2. Calcula el modelo de regresión estimado utilizando el vector de respuestas original yy las componentes PLS como variables explicativas.

En la regresión PLS1 el objetivo es maximizar el cuadrado de la covarianza entre lacomponente ti = xw y la variable respuesta y, sujeta a la restricción wTw = 1; dondew = (w1, w2, · · · , wp)T es el vector tal que la componente wj es la covarianza entre lavariable respuesta con cada explicativa. Se de�ne el vector a de orden p × 1, como elvector de covarianzas de x y y. Se tiene que:

Cov2[xw,y] = [wTCov[x,y]]2

= [wTa]2

= [wTaaTw]

Ahora, la función lagrangiana L que se usa para maximizar el cuadrado de la covarianzaentre la componente ti y la variable respuesta y, sujeta a la restricción wTw = 1 estádada por:

L(w) = wTaaTw− λ(wTw− 1)

Derivando L con respecto a w e igualando a cero se obtiene:

∂L

∂w= 2aaTw− 2λw = 0

de donde aaTw = λw. Esta última expresión implica que w es un vector propio de aaT

asociado al valor propio λ. A partir de aaTw = λw se obtiene λ = wTaaTw. Además deaaTw = λw se obtiene aTaaTw = λaTw, de donde [aTa − λ]aTw = 0, esto es λ = aaT .Se tiene entonces que λ2 = λ‖a‖2. Ahora, como λ2 = λ‖a‖2 entonces aTaaTa = λ2‖a‖2,de donde λ = a

T

‖a‖aTa a

‖a‖ .

Por último, comparando las expresiones λ = wTaaTw y λ = aT

‖a‖aTa a

‖a‖ se concluye que:

w =a

‖a‖=

xTy

‖xTy‖

Page 35: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

3.5 Regresión PLS 21

3.5.2. Normalización de los Datos

A continuación se presentan dos formas de normalizar los datos, ambas formas son co-múnmente utilizadas en la bibliografía existente.

• Forma 1

La primera forma consiste en restar para cada una de las variables su media y dividirpor la raíz cuadrada de la suma de los cuadrados de las desviaciones de su media:

1. y[1]i = yi−y√

n∑i=1

(yi−y)2

para i = 1, 2, · · · , n.

2. x[1]ij =

xij−xj√n∑

i=1

(xij−xj)2

para i = 1, 2, · · · , n, j = 1, 2, · · · , p.

• Forma 2

La segunda forma consiste en restar para cada una de las variables su media y dividirpor la raíz cuadrada de la suma de los cuadrados de las desviaciones de su mediadividido por n− 1:

1. y[2]i = yi−y√

n∑i=1

(yi−y)2

n−1

, para i = 1, 2, · · · , n.

2. x[2]ij =

xij−xj√n∑

i=1(xij−xj)2

n−1

, para i = 1, 2, · · · , n j = 1, 2, · · · , p.

Las operaciones intermedias que hay que realizar para obtener los coe�cientes de regresióndi�eren del tipo de normalización de los datos, pero los coe�cientes de regresión asociados alas variables x[1]

1 , x[1]2 , · · · , x

[1]p como resultado de la primera normalización y las variables

x[2]1 , x

[2]2 , · · · , x

[2]p como resultado de la segunda normalización, son los mismos; esto es:

β[1] = β[2]. El resultado de esta a�rmación puede verse en Valencia, L. Et al. (2003).

3.5.3. Algoritmo PLS1

En la regresión PLS1 hay una sola variable a explicar y p variables explicativas. A con-tinuación presentamos el algoritmo PLS1:

1. Construcción de la primera componente t1

Page 36: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

22 3 Regresión Lineal Múltiple y PLS

1.1 Obtención de la primera componente t1

La primera componente t1 se de�ne de la siguiente manera:

t1 = w11x[2]1 + w12x

[2]2 + · · · , w1px

[2]p

esto es: t1 =p∑j=1

w1jx[2]j donde:

w1j =cov(x

[2]j , y

[2])√p∑j=1

cov2(x[2]j , y

[2])

=< x

[2]j , y

[2]j >√

p∑j=1

(< x[2]j , y

[2]j >)2

, j = 1, 2, · · · , p.

1.2 Detección de individuos atípicos para la primera componente

La regla general de decisión para la detección de individuos atípicos sobre unconjunto de A componentes está basada en que la variable aleatoria:

tAi =n(n− A)

A(n2 − 1)T 2i

sigue una distribución de Fisher-Snedecor con A grados de libertad para elnumerador y n−A grados de libertad para el denominador, donde T 2

i es la T 2

de Hotelling de la observación i, calculando A componentes siendo igual a:

T 2i =

n

n− 1

A∑h=1

t2i,hs2h

, i = 1, 2, · · · , n

donde n es el número total de individuos, ‖th‖2 es la norma al cuadrado de lacomponente h, s2

h es la varianza con división n − 1 de la componente h y ti,hes el valor para la componente h de la observación i.

Para la primera componente se tiene A = 1, por lo tanto:

t1i =n(n− 1)

n2 − 1

(n

n− 1

t2i,1‖t1‖2

)=

n2

n+ 1

t2i,1‖t1‖2

• Si tAi,1 ≥ F−1F 1n−1

(1− α)se acepta la hipótesis que el individuo i es atípico.

• Si tAi,1 < F−1F 1n−1

(1− α) se rechaza la hipótesis que el individuo i es atípico.

Donde F−1F 1n−1

(1 − α) es la función inversa de la función de distribución

de la variable aleatoria de Fisher-Snedecor con un grado de libertad parael numerador y (n − 1) grados de libertad para el denominador para unárea de (1− α). Esta regla de decisión equivale a usar la regla de decisiónusando la función F−1

Tn−1(1 − α

2) que es la función inversa de la función de

Page 37: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

3.5 Regresión PLS 23

distribución de la variable aleatoria T de Student-Fisher con (n−1) gradosde libertad para un área de

(1− α

2

).

1.3 Regresión lineal simple de y[2]1 sobre t1 y el test de signi�cación global

de la regresión.

Primero se busca la ecuación lineal de predicción estimada de y, después, secomprueba si la regresión lineal simple es globalmente signi�cativa.

La ecuación lineal de predicción estimada se escribe como:

y[2]∗(1) = β

[2]1(1)t1

Donde, β[2]1(1) se calcula a partir de

〈y[2](1),t1〉‖t1‖2 que es igual a

√n−1‖t1‖ ry[2]

1(1),t1.

El residuo asociado a la recta de regresión se da mediante:

e1 = y[1](1) − y

[2]∗(1)

El test de signi�cación global de la regresión lineal se realiza mediante el testde Fisher. La regla general de decisión del test de Fisher, para una componenteexplicativa, se da a continuación:

• Si F 1∗n−2 ≥ F−1

F 1n−1

(1−α) entonces la componente explicativa es signi�cativa.

• Si F 1∗n−2 < F−1

F 1n−1

(1 − α) entonces la componente explicativa no es signi�-

cativa.

Donde F 1n−2 = (n− 2)

[〈y[2]1 ,t1〉]2

(n−1)‖t1‖2−[〈y[2]1 ,t1〉]2y F−1

F 1n−1

(1−α) es la función inversa de

la función de distribución de la variable aleatoria F de Fisher-Snedecor con 1grado de libertad para el numerador y n − 2 grados de libertad para el deno-minador para un área de 1− α.

Si la componente es signi�cativa entonces se deshacen los cambios de la si-guiente manera:

Primero se cambia de t1 a x[2]1 , x

[2]2 , · · · , x

[2]p y se obtiene:

y[2] = β[2]1(1)t1 =

p∑j=1

β[2]∗1(1)w1,jx

[2]j

Luego se pasa de x[2]1 , x

[2]2 , · · · , x

[2]p a x1, x2, · · · , xp.

2. Construcción de la segunda componente

Page 38: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

24 3 Regresión Lineal Múltiple y PLS

Se busca construir una segunda componente t2, que sea combinación lineal de lasxj, no correlacionada con la componente t1 y que explique bien el residuo. Estacomponente t2 es combinación lineal de los residuos e1,j de las regresiones de lasvariables xj sobre la componente t1.

2.1 Obtención de la segunda componente t2

Se obtiene t2 mediante la expresión:

t2 = w2,1e1,1 + w2,2e1,2 + · · ·+ w2,pe1,p

donde:

w2,j =cov(e1,j, e1)√p∑j=1

cov2(e1,j, e1)

=〈e1,j, e1〉√p∑j=1

(〈e1,j, e1〉)2

, j = 1, 2, · · · , p.

Para el cálculo de los residuales e1,j para j = 1, 2 · · · , p se efectuan las regre-siones simples de x[2]

j sobre t1 y se obtienen las rectas de predicción estimadas:

x[2]∗j = α

[2]∗j t1, j = 1, 2, · · · , p

donde las estimaciones de los coe�cientes de regresión han sido calculadas dela siguiente forma:

α[2]j =

〈x[2]j , t1〉‖t1‖2

=

√n− 1

‖t1‖rx[2]j ,t1

, j = 1, 2, · · · , p

Los residuales asociados a las rectas de regresión están dados por e1,j = x[2]j −

x[2]∗j para j = 1, 2 · · · , p

2.2 Detección de individuos atípicos para la segunda componente

Se hace de la misma manera que se hace con la componente t1

2.3 Regresión lineal simple de y21 sobre t2 y el test de signi�cación global

de la regresión.

Primero se busca la ecuación lineal de predicción estimada y luego se comprue-ba si la regresión simple es signi�cativa.

• La ecuación de predicción estimada es de la forma:

y[2]∗(1) = β

[2]2(1)t2,

donde, β[2]2(1) se calcula a partir de

〈y[2](1),t2〉‖t2‖2 que es igual a

√n−1‖t2‖ ry[2]

1(1),t2.

El residuo asociado a la recta de regresión se da mediante:

Page 39: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

3.5 Regresión PLS 25

e2 = y[1](1) − y

[2]∗(1)

• El test de signi�cación global se hace igual que ocn la primera componente.

3. Detección de individuos atípicos sobre el plano t1 − t2

La regla general de decisión para la detección de individuos atípicos cuando se tie-nen dos componentes, se dá de la siguiente manera:

• Si tAi(1−2) ≥ 1 entonces se acepta la hipótesis que el individuo i es atípico.

• Si tAi(1−2) < 1 entonces se rechaza la hipótesis que el individuo i es atípico.

Donde tAi(1−2) =t2i,1

2(n2−1)

n2(n−2)‖t1‖2F−1

F2n−2

(1−α)+

t2i,22(n2−1)

n2(n−2)‖t2‖2F−1

F2n−2

(1−α)

y F−1F 2n−2

(1 − α) es la función inversa de la función de distribución de la variable

aleatoria F de Fisher-Snedecor con 2 grados de libertad para el numerador y n− 2grados de libertad para el denominador para un área de 1 − α. En el caso que lamuestra sea homogénea, se continua, en caso contrario, se eliminan los individuosatípicos y se comienza de nuevo.

4. Regresión lineal múltiple sobre las dos primeras componentes y test designi�cación global de la regresión

4.1 Ecuación lineal de predicción estimada

La ecuación lineal de predicción estimada toma la siguiente forma:

y[2]∗(2) = β

[2]∗1(2)t1 + β

[2]∗2(2)t2.

Donde las estimaciones de los coe�cientes de regresión se calculan a partir de:

β[2]1(2) =

√n− 1

‖t1‖

[ry[2](2),t1− r

y[2](2),t2rt1,t2

1− r2t1,t2

]

β[2]2(2) =

√n− 1

‖t2‖

[ry[2](2),t2− r

y[2](2),t1rt1,t2

1− r2t1,t2

]como las componentes t1 y t2 son ortogonales entonces rt1,t2 = 0 y por lo tantolos dos estimadores se reducen a:

Page 40: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

26 3 Regresión Lineal Múltiple y PLS

β[2]1(2) =

√n− 1

‖t1‖ry[2]2 t1

; β[2]2(2) =

√n− 1

‖t2‖ry[2]2 t2

y el residuo asociado a la línea de regresión está dado por:

e2 = y[2](2) − y

[2]∗(2) = e1 − y[2]∗

(2)

4.2 Test de signi�cación global de la regresión

El test de signi�cación de Fisher permite determinar si la regresión lineal mul-tiple es signi�cativa. La regla general de decisión del test de Fisher para doscomponentes explicativas ortogonales es:

• Si F 2∗n−3 ≥ F−1

F 2n−3

(1−α) entonces las componentes t1 y t2 son signi�cativas.

• Si F 2∗n−3 < F−1

F 2n−3

(1− α) entonces al menos una de las componentes t1 y t2no es signi�cativa.

donde:

F 2∗n−3 =

n− 3

2

[‖t2‖2[〈y[2]

(2), t1〉]2 + ‖t1‖2[〈y[2](2), t2〉]2

(n− 1)‖t1‖2‖t2‖2 − (‖t2‖2[〈y[2](2), t1〉]2 + ‖t1‖2[〈y[2]

(2), t2〉]2)

]

Si las componentes t1 y t2 son signi�cativas se hacen los cambios: de t1 y t2 ax

[2]1 , x

[2]2 , · · · , x

[2]p y de estas ultimas a x1, x2, · · · , xp y se obtiene la ecuación de

predicción estimada en función de las variables explicativas originales.

5. Construcción de las componentes sucesivas

Si el poder explicativo de la regresión no es fuerte, entonces se construye una terceracomponente t3. Esta componente, es combinación lineal de los residuos e2,j obteni-dos como consecuencia de las regresiones de los residuos e1,j sobre t2. Se obtiene t3de la expresión:

t3 = w3,1e2,1 + w3,2e2,2 + · · ·+ w3,pe2,p,

donde: w3,j =〈e2,j ,e2〉√

p∑j=1

(〈e2,j ,e2〉)2

Para el cálculo de los residuales e2,j para j = 1, 2 · · · , p se hacen las regresionessimples de e1,j sobre t2 y se obtienen las rectas de predicción estimadas:

e∗1,j = α∗1,jt2, j = 1, 2, · · · , p,

donde las estimaciones de los coe�cientes de regresión se calculan mediante:

Page 41: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

3.5 Regresión PLS 27

α∗1,j =〈e1,j, t2〉‖t2‖2

, j = 1, 2, · · · , p

los residuales se obtienen mediante:

e2,j = e1,j − e∗1,j, j = 1, 2, · · · , p

3.5.4. Algoritmo PLS2

Se entiende el algoritmo de regresión PLS2 como una extensión del algoritmo PLS1al caso de mas de una variable a explicar o se entiende el algoritmo PLS1 como uncaso particular del algoritmo PLS2. Se tiene entonces que explicar un conjunto de varia-bles y1, y2, · · · , yq mediante un conjunto de variables explicativas x1, x2, · · · , xp. Se puedea�rmar entonces que el algoritmo PLS2 consiste en aplicar el método de componentesprincipales de un conjunto de variables x1, x2, · · · , xp, bajo la condición que estas compo-nentes principales sean también lo mas explicativas del conjunto de variables y1, y2, · · · , yq.

Primero se construyen las matrices X e Y donde X tiene columnas los vectores xi parai = 1, 2, · · · , p y donde Y tiene columnas los vectores yk para k = 1, 2 · · · , q. Cada vectorxi y cada vector yk pertenece al espacio vectorial Rn y las matrices X y Y pertenecena los espacios vectoriales Rn×p y Rn×q respectivamente. Bajo este contexto, el algoritmoPLS2, consiste en realizar proyecciones simultaneas de ambos espacios sobre hiperplanosde más baja dimensión. Las coordenadas de los puntos en estos hiperplanos constituyenlos elementos de las matrices T y U.

Mediante el algoritmo PLS2 se logran dos objetivos básicos: El primero es maximizarla correlación entre los conjuntos de variables x1, x2, · · · , xp y y1, y2, · · · , yq y el segundo,aproximar a través del mencionado hiperplano lo mejor que se pueda a los espacios vec-toriales generados por los conjuntos de variables x1, x2, · · · , xp y y1, y2, · · · , yq, es decir,la información que estos poseen.

Aspectos Matemáticos para la Regresión PLS.

Como se ha mencionado antes, se puede ver la metodología de regresión por mínimos cua-drados parciales PLS como un algoritmo numérico que maximiza una función objetivosujeta a ciertas restricciones. La función objetivo es la covarianza entre x y y scores y larestricción usualmente es la ortogonalidad entre los scores. Se han propuesto diferentesalgoritmos para este tipo de regresión, sin embargo, resultan preguntas naturales, si to-dos ellos maximizan la misma función objetivo y si sus soluciones conducen a solucionescomparables.

Page 42: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

28 3 Regresión Lineal Múltiple y PLS

En regresión PLS2 los datos en las �las de las matrices X y Y provienen de n individuosu objetos, y X contiene la información de p características y Y describe q propiedades.Para utilizar una notación conveniente, se asume que las columnas de las matrices X y Yestán centradas a la media. El objetivo de la regresión PLS2 es determinar una relaciónlineal

Y = XB + E

entre variables x e y, usando una matriz B de orden p × q de coe�cientes de regresióny una matriz de errores E. En regresión PLS1 esto se reduce a y = Xβ + e1. En lugarde determinar esta relación directamente, se tiene que tanto X como Y son modeladosmediante variables latentes en base a los modelos de regresión:

X = TPT + EX y Y = UQT + EY ,

con matrices de error EX y EY . Las matrices scores T y U y las matrices de cargas Py Q tienen a columnas donde a ≤ min(n, q, p) es el número de componentes PLS. Si tj,uj, pj y qj denotan la j-ésima columna de T, U, P y Q, respectivamente; entonces setiene la siguiente relación:

uj = djtj + hj

donde hj son los residuales y dj son los parámetros de regresión. Si la relación entre ujy tj es fuerte ( si hj es pequeño) entonces los x-scores de la primera componente PLSpredicen bien y-scores y en consecuencia predicen bien y-datos. En la regresión PLS2 seconsideran varias componentes PLS, por lo tanto:

U = TD + H

dondeD es una matriz diagonal en cuya diagonal principal están los elementos d1,d2, · · · ,day H es la matriz residual cuyas columnas son hj. En la regresión PLS1, ésta ultima re-lación se traduce en:

y = Td + h.

El objetivo de la regresión PLS2 es maximizar la covarianza entre los datos x-scores ylos y-scores (La regresión PLS1 maximiza la covarianza entre x-scores y y). Como elproblema de maximización no es único entonces una restricción en los vectores scores esnecesaria, por lo tanto es usual la restricción ‖t‖ = ‖u‖ = 1. los vectores scores resultande la proyecciones de las matrices X y Y en los vectores de cargas. Por razones técnicas,que luego serán aclaradas, se utilizan otros vectores de cargas, w para los x-variables y cpara los y-variables; esto es t = Xw y u = Yc. El problema de maximización entonceses el siguiente:

Page 43: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

3.5 Regresión PLS 29

max Cov(Xw,Yc)

s.a

{‖t‖ = ‖Xw‖ = 1

‖u‖ = ‖Yc‖ = 1

(3.8)

donde Cov denota la covarianza simple. Las soluciones de este problema de maximizaciónson los scores t1 y u1. Los siguientes scores se calculan de manera similar utilizando lamisma función objetivo, pero deben adicionarse nuevas restricciones. Usualmente las nue-vas restricciones son la ortogonalidad de los previos scores; esto es, tTj tk = 0 y uTj uk = 0para 1 ≤ j ≤ k < a. una estrategia alternativa es exigir la ortogonalidad de los vecto-res de carga que conduce a scores no ortogonales y por lo tanto no correlacionados. Lascargas ortogonales son obtenidas por ejemplo mediante vectores propios. Existen otrosalgoritmos que permiten obtener scores no correlacionados y dado que cada vector scoreadicional cubre nueva variabilidad, esto podría ser preferible para �nes de predicción.

Cuando en el problema de optimización 3.8 se toma la covarianza simple, se obtiene elproblema de optimización:

max tTu = (Xw)T (Yc) = wTXTYc

s.a

{‖t‖ = ‖Xw‖ = 1

‖u‖ = ‖Yc‖ = 1

(3.9)

Las soluciones para w y c se calculan a partir de descomposición en valores singulares deXTY. Entre todas las posibles direcciones de los vectores w y c, la solución óptima delproblema de optimización 3.9 se alcanza por vectores w1 y c1 correspondientes al valorsingular mas grande de XTY Hoeskuldsson, A. (1988).

Se han propuesto diferentes algoritmos para la regresión PLS. A continuación se muestranlos algoritmos mas utilizados.

Algoritmo Kernel Para PLS.

El algoritmo Kernel para la regresión PLS es introducido por Lindgren, F. (1993). El nom-bre del algoritmo resulta al utilizar eigen descomposición de las llamadas matrices kernel,de productos de X y Y. Se tiene que las soluciones del problema de optimización 3.9, sonlos vectores w1 y c1 que se pueden ver como los eigenvectores de una descomposición envalores singulares de la matriz XTY. Utilizando las propiedades de la descomposición envalores singulares, las soluciones pueden ser calculadas por Hoeskuldsson, A. (1988)

1. w1 es el eigenvector asociado al eigenvalor más grande de XTYYTX.

2. c1 es el eigenvector asociado al eigenvalor más grande de YTXXTY.

Page 44: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

30 3 Regresión Lineal Múltiple y PLS

De acuerdo a 3.8 ambos vectores son tales que ‖Xw1‖ = 1 y ‖Yc1‖ = 1. Los scores de lasde las direcciones encontradas son las proyecciones t1 = Xw1 y u1 = Yc1 y ambos sonunitarios. La variable latente p1 es calculada mediante mínimos cuadrados ordinarios enrelación al modelo X = TPT + EX por:

pT1 =(tT1 t1

)−1tT1 X = tT1 X = wT

1 XTX

Se continua calculando el siguiente conjunto de componentes maximizando el problemade optimización 3.8. Éste máximo se busca en dirección ortogonal al vector t1 y se buscaconvenientemente en el complemento ortogonal mediante la de�ación de X. La matrizdesin�ada X1 está dada por:

X1 = X− t1pT1 = X− t1t

T1 X =

(I− t1t

T1

)X.

La de�ación de la matriz Y no es necesaria debida a que cuando se usa la relacióninterna uj = djtj + hj, resulta que la de�ación se llevaría a cabo por la multiplicaciónde Y con la misma matriz G1 = I − t1t

T1 que su utilizó para la matriz X. Como la

matriz G1 es simétrica e idempotente, entonces los productos matriciales para las eigen-descomposiciones para obtener los vectores w2 y c2 arrojan los mismos resultados si setiene la matriz Y desin�ada o no. Se tiene que el vector w2 es el eigenvector asociado aleigenvalor mas grande asociado a la matriz:

XT1 YYTX1 = XTG1

TYYTG1X = XTG1T (G1Y)

(YTGT

1

)G1X

El vector c2 se calcula de manera similar.

Los siguientes componentes PLS son obtenidos por el mismo algoritmo de la misma ma-nera que se hizo con las primeras componentes, usando la matriz desin�ada X obtenidadespués del cálculo de la componente anterior. El proceso termina cuando se calculan acomponentes.

Los y-scores uj para j = 1, 2, · · · , a son obtenidos a partir de los x-scores por:

uj = Ycj.

Las y-cargas qj son calculadas a partir del modelo de regresón Y = UQT +EY , de donde:

qT1 =(uTj uj

)−1uTj Y

Por último, para estimar los coe�cientes de regresión se puede mostrar Manne, R. (1987)

B = W(PTW

)−1CT

y estos �nalmente enlazan los x-datos con los y-datos.

Page 45: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

3.5 Regresión PLS 31

Algoritmo NIPALS para PLS.

El algoritmo NIPALS fue el primer algoritmo que se utilizó para resolver el modelo deregresión PLS. Aunque los resultados resultaron ser útiles, hubo confusión sobre lo queel algoritmo hace en realidad. La propuesta de varias versiones ligeramente diferentes delalgoritmo, tampoco fueron útiles al respecto. Debe tenerse en cuenta que el algoritmo NI-PALS da los mismos resultados que el algoritmo Kernel, porque utiliza la misma de�ación,sólo los componentes se calculan en forma diferente, pero con el mismo resultado numérico.

A continuación se muestra una versión del algoritmo NIPALS, con los principales pasos.Si se quiere calcular la primera componente PLS se procede así:

1. Inicialice u1, por ejemplo, con la primera �la de la matriz Y.

2. w1 = XTu1

uT1 u1

.

3. w1 = w1

‖w1‖ .

4. t1 = Xw1.

5. c1 = YT t1tT1 t1

.

6. c1 = c1‖c1‖ .

7. u∗1 = Yc1.

8. u∆ = u∗1 − u1.

9. ∆u = uT∆u∆.

10. Si ∆u < ε, entonces pare; sino u1 = u∗1 y vuelva al paso 2.

Si en el paso 2 del algoritmo se está ejecutando la iteración j + 1, entonces

wj+11 =

XTuj1(uj1)Tuj1

.

Ahora, considerando el paso 7. con uj1, reemplazando cj1 por los pasos 6 y 5, reemplazandotj1 por el paso 4 y wj1 por el paso 3, se obtiene:

wj+11 = XTYYTXwj

1k

donde la constante k depende de las normas de los diferentes vectores. Esta última ecua-ción es un problema de eigenvalores, donde w1 es el eigenvector asociado al eigenvalormas grande de la matriz XTYYTX. De manera similar puede mostrarse que:

cj+11 = YTXXTYcj1k.

Page 46: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

32 3 Regresión Lineal Múltiple y PLS

Esto muestra que el algoritmo NIPALS está relacionado con el problema de optimización3.8. Para las siguientes componentes PLS, el algoritmo NIPALS trabaja diferente alalgoritmo Kernel; sin embargo, los resultados coinciden. El método NIPALS requiere unade�ación de las matrices X y Y y el el pseudocódigo continúa de la siguiente manera:

11. p1 = XT t1tT1 t1

.

12. q1 = YTu1

uT1 u1

.

13. d1 =uT1 t1

tT1 t1.

14. X1 = X− t1pT1 y Y1 = Y − d1t1c

T1

Finalmente se tiene que:

B = W(PTW

)−1CT .

El método NIPALS para la regresión PLS1 tiene la siguiente estructura:

1. InicialiceX1 = X y y1 = y, y haga iteraciones entre los pasos 2 y 7 para j = 1, 2, · · · , a.

2. wj =XT

j yj

yTj yj

.

3. wj =wj

‖wj‖ .

4. tj = Xjwj.

5. cj =yTj tj

tTj tj.

6. pj =XT

j tj

tTj tj.

7. Xj+1 = Xj+1 − tjpTj .

Los coe�cientes de regresión del modelo y = Xβ + e se estiman mediante la relaciónβ = W

(PTW

)−1c, donde W y P coleccionan los vectores wj y pj en las columnas y el

vector c es el vector formado por los cj.

Algoritmo SIMPLS para PLS.

Este algoritmo es propuesto por De Jong, S. (1993) y maximiza directamente el proble-ma 3.8 bajo la restricción de ortogonalidad de los t-scores para diferentes componentes.La primera componente PLS que se obtiene a partir del algoritmo SIMPLS es la mis-ma que proporcionan los algoritmos Kernel y NIPALS. Las siguientes componentes sonligeramente diferentes. La principal diferencia con los algoritmos Kernel y NIPALS es el

Page 47: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

3.5 Regresión PLS 33

tipo de de�ación. En el algoritmo SIMPLS, la de�ación no se hace sobre las matricescentradas X y Y, sino que la de�ación se lleva a cabo sobre la matriz de covarianzas, omas precisamente sobre la matriz de productos cruzados S = XTY entre los x-datos ylos y-datos. El pseudocódigo para el algoritmo SIMPLS se da a continuación:

1. Inicialice S0 = XTY e itere sobre los pasos 2 a 6 para j = 1, 2, · · · , a.

2. Si j = 1, Sj = S0; Si j > 1, Sj = Sj−1 −Pj−1

(PTj−1Pj−1

)−1PTj−1Sj−1.

3. Calcule wj como el primer (izquierdo) vector singular de Sj.

4. wj =wj

‖wj‖ .

5. tj = Xwj.

6. tj =tj‖tj‖ .

7. pj = XTj tj.

8. Pj = [p1,p2, · · · ,pj−1]

Los pesos wj y los scores tj son almacenados como columnas en las matrices W y T,respectivamente. La matriz W di�ere en el algoritmo SIMPLS de los algoritmos Kernely NIPALS pues es calculada apartir de la matriz X y no de las matrices desin�adas. Elpaso 2 cuenta cuenta para la restricción de ortogonalidad de los scores tj sobre todosprevios vectores scores, por que la búsqueda se hace en el complemento de ortogonal deSj−1. El paso 3 maximiza directamente el problema inicial 3.8. Los scores en el paso 4son obtenidos directamente proyectando X en la dirección optima y las cargas en el paso5 son obtenidas por mínimos cuadrados ordinarios.

Los coe�cientes de regresión en el algoritmo SIMPLS están dados por:

B = WTTY.

Algoritmo Robusto para PLS.

Todos lo algoritmos para regresión PLS mencionados hasta el momento resultan de resol-ver el problema de optimización 3.8 y la estimación de la covarianza que considera dichoproblema de optimización entre los x-scores y los y-scores fue hecha mediante la clásicacovarianza muestral. En Gil,J. & Romera, R. (1998) se propone una estimación robusta dela covarianza. Por otro lado, en Cummins, D. & Andrews, C.W. (1995) y Wakeling, I.N &Mac�e, H.J. (1992) se propone reemplazar la regresión por mínimos cuadrados ordinariospor regresión robusta.

Page 48: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

34 3 Regresión Lineal Múltiple y PLS

Antes de de�nir estimadores parciales de M-regresión,se establece la notación y se revisala de�nición de M-estimadores en la regresión estándar. Sea X la matriz que contiene lasvariables de predicción en sus columnas, y sea y el vector de la varieble respuesta. En estecaso se considera regresión PLS1; sin embargo, puede extenderse a regresión PLS2.

Si se considera el modelo de regresión:

y = Xβ + ε1.

El estimador de mínimos cuadrados de β se de�ne como:

βLS = argminβ

n∑i=1

(yi − xiβ)2

y se sabe que es el estimador óptimo (en el sentido de tener la varianza más pequeña yser imparcial) si los términos de error ε1 siguen una distribución normal. Sin embargo, silos términos de error vienen de otras distribuciones, por ejemplo, distribuciones de colapesada, LS pierde su optimalidad y otros tipos de estimadores se desempeñan mejor. Losestimadores robustos más conocidos son los M-estimadores, que se obtienen mediante lasustitución delos cuadrados mediante una función de pérdida ρ más general:

βM = argminβ

n∑i=1

ρ (yi − xiβ)

La función de pérdida ρ debe ser simétrica y no decreciente. Claramente el estimadorLS es un caso especial del estimador M . Sean ri = yi − xiβ los residuales en el últimoproblema de optimización y se de�nen los pesos atados a la observación i como:

wri =

ρ(ri)

r2i

de donde se obtiene:

βM = argminβ

n∑i=1

wri (yi − xiβ)2

En la de�nición anterior, el M -estimador se expresa como un estimador LS-ponderado,pero con los pesos en función de β. Esta formulación permite que el M-estimador se calculecon un algoritmo de mínimos cuadrados iterativo.

Ahora; uniendo los problemas Y = Xβ + ε1 y X = TPT + EX se obtiene el problema:

Y = TPTβ + ε2.

Page 49: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

3.5 Regresión PLS 35

La idea es estimar de manera robusta los nuevos coe�cientes de regresión g = PTβ. Comose mencionó antes, la idea es minimizar

∑wri

(yi − tTi gi

)2con apropiados pesos residuales

wri = ρ(ri)

r2i. No sólo grandes residuos, sino también puntos de in�uencia pueden echar a

perder la estimación de los coe�cientes de regresión, y por lo tanto se tienen que introducirpesos adicionales para puntos de in�uencia de bajo peso. Estos son objetos periféricos enel espacio de las variables regresoras T, y los pesos resultantes asignados a cada objetoti se denotan por wt

i. Ambos tipos de pesos se pueden combinar mediante wi = wriw

ti, y

los coe�cientes de regresión g resultan maximizando la función objetivo:

n∑i=1

wi

(yi − tTi g

)2=

n∑i=1

(√wiyi − (

√witi)

Tg)2

Esto, sin embargo, signi�ca que tanto los y-datos y los scores tienen que ser multiplicadospor pesos apropiados

√wi y entonces el procedimiento de mínimos cuadrados clásico se

pueden aplicar. En la práctica, los valores iniciales de los pesos se actualizan mediante unalgoritmo iterativo. La tarea pendiente es estimar robustamente los vectores score T quese necesitan en la regresión anterior. Según el modelo de variable latente X = TPT +EX ,el vector score j-ésimo está dado por tj = Xpj, para j = 1, 2, · · · , a. Según la ecuación3.8, los vectores de carga pj se obtienen de forma secuencial a través del problema demaximización:

MaxCovw(Xp,y)

sujeto a las restricciones ‖p‖ = 1 y Covw(Xp,Xpl) = 0 para 1 ≤ l < j. Se tiene ademásque Covw(u,y) = 1

n

∑wiyiui. Por lo tanto, las lrestricciones aseguran vectores de cargas

de longitud 1 que no están correlacionados con todos los vectores de carga previamentedetermindados. Una vez que todos los vectores de carga han sido determinados, los scoresse calculan mediante la relación T = XP. Resolver el problema de regresión robusta,implica los coe�cientes de regresión g = PTβ y los parámetros de regresión �nales secalculan mediante la relación β = Pg.

3.5.5. Algoritmo PLS2 Mediante Etapas

A continuación se describe el algoritmo PLS2 mediante etapas, dando así una visióngeneral de este algoritmo. Considere el conjunto de variables explicativas x1, x2, · · · ,xp y el conjunto de variables respuesta y1, y2, · · · , yq. A partir de dichos conjuntos, seconstruyen las matrices X ∈ Rn×p y Yn×q, donde X tiene como columnas los vectores xipara i = 1, 2 · · · , p y Y tiene como columnas los vectores yi para i = 1, 2 · · · , q.

1 Se construyen las matrices X0 y Y0 que están conformadas por las variables centradasy reducidas de las variables predictoras y respuesta respectivamente.

2. Se construye una combinación lineal u1 de las columnas de Y0 y una combinaciónlineal t1 de las columnas de Y0 de modo que estas maximicen Cov(u1, t1). De esta

Page 50: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

36 3 Regresión Lineal Múltiple y PLS

manera se obtienen dos nuevas variables u1 y t1 lo más correlacionadas posible yque resumen lo mejor que se puede la información contenida en las matrices X0 yY0.

3. Se construye la regresión lineal simple tanto del conjunto de variables explicativas co-mo del conjunto de variables a explicar sobre la componente t1:

X0 = t1pT1 + X1

Y0 = t1qT1 + Y1,

donde p1 y q1 son los vectores de coe�cientes de regresión.

4. Se repite la etapa 3, reemplazando las matrices X0 y Y0, por las nuevas matricesresiduales X1 y Y1; obteniéndose por tanto dos nuevas componentes t2 y u2 quemaximizan Cov(u2, t2). A partir de estas componentes se obtiene por regresión linealsimple:

X1 = t2pT2 + X2

Y1 = t2qT2 + Y2

por lo que se deduce que:

X0 = t1pT1 + t2p

T2 + X2

Y0 = t1qT1 + t2q

T2 + Y2,

Estas etapas se repiten hasta que las componentes t1, t2, · · · , th expliquen su�cientementea Y0. De la descomposición:

Y0 = t1qT1 + t2q

T2 + · · ·+ thq

Th + Yh

se deducen las ecuaciones de regresión PLS2:

y∗k = β∗k,0 + β∗k,1x1 + β∗k,2x2 + · · ·+ β∗k,pxp, para k = 1, 2, · · · , q

Las siguientes a�rmaciones se demuestran en Geladi, P. & Kowalski, B. (1986), ?, Helland,I. (2001), ?.

Page 51: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

3.5 Regresión PLS 37

1. Determinación de las primeras componentes:

Se busca una componente que sea combinación lineal de las columnas de X0 de-nominada t1 y otra componente que sea combinación lineal de las columnas de Y0

denominada u1; es decir, para t1 y u1 se tiene que:

t1 = X0w1, u1 = Y0c1

de modo que w1 y c1 tengan norma euclidea 1.

Estas dos combinaciones lineales deben obtenerse de modo que Cov(t1,u1) sea má-xima.

En Helland, I. (2001) se demuestra quew1 es el vector propio de la matrizXT0 Y0Y

T0 Y0

correspondiente al mayor vector propio θ21 de dicha matriz y que c1 es el vector propio

de la matrizYT0 X0X

T0 Y0 correspondiente al mayor vector propio θ2

1 de dicha matriz.

A continuación se llevan a cabo las dos regresiones:

X0 = t1pT1 + X1

Y0 = t1qT1 + Y1,

donde p1 =XT

0 t1tT1 t1

es el vector de los coe�cientes de regresión sobre t1 para cada

variable original independiente xi y q1 =YT

0 t1tT1 t1

es el vector de coe�cientes de regresiónde t1 para cada variable original dependiente yk.

2. Propiedades de las primeras componentes. Se tiene que:

2.1. pT1 w1 = 1

2.2. q1 = b1c1

2.3. tT1 X1 = 0

3. Determinación de las segundas componentes:

Se busca una componente que sea combinación lineal de las columnas X1 deno-minada t2 y otra componente que sea combinación lineal de las columnas de Y1

denominada u2; es decir, para t2 y u2 se tiene que:

t2 = X1w2, u2 = Y1c2

Page 52: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

38 3 Regresión Lineal Múltiple y PLS

de modo que w2 y c2 tengan norma euclídea 1.

Estas dos combinaciones lineales deben obtenerse de modo que Cov(t2,u2) sea má-xima.

En Helland, I. (2001) se demuestra quew2 es el vector propio de la matrizXT1 Y1Y

T1 X1

correspondiente al mayor vector propio θ21 de dicha matriz y que c2 es el vector pro-

pio de la matriz YT1 X1X

T1 Y1 correspondiente al mayor vector propio θ2

1 de dichamatriz. A continuación se llevan a cabo las dos regresiones:

X1 = t2pT2 + X2

Y1 = t2qT2 + Y2

donde p2 =XT

1 t2tT2 t2

es el vector de los coe�cientes de regresión sobre t2 para cada

variable original independiente xi y q2 =YT

1 t2tT2 t2

es el vector de coe�cientes de regresiónde t2 para cada variable original dependiente yk.

4. Propiedades de las segundas componentes.Se tiene que:

4.1. pT2 w2 = 1

4.2. q2 = b2c2

4.3. tT2 X2 = 0

Se puede hablar en general entonces, de las componentes de orden h.

5. Determinación de las componentes de orden h.

Se busca una componente que sea combinación lineal de las columnas de Xh−1

denominada th y otra componente que sea combinación lineal de las columnas deYh−1 denominada uh; es decir, para th y uh se tiene que:

th = Xh−1wh, uh = Yh−1ch

de modo que wh y ch tengan norma euclídea 1.

Estas dos combinaciones lineales deben obtenerse de modo que Cov(th,uh) sea má-xima.

En Helland, I. (2001) se demuestra quewh es el vector propio de la matrizXTh−1Yh−1Y

Th−1Xh−1

correspondiente al mayor vector propio θ21 de dicha matriz y que ch es el vector pro-

pio de la matriz YTh−1Xh−1X

Th−1Yh−1 correspondiente al mayor vector propio θ2

1 de

Page 53: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

3.5 Regresión PLS 39

dicha matriz.

A continuación se llevan a cabo las dos regresiones:

Xh−1 = thpTh + Xh

Yh−1 = thqTh + Yh,

donde ph =XT

h−1thtTh th

es el vector de los coe�cientes de regresión sobre th para cada

variable original independiente xi y qh =YT

h−1thtTh th

es el vector de coe�cientes de

regresión de th para cada variable original dependiente yk.

6. Propiedades de las componentes de orden h. Se tiene que:

6.1. pThwh = 1

6.2. qh = bhch

6.3. tThXh = 0

A continuación se muestran las fórmulas de descomposición dado que el objetivo del análi-sis de regresión PLS2 es una ecuación para predecir los valores de las variables a explicarY0 según los valores que tomen las variables independientes X0.

Las matrices X0 y Y0 se descomponen por regresión sobre las componentes t1, t2, · · · , tA,donde A es el rango de X0 como:

X0 = t1pT1 + t2p

T2 + · · ·+ thp

Th + XA

Y0 = t1qT1 + t2q

T2 + · · ·+ thq

Th + YA,

En esta descomposición se deduce la regresión PLS2 de cada variable yk sobre las varia-bles x1, x2, · · · , xp, por tanto:

Y0,k =yk − ykSyk

=A∑h=1

qh,kth + FA,k =A∑h=1

qh,kX0 + YA,k

de donde se tiene que:

Y0,k =

p∑j=1

A∑h=1

qh,kwh,j

(xj − xSxj

)+ YA,k

Page 54: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

40 3 Regresión Lineal Múltiple y PLS

Page 55: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

Capítulo 4

Regresión por Mínimos Cuadrados

Parciales PLS Aplicada a Datos

Variedad Valuados. Implementación

con Datos Simulados

En éste capítulo se extiende la regresión por mínimos cuadrados parciales PLS a espaciosno euclídeos y se muestra como funciona ésta metodología por medio de datos simulados.Para comprender con mayor facilidad los conceptos tratados en este capítulo, sugerimosestudiar antes los conceptos de topología y geometría diferencial desarrollados en losapéndices A. Éste capítulo está estructurado de la siguiente manera: En la sección 4.1se habla del conjunto de matrices de�nidas positivas como una variedad Riemanniana yse construyen distribuciones de probabilidad para dicho conjunto. En la sección 4.2 sepresenta el modelo de regresión sobre el conjunto de matrices de�nidas positivas. En lasección 4.3 se presenta un modelo de regresión PLS sobre el conjunto de matrices de�nidaspositivas. Por último, en la sección 4.4, se presenta la implementación de la metodologíacon datos simulados.

4.1. La Geometría del Conjunto de Matrices De�nidasPositivas

En esta sección se muestran algunos resultados desarrollados en Schwartzman, A. (2006)sobre la estructura geométrica del conjunto de matrices de�nidas positivas. A continuaciónse presentan las de�niciones del tipo de datos que se utilizan este capítulo.

De�nición 4.1.1.

1. El conjunto formado por todas las matrices de orden p × p invertibles se denota porGL(p).

41

Page 56: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

42 4 Regresión PLS. Implementación

2. El conjunto formado por todas las matrices de orden p× p invertibles y simétricas conentradas reales, que se denota por Sym(p) es el conjunto:

Sym(p) = {Y ∈ Rp×p : Y −1Y = Ip, YT = Y }.

3. El conjunto formado por todas las matrices de orden p× p de�nidas positivas, que sedenota por Sym+(p) es el conjunto:

Sym+(p) = {X ∈ Sym(p) : vTXv > 0,∀v ∈ Rp}.

4. El conjunto formado por todas las matrices de orden p × p diagonales con entradasreales, que se denota por Diag(p), es el conjunto:

Diag(p) = {Y ∈ Rp×p : yi,j = 0,∀i 6= j}.

5. El conjunto formado por todas las matrices de orden p × p diagonales con entradasreales positivas, se denota por Diag+(p).

6. Sea X ∈ Rp×p. diag(X) es el vector columna de orden p×1 formado por los elementosde la diagonal de X y o�diag(X) es el vector columna de orden p(p−1)

2× 1 formado

por los elementos que están encima de la diagonal de X.

7. vecd(X) es el vector columna de orden p(p+1)2×1 que es la concatenación de los vectores

diag(X) y o�diag(X).

4.1.1. Matriz Exponencial y Matriz Logarítmica

A continuación se de�nen las matrices exponencial y logarítmica.

De�nición 4.1.2. Sea Y una matriz de orden p× p.

1. La matriz exponencial de Y , que se denota por exp(Y ), se de�ne como la siguienteserie de potencias:

exp(Y ) =∞∑k=0

Y k

k!

2. Para una matriz de orden p × p invertible, la matriz logarítmica de X que se denotapor log(X), es cualquier matriz Y de orden p× p tal que exp(Y ) = X.

La matriz logarítmica siempre existe, pero no es única. Cuándo Y ∈ Diag(p) se tieneque exp(Y ) es una matriz diagonal tal que en las componentes de la diagonal principal setienen los exponenciales de los elementos de la diagonal de Y . Si X ∈ Diag+(p) entonceslog(X) es una única matriz diagonal tal que en los elementos de su diagonal principal

Page 57: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

4.1 Matrices De�nidas Positivas. Geometría 43

aparecen los logaritmos de los elementos de la diagonal de la matriz X.

En los siguientes teoremas se describen algunas de las propiedades que satisfacen lasmatrices exponencial y logarítmica.

Teorema 4.1.1.

Sea Y una matriz de orden p× p.

1. Si V es una matriz ortonormal de orden p entonces exp(V Y V T ) = V exp(Y )V T .

2. Si Y ∈ Sym(p) y Y = V LV T es una eigen descomposición de Y con V matriz orto-normal y L ∈ Diag(p), entonces exp(Y ) = V exp(L)V T .

3. Si X ∈ Sym+(p) y X = V ΛV T es una eigen descomposición de X con V matrizortonormal y Λ ∈ Diag+(p), entonces log(X) = V log(Λ)V T .

Teorema 4.1.2. Sean A, B y Y matrices de orden p× p y t ∈ R.

1. Si A y B son matrices invertibles y que conmutan bajo la multiplicación usual entrematrices, entonces exp(A+B) = exp(A) + exp(B).

2. Si Y es una matriz invertible, entonces la derivada de exp(tY ) con respecto a t esY exp(tY ) = exp(tY )Y

La prueba de estos teoremas resulta directamente de las de�niciones y se puede ver enSchwartzman, A. (2006).

4.1.2. El Conjunto de Matrices De�nidas Positivas como una

Variedad Riemanniana

Las matrices de�nidas positivas son matrices simétricas con la restricción de que su valorespropios son positivos. Esta restricción puede ser usada para restringir los valores de lasentradas de la matriz. Por ejemplo, si X representa una matriz de orden 2× 2 y simétricatal que las componentes de la diagonal principal son a y b y los elementos de la diagonalsecundaria son c y c, entonces se se tiene que X es de�nida positiva si y solo a > 0,b > 0 y ab− c2 > 0. El conjunto de tripletas (a, b, c) que resultan de las matrices de�nidaspositivas es un subconjunto abierto de R3 y tiene forma de un cono.

El siguiente teorema describe la geometría diferencial básica del conjunto de interésSym+(p). El conjunto Sym+(p) tiene una relación muy estrecha con su superconjuntoSym(p).

Teorema 4.1.3. Se veri�ca que

1. Los conjuntos Sym(p) y Sym+(p) son variedades diferenciables de dimensión p(p+1)2

.

Page 58: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

44 4 Regresión PLS. Implementación

2. Los espacios Sym(p) y Sym+(p) están difehomor�camente relacionados por medio dela matriz exponencial exp(.) y su inversa, la matriz logarítmica log(.).

3. El espacio tangente TISym+(p) del espacio Sym+(p) sobre la identidad Ip×p puede seridenti�cado como una copia de Sym(p).

El conjunto Sym+(p) no es un grupo bajo la multiplicación de matrices, pero las matricesde�nidas positivas están relacionadas entre si por la acción de grupo GL(p), que se de�nea continuación.

De�nición 4.1.3. La acción de grupo de GL(p) en Sym+(p) es la transformación:

φ : GL(p)× Sym+(p)→ Sym+(p)

Donde φG(X) = GXGT , para G ∈ GL(p) y X ∈ Sym+(p).

Teorema 4.1.4. Dadas X y W en Sym+(p) existe una matriz no única G en GL(p) talque GXGT = W .

La acción de grupo en Sym+(p) determina una acción de grupo similar entre el espaciotangente en X y φG(X). Dado un vector tangente Y ∈ TanXSym+(p) en X y G �ja, elmapa diferencial de φ está dado por dφG(Y ) = GY GT ∈ TφGSym+(p). Si Y es simétricaentonces GY GT también es simétrica y el mapeo es uno a uno. Se puede concluir elsiguiente resultado.

Teorema 4.1.5. El espacio tangente TXSym+(p) en cada punto X puede ser identi�cadocon una copia de Sym+(p).

La acción de grupo de GL(p) puede verse como un cambio de coordenadas. Sea v ∈ Rp

un vector aleatorio con media cero y covarianza X = E(vvT ) ∈ Sym+(p). Si las entradasde v se consideran como coordenadas en un marco p-dimensional G ∈ GL(p), donde lascolumnas gi de G son vectores referencia con coordenadas en una referencia Rp, entonceslas coordenadas de v en la referencia están dadas por:

v = g1v1 + g2v2 + · · ·+ gpvp = Gv.

La covarianza del vector v está dada por:

E(vvT ) = E(GvvTGT ) = GXGT

En otras palabras, la acción V = GXGT es la expresión en coordenadas de referenciaX, cuando X está en G-coordenadas. A la inversa, si V está expresado en una referenciade coordenadas entonces la expresión para V en G coordenadas es X = G−1V (G−1)T .Por analogía, la interpretación del mismo sistema de coordenadas aplica para la acciónde grupo que resulta en los vectores tangentes en X y en V respectivamente.

Page 59: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

4.1 Matrices De�nidas Positivas. Geometría 45

Se gira la variedad Sym+(p) en una variedad Riemanniana de�niendo en cada puntoen Sim+(p) un producto interno que varía diferenciable a lo largo de la variedad. Seconsideran dos opciones. La primera es el producto interno de Frobenius para matricessimétricas, obtenido con respecto a Sym+(p) como un subconjunto del espacio euclidianoSym(p). Este producto interno da como resultado una variedad Riemanniana que es plana,pero cuyas geodésicas, que son líneas rectas, son restringidas por las cotas de Sym+(p)como un subconjunto de Sym(p). La segunda es una versión a escala de la primera que esinvariante bajo la acción de grupo GL(p) y los resultados en una variedad Reimannianaque es curva, pero cuyas geodésicas son enteramente contenida en la variedad.

De�nición 4.1.4. Producto interno Regular de Frobenius.

Sean YM y ZM ∈ TMSym+(p) dos vectores tangentes en M . El producto interno regularde Frobenius está dado por:

〈YM , ZM〉M = tr(YMZM)

De�nición 4.1.5. Producto interno escalado de Frobenius.

Sean YM y ZM ∈ TMSym+(p) dos vectores tangentes en M . El producto interno escaladode Frobenius está dado por:

〈〈YM , ZM〉〉M = tr(YMM−1ZMM

−1)

Se tiene que el producto interno regular de Frobenius es Euclidiano. Vectorizando lasmatrices YM y ZM se tiene que:

tr(YMZM) = 〈diag(YM), diag(ZM)〉+ 2〈offdiag(YM), offdiag(ZM)〉

donde los productos internos en la última línea son los productos internos estándar paralos vectores en Rp y R

p(p+1)2 , respectivamente. El producto interno regular de Frobenius

también es constante, no depende del punto de aplicación particular, M . El productointerno escalado de Frobenius, por otro lado, es constante en el sentido de que es invariantebajo transformaciones lineales por la acción de grupo de GL(p).

Teorema 4.1.6. El producto interno escalado de Frobenius es una isometría bajo GL(p),esto es, este es invariante bajo la acción de grupo de GL(p).

Los productos internos regulares y escalados Frobenius se relacionan entre sí por mediode la acción de grupo determinado por el punto de aplicación M .

Teorema 4.1.7. Sean YM y ZM ∈ TMSym+(p) dos vectores tangentes en M y sea G ∈GL(p) cualquier raíz cuadrada de M ; esto es M = GGT . Sean YI = φG−1(YM) y ZI =φG−1(ZM) las traslaciones de la identidad de YM y ZM , respectivamente. Entonces:

〈〈YM , ZM〉〉M = 〈YI , ZI〉I .

Page 60: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

46 4 Regresión PLS. Implementación

Conceptualmente el punto M ∈ Sym+(p) es una traslación de la identidad I por el grupode acción M = GIGT . Por lo tanto, el producto interno escalado de Frobenius puedeser calculado primero trasladando los vectores YM y ZM sobre el plano tangente de laidentidad y luego calcular allí el producto interno regular de Frobenius. Este resultado nodepende de la raíz cuadrada.

Las geodésicas son la analogía Riemanniana de líneas rectas sobre espacios Euclídeos en elsentido que estas minimizan distancias en la variedad. Esto depende de la distancia en quese mide; esto es, depende del producto interno Riemanniano. Equipado con el productointerno regular de Frobenius, el conjunto Sym+(p) visto como un subconjunto de Sym(p)es un espacio Euclídeo, luego sus geodésicas son líneas rectas.

Teorema 4.1.8. Sea YM ∈ TMSym+(p) un vector tangente en el punto M ∈ Sym+(p).La geodésica que pasa por el puntoM en la dirección del vector YM con respecto al productointerno regular de Frobenius está dado por:

γM(t, YM) = M + YM t; 0 ≤ t ≤ δ

para algún δ > 0.

La restricción de que t no sea muy grande es para garantizar que la línea esté dentro deSym+(p). El presente cálculo es difícil desde que se dependa de M y YM especí�camente.Es por ésta razón que toma sentido pensar las geodésicas como locales; esto es, son válidassólo en vecindades de M .

El producto interno escalado de Frobenius conduce a geodésicas que no exigen la restric-ción anterior. Se comienza con las geodésicas sobre la identidad.

Teorema 4.1.9. Tome un vector tangente YI ∈ TISym+(p) sobre la identidad. La curva:

γI(y, YI) = exp(YIt), t ∈ R

es una geodésica en Sym+(p) con respecto al producto interno escalado de Frobenius.

Este resultado indica que las geodésicas de Sym+(p) sobre la identidad I son las imágenesbajo la matriz exponencial de las geodésicas de Sym(p) sobre el origen 0, que son líneasrectas.

Si un mapeo es isométrico; esto es, si si conserva el producto interno entre los vectorestangentes mapeados, entonces las geodésicas mapearan geodésicas. Como el productointerno escalado de Frobenius es una isometría con respecto a la acción de grupo, entoncesse usa este hecho para encontrar geodésicas sobre puntos en general de Sym+(p).

Teorema 4.1.10. Sea YM ∈ TMSym+(p) un vector tangente en un punto M ∈ Sym+(p).La geodésica que pasa por M en la dirección de YM con respecto al producto internoescalado de Frobenius está univocamente dado por:

Page 61: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

4.1 Matrices De�nidas Positivas. Geometría 47

γM(t, YM) = G exp(G−1YM(G−1)T t)GT

donde G es alguna raíz cuadrada de M ; esto es, alguna G ∈ GL(p) tal que M = GGT .

4.1.3. El Mapeo Exponencial Riemanniano.

El mapeo exponencial Riemanniano es una función que mapea vectores tangentes enpuntos sobre la variedad. Formalmente, el mapeo exponencial Riemanniano del vectortangente YM es de�nido como el valor de la geodésica γM(t, YM) para t = 1. En el casodel producto interno regular de Frobenius, el mapeo exponencial de un vector tangente Ycon respecto a un punto de aplicación M es simplemente el desplazamiento lineal M +Y .El caso del producto interno escalado de Frobenius está dado en la siguiente de�nición.

De�nición 4.1.6. Dado un vector tangente YM ∈ TMSym+(p) sobre un punto M ∈

Sym+(p), el mapeo exponencial Riemanniano ExpM : TMsym+(p) → Sym+(p) con res-

pecto al producto interno escalado de Frobenius está dado por:

X = Exp(YM) = G exp(G−1YM(GT )−1)GT

donde G es alguna raíz cuadrada de M .

Note que cuando M = I, se tiene que ExpM(YM) = exp(YI). Dado que la matriz ex-ponencial es una función uno a uno entre los conjuntos Sym+(p) y Sym(p), entoncesexiste ExpM(p) para todo M . Este mapa tiene una inversa, llamado mapa Riemannianologarítmico. A continuación se de�ne dicho mapa.

De�nición 4.1.7. Dadas dos matrices de�nidas positivas X,M ∈ Sym+(p), el mapaRiemanniano logarítmico LogM : Sym+(p) → TMSym

+(p) de X en relación con M conrespecto al producto interno escalado de Frobenius está dado por:

YM = LogM(X) = Glog(G−1X(GT )−1)GT

donde G es alguna raíz cuadrada de M .

Por construcción se tiene las relaciones inversas:

LogM(ExpM(YM)) = YM , ExpM(LogM(X)) = X.

Debido a la singularidad de las geodésicas, los mapas exponenciales y logarítmicas sonúnicos e independientes de la elección de la raíz cuadrada de M .

Las geodésicas tienen la propiedad de minimizar la longitud de la trayectoria que une dospuntos en la variedad. En general, esta a�rmación es cierta siempre y cuando los puntos

Page 62: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

48 4 Regresión PLS. Implementación

no sean muy lejanos, ya que las geodésicas de diferentes longitudes pueden cruzarse. Sinembargo, el mapa exponencial Riemanniano con respecto al producto interno regular oescalado de Frobenius, es uno a uno, lo que implica que existe una única geodésica queune los puntos de la variedad independiente de lo lejos que estén. De esta manera, tienesentido de�nir la distancia geodésica como la longitud del arco geodésico mas corto queune los puntos sobre la variedad.

En el caso del producto interno regular de Frobenius, las geodésicas son lineas rectas ypor tanto la distancia geodésica entre dos puntos X,M ∈ Sym+(p) se reduce a la distan-cia Euclídea; esto es, ‖X −M‖2 = tr(X −M)2. La distancia geodésica con respecto alproducto interno escalado de Frobenius, se obtiene como sigue.

Según el lemma de Gauss Docarmo, M. (1992) el diferencial del mapa exponencial de Rie-mann es una isometría. Como una consecuencia se tiene que la longitud de la trayectoriageodésica con respecto al producto interno escalado de Frobenius entre dos puntos X yM puede ser medida en el espacio tangente de M como la longitud del vector tangenteY = LogM(X) en TMSym(p); esto es, d(M,X) = ‖Y ‖.

Teorema 4.1.11. Sean X,M ∈ Sym+(p) y G alguna raíz cuadrada de M . La distanciageodésica entre X y M está univocamente dada por:

d(M,X) = ‖LogM(X)‖ =√tr(log2(GXGT ))

Debido a la unicidad del mapa logarítmico Riemanniano, se tiene que el calculo de ladistancia geodésica no depende de la elección de G como una raíz cuadrada de M .

La distancia geodésica d(., .) satisface las propiedades dadas en el siguiente teorema. Dichoteorema garantiza que la distancia geodésica es una métrica.

Teorema 4.1.12. Sean A,B,C ∈ Sym+(P ). La distancia geodésica d(., .) satisface lassiguientes propiedades.

1. d(A,B) ≥ 0.

2. d(A,B) = 0 si y sólo si A = B.

3. d(A,B) = d(B,A).

4. d(A,B) ≤ d(A,C) + d(C,B).

Las siguientes propiedades de la distancia geodésica d(., .) aparecen en Forstner, W. &Moonen, B. (1999).

Teorema 4.1.13. Sean A,B ∈ Sym+(p). Las siguientes propiedades se satisfacen.

Page 63: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

4.1 Matrices De�nidas Positivas. Geometría 49

1. Sean λi(A,B) para i = 1, 2 · · · , p los valores propios conjuntos de A y B; esto es, lassoluciones de det(λA−B) = 0 y sea Λ la matriz diagonal formada por esos valorespropios. Entonces:

d(A,B) =

√√√√ p∑i=1

log2λi(A,B) =√tr(log2Λ).

2. d(A;B) = d(GAGT , GBGT ), para todo G ∈ GL(p).

3. d(A,B) = d(A−1, B−1).

4.1.4. Distribución de Probabilidad para Matrices De�nidas

Positivas.

En la estadística multivariada clásica, la distribución de probabilidad mas usada paralas matrices de�nidas positivas, es la distribución de probabilidad Wishart que resultade la matriz de covarianza muestral de una muestra normal multivariante. Además dela distribución Wishart, se pueden considerar otras dos alternativas. La primera consisteen distribuciones de probabilidad para matrices simétricas con entradas reales, donde encada una de las entradas de la matriz hay una distribución normal. Basados en esta alter-nativa se puede considerar una distribución normal truncada, pero es difícil de trabajarcon ella. Se trabaja con la distribución lognomal para matrices de�nidas positivas, queestá basada en la distribución normal para matrices simétricas después de hacer una logtransformación. Ésta distribución se de�ne de maneras diferentes, dependiendo si la logtransformación es una logmatriz lineal o si es el logmapeo Riemanniano.

La literatura en estadística sugiere dos maneras diferentes de construir distribuciones nor-males para matrices simétricas. En primer lugar, se puede tomar como base Gupta, A.K.& Nagar, D.K. (2000), que reorganizan las componentes de la matriz en un vector y tra-ta el vector resultante como una distribución normal multivariada. En segundo lugar, sepuede tomar como base Chikuse,Y. (2003), que construye la distribución de probabilidadusando las matrices directamente sin utilizar operadores de vectorización.

A continuación se muestran estas dos maneras de construir distribuciones de probabilidadpara matrices simétricas.

Distribución Normal Vectorizada.

A diferencia de la forma estándar de vectorización de matrices, donde se toman los elemen-tos por columnas, a continuación se usa el operador vecd(.). Esta forma de vectorizaciónde matrices es más conveniente para el análisis de datos.

Page 64: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

50 4 Regresión PLS. Implementación

De�nición 4.1.8. Sea Y ∈ Sym(p). Se dice que la matriz Y tiene una distribuciónnormal matriz variada vectorizada simetricamente con media M ∈ Sym(p) y covarianzaΣq×q ∈ Sym+(q), donde q = p(p+1)

2, si :

vecd(Y ) ∼ N(vecd(M),Σq×q)

La covarianza se puede descomponer de la siguiente manera:

Σ =

[Σdiag Σdiag,o�diag

Σo�diag,diag Σo�diag

]donde Σdiag es la matriz de covarianza p× p de los elementos sobre la diagonal, Σo�diag esla matriz (q− p)× (q− p) de los elementos fuera de la diagonal y Σdiag,o�diag = ΣT

o�diag,diag

es la matriz de covarianza cruzada p× (q − p) de las dos.

Distribución Normal Matriz Simétrica Variada.

Se comienza la construcción considerando q = p(p+1)2

elementos diferentes normales inde-pendientes de una matriz simétrica de orden p× p aleatoria.

De�nición 4.1.9. Sea Z ∈ Sym(p). Se dice que Z es una matriz simétrica normalestándar Npp(0, Ip) si su densidad es:

ϕpp(Z) =1

(2π)qw

exp

(−1

2tr(Z2)

)con respecto a la medida de Lebesgue en Rq, con q = p(p+1)

2.

Sean {zij}pi,j=1 las entradas de la matriz Z. El término tr(Z2) del exponente de la densidadde Z es tal que:

tr(Z2) = 〈Z,Z〉 =

p∑i,j=1

z2ii +

p∑i<j

z2ij =

p∑i,j=1

z2ii +

p∑i<j

(√

2zij)2

esto es, la densidad de Z es el producto de q = p(p+1)2

normales independientes, donde los

p elementos de la diagonal de Z distribuyen N(0, 1) y los q − p = p(p−1)2

elementos queestán por fuera de la diagonal de Z distribuyen N

(0, 1

2

).

La matriz simétrica normal estándar Z satisface las propiedades dadas en el siguienteteorema.

Teorema 4.1.14. Si Z ∼ Npp(0, Ip) entonces:

1. E(Z) = 0.

Page 65: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

4.1 Matrices De�nidas Positivas. Geometría 51

2. 1qE(t(Z2)) = 1.

3. tr(Z2) ∼ χ2q.

4. E(exp(tr(TZ))) = exp(−1

2tr(T 2)

), donde T ∈ Sym(p).

En el caso univariado se tiene que si z ∼ N(0, 1) y y ∼ N(µ, σ2) entonces z se transformaen y mediante la relación y = σy+µ. De manera análoga, se puede establecer una relaciónentre una matriz simétrica normal estándar Z y una matriz simétrica normal no estándarY . La relación está dada por la acción de grupo GL(p). Considere Z ∼ Npp(0, Ip) yY ∈ Sym(p), entonces:

Y = GZGT +M

con G ∈ GL(p) y Z ∈ Sym(p). De esta última relación se tiene que Z = G−1(Y −M)(GT )−1, por lo tanto:

tr(Z2) = tr((G−1(Y −M)(GT )−1)2

)= tr

(((Y −M)(GTG)−1)2

).

Usando el Jacobiano de la transformación se tiene que J(Z → Y ) = |G|−(p+1) = |GTG|− p+12

Fang, K.T. and Zhang, Y.T (1990), de donde el Jacobiano y el exponente de la densidadde probabilidad dependen de G, a través de la matriz única GTG = Σ ∈ Sym+(p). Estoconduce a la siguiente de�nición general.

De�nición 4.1.10. Sea Y ∈ Sym(p). Se dice que Y tiene una distribución matriz simé-trica normal variada Npp(M,Σ), donde M ∈ Sym(p) y Σ ∈ Sym+(p), si tiene densidad:

f(Y ;M,Σ) =1

(2π)q2 |Σ| p+1

2

exp

(−1

2tr(((Y −M)Σ−1)2

))con respecto a la medida de Lebesgue en Rq.

Con la intención de simpli�car la inferencia en los valores y vectores propios de M , sepropone una versión simpli�cada de la de�nición 4.1.10. Considere Z ∼ Npp(0, Ip) y seaY ∈ Sym(p) dada por:

Y = σZ +M

donde σ2 puede ser pensado como la varianza común de la matriz Y . Esto da lugar a lasiguiente de�nición.

De�nición 4.1.11. Sea Y ∈ Sym(p). Se dice que Y tiene una distribución matriz simé-trica normal variada Npp(M,σ2), donde M ∈ Sym(p) y σ > 0, si tiene densidad:

f(Y ;M,σ2) =1

(2π)q2σq

exp

(− 1

2σ2tr(((Y −M))2

))

Page 66: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

52 4 Regresión PLS. Implementación

con respecto a la medida de Lebesgue en Rq.

Este es un caso especial de la de�nición 4.1.10 con Σ = σI. Para una matriz simétricaque sigue una distribución normal variada se satisfacen las siguientes propiedades.

Teorema 4.1.15. Si Y ∼ Npp(M,σ2) entonces:

1. E(Y ) = M .

2. 1qE(tr((Y −M)2)) = σ2.

3. 1σ2 tr((Y −M)2) ∼ χ2

q.

4. E[exp(tr(TY ))] = exp(tr(TM − 1

2σ2T 2

)), T ∈ Sym(p).

Distribución Lognormal para Matrices De�nidas Positivas.

En el caso univariado se tiene que una variable aleatoria positiva X sigue una distribuciónlog normal con parámetros µ y σ2 si la variable aleatoria Y = log(X) tiene una distribuciónnormal. Se puede generalizar dicha distribución al caso de matrices de�nidas positivas dedos formas. La primera forma es usando una log transformación matricial lineal. Unaforma mas general es usar log-residuales basados en el mapeo logarítmico Riemanniano.A continuación se habla de dichas maneras de generalizar la distribución log normal amatrices de�nidas positivas.

Sea Y ∈ Sym(p) y X = exp(Y ) ∈ Sym+(p). A continuación se de�ne la distribuciónlognormal para matrices de�nidas positivas de dos maneras diferentes, una basada envectorización de matrices y la otra en distribuciones normales matriciales.

De�nición 4.1.12. Sea X ∈ Sym+. Se dice que la matriz X tiene una distribuciónmatriz simétrica positiva vectorizada log normal variada con parámetros M ∈ Sym(p) yΣq×q ∈ Sym+(p), con q = p(p+1)

2, si Y = log(X) ∈ Sym(p) tiene una matriz simétrica

vectorizada distribución normal; esto es, si vecd(T ) ∼ N(vecd(M),Σq×q).

De�nición 4.1.13. Sea X ∈ Sym(p). se dice que X tiene una matriz de�nida positi-va distribución log normal con parámetros M ∈ Sym(p) y σ2 > 0, si Y = log(X) ∈Sym(p) ∼ Npp(M,σ2).

De acuerdo a la de�nición 4.1.13, se tiene que la densidad de X es:

f(X;M,σ2) =J(X)

(2π)q/2σqexp

(− 1

2σ2tr((Y −M)2

))(4.1)

donde J(X) es el Jacobiano de la log transformación Y = log(X). A continuación se daun resultado que permite calcular J(X).

Page 67: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

4.1 Matrices De�nidas Positivas. Geometría 53

Teorema 4.1.16. Sean λ1 > λ2 > · · · > λp los valores propios de la matriz X. ElJacobiano de la transformación Y = log(X) está dado por:

J(X) = J (Y → X) =1

λ1λ2 · · ·λp

∏i<j

log(λj)− log(λi)

λj − λi. (4.2)

La log transformación matriz lineal es un caso especial del log-residual Riemannianotomando la identidad. La distribución log normal se puede generalizar tomando el log-residual sobre un punto generalM . En la ecuación 4.1, el punto de aplicaciónM reemplazael punto M como un parámetro de localización. se puede construir la distribución lognormal Riemanniana en la versión de vectorización y en la versión matricial directa.

Lognormal Riemanniana.

A continuación s de�nen las dos versiones para la distribución log normal Riemanniana.

De�nición 4.1.14. Sea X ∈ Sym+(p). Se dice que X tiene una matriz de�nida positivadistribución log normal Riemanniana variada con parámetros M ∈ Sym+(p) y covarianzaΣ ∈ Sym+(q) si el mapeo log Riemanniano Y = Log(X) tiene una matriz simétricapositiva vectorizada distribución normal; esto es,

vecd(Y ) = vecd (LogM(X)) ∼ N(0,Σq×q)

Para construir la log normal Riemanniana en la versión matricial, se comienza consideran-do Z ∼ Npp(0, Ip) normal estándar y se asigna el espacio tangente sobre la identidad. Lamatriz de�nida positiva aleatoria W de�nida por el mapeo exponencial E = ExpI(Z) =exp(Z) tiene la distribución log normal dada en la de�nición 4.1.13 con parámetros 0 y 1por que Z = LogI(W ) = log(W ) es normal estándar. Por lo tanto W tiene densidad:

f(W ) =J(W )

(2π)q/2exp

(−1

2tr((logW )2

))donde J(.) está dado por 4.2. Sea M ∈ Sym+(p) y sea G alguna raíz cuadrada de M . Sede�ne X ∈ Sym+(p) por el grupo de acción de G como X = GWGT donde G ∈ GL(p),

con Jacobiano J (W → X) = |G|−(p+1) = |GGT |−(p+1)

2 . Por lo tanto X tiene densidad:

f(X) =J(G−1X(GT )−1)

(2π)q/2|GGT |−(p+1)

2

exp

(−1

2tr((log(G−1X(GT )−1))2

)). (4.3)

Tiene sentido la siguiente de�nición.

Page 68: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

54 4 Regresión PLS. Implementación

De�nición 4.1.15. Sea X ∈ Sym+(p). Se dice que X tiene una matriz de�nida positivadistribución log normal Riemanniana variada con parámetros M ∈ Sym+(p), si el mapeoRiemanniano Y = LogM(X) ∈ Sym(p) tiene una matriz simétrica variada distribuciónnormal; esto es,

Y = LogM(X) ∼ Npp(0, Ip).

Teorema 4.1.17. La densidad 4.3 no depende de la elección de G.

En la densidad 4.3 se tiene queM = GGT hace el papel de parámetro de localización, peortambién afecta la escala. Si en la de�nición 4.1.15 se cambia por Npp(0, σ

2) ó Npp(0,Σ),entonces el factor de escala lo absorbe G. Por 4.2 se tiene que el Jacobiano J(.) solo de-pende de los valores propios de estos argumentos. Por lo tanto J(G−1X(GT )−1) es funciónde los valores propios de G−1X(GT )−1, que son los mismos valores propios conjuntos deX y M . Ahora, puede notarse que:

tr((log(G−1X(GT )−1))2

)= d2(M,X)

esto es; es raíz de la distancia geodésica entre M y X. Esto conduce a una generalizaciónde la densidad 4.3, escrita en términos de la distancia geodésica.

De�nición 4.1.16. Sea X ∈ Sym+(p). Se dice que X tiene una matriz de�nida positivadistribución normal geodésica variada con parámetro M ∈ Sym+(p) si tiene densidad

f(X,M) ∝ exp

(−1

2d2(M,X)

)Las distribuciones de probabilidad descritas anteriormente para el conjunto Sym+(p) seutilizan en el momento de llevar a cabo los entornos de simulación en el software estadísticoR, en particular, se usa la distribución normal para matrices de�nidas positivas.

4.2. Datos respuesta en Sym+(p). Modelo de Regresión.

Dado el conjunto de datos: {(xi, yi) : i = 1, 2, . . . , n}, el modelo de regresión incluyefrecuentemente 2-elementos importantes: una función enlace µi(β) = E[y|xi] = g(xi, β) yun residual εi = yi− µi(β), donde βq×1 es el vector de coe�cientes de regresión, xi: vectorde k-variables regresoras y g(. , .): la función enlace dada por

g(. , .) : Rk × Rq → R ; (xi, β)→ g(xi, β)

con , q = k + 1.

Page 69: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

4.2 Datos respuesta en Sym+(p). Modelo de Regresión. 55

Grá�camente se tiene:

Figura 4.1: Modelo de Regresión Lineal sobre Espacios Euclídeos.

Dado un conjunto de datos: {(xi, Si) : i = 1, 2, . . . , n}, en donde los datos de la variablerespuesta Si son datos variedad valuados (puntos sobre una variedad Riemanniana S) y xies un vector de covariables de interés sobre un espacio euclídeo. Un modelo de regresiónpara este tipo de datos , involucra modelar la "media condicional� de Si dado xi,denotada por: µi(β) = E[Si|xi] = g(xi, β) con

g(. , .) : Rk × Rq → S ; (xi, β)→ g(xi, β)

llamada función enlace. Para dos puntos Si y µi(β) sobre la variedad S, el modelotambién de�ne un residual o diferencia entre Si y µi(β). Grá�camente se tiene:

Figura 4.2: Modelo de Regresión Lineal sobre Espacios no Euclídeos.

Page 70: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

56 4 Regresión PLS. Implementación

La idea general, es transportar los objetos que pertenecen a el espacio no Euclídeo sobre elespacio tangente común, llevar a cabo en dicho espacio tangente los respectivos modelos deregresión y posteriormente mapear los resultados nuevamente sobre el espacio no Euclídeo.Gra�camente se tiene:

Figura 4.3: Modelo de Regresión Lineal sobre Espacios no Euclídeos. Idea General.

Dado que las matrices de�nidas positivas no están sobre un espacio euclídeo, entonces esteórica y computacionalmente complicado desarrollar un marco estadístico formal dondese tenga la forma de hacer estimación y pruebas de hipótesis, de modo que se usen co-variables para predecir directamente las matrices de�nidas positivas como respuesta. Espor ésta razón que se piensa en desarrollos teóricos que transformen las matrices de�nidaspositivas sobre espacios Euclídeos. En Zhu, H., Chen, Y., Ibrahim, J., Li, Y., Hall, C.,Lin, W. (2009) se muestra el desarrollo de una metodología de regresión donde la respues-ta son matrices de�nidas positivas log transformadas. El modelo se basa en un métodosemiparamétrico que evita especi�car distribuciones paramétricas para las matrices de�-nidas positivas aleatorias log transformadas. Se han planteado procesos de inferencia paraestimar los coe�cientes de regresión de dicho modelo, al igual de estadísticos de pruebaque permiten contrastar hipótesis de los parámetros desconocidos y procesos de pruebabasados en métodos de remuestreo para evaluar simultáneamente la signi�cancia estadís-tica de hipótesis lineales. En este trabajo se considera el modelo de regresión polinomiallocal intrínseco para matrices de�nidas positivas como respuesta.

Para estimar µ(x) = E[S|X = x0] se procede de manera diferente a la manera en quese procede cuando se tiene un modelo de regresión sobre un espacio Euclídeo. Dado queµ(x) está sobre un espacio curvado, no se puede usar directamente las series de Taylorpara expandir a µ(x) en X = x0. Por tal razón, se busca transformar µ(x) de manera quepueda hacerse una expansión de series de Taylor.

Suponga que se tiene un conjunto de datos {(xi, Si) : i = 1, 2, . . . , n}, donde los datos dela variable respuesta Si son datos sobre Sym+(p) y xi es un vector de covariables de interéssobre un espacio euclídeo. Un modelo de regresión para este tipo de datos , involucra

Page 71: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

4.2 Datos respuesta en Sym+(p). Modelo de Regresión. 57

modelar la media condicional de Si dado xi, denotada por: µi(β) = E[Si|xi] = g(xi, β)con g(. , .) : Rk ×Rq → S ; (xi, β)→ g(xi, β) llamada función enlace. Para estimarµ(x) sobre cada punto X = x0 se resuelve minimizando la siguiente función objetivo:

Gn(µ(x0)) =n∑i=1

Kh(xi − x0)d2g(µ(x0), Si) (4.4)

donde kh(u) = K(uh

)h−1, con h escalar positivo y K(·) es una función Kernel.

Se considera el mapa logaritmo Riemanniano de µ(x) en µ0(x) sobre el espacio Tµ(x)Sym+(p);

esto es, se considera Logµ0µx ∈ Tµ(x)Sym+(p). Ahora, como Logµ0µx está sobre un espacio

tangente diferente para cada valor de X, entonces se transportan los elementos desde elespacio Tµ(x)Sym

+(p) hasta el espacio común TIpSym+(p), a través del transporte paralelo

dado por:

Φµ(x0) : Tµ(x0)Sym+(p)→ TIpSym

+(p)

donde Φµ(x0)

(Logµ(x0)µ(x)

)= Y (x) y su inversa Φ−1

µ(x0)(Y (x)) = Logµ(x0) ∈ Tµ(x0)Sym+(p).

Se tiene que Φµ(x0)(0p) = Y (x0) = 0p, por lo tanto Logµ(x0)µ(x0) = 0p y como Y (x) yY (x0) están sobre el mismo espacio tangente TIpSym

+(p), entonces se expande Y (x) enx0 usando series de Taylor. Se obtiene entonces:

Y (x) =

k0∑k=1

Y (k)(x0)(x− x0)k

con k0 ∈ N y Y (k) la derivada de orden k de Y (x) con respecto a x multiplicada por 1k!.

Ahora, utilizando Φ−1µ(x0) se tiene que:

Logµ(x0)µ(x) = Φ−1µ(x0)(Y (x)) ≈ Φ−1

µ(x0)

(k0∑k=1

Y (k)(x0)(x− x0)k

).

A partir de un análisis equivalente se tiene que:

µ(x) = Expµ(x0)

(Φ−1µ(x0)(Y (x))

)= Expµ(x0)

(Φ−1µ(x0)

(k0∑k=1

Y (k)(x0)(x− x0)k

)).

Se puede ver que Expµ(x0)

(Φ−1µ(x0)

(k0∑k=1

Y (k)(x0)(x− x0)k))

= µ(x, α(x0), k0), donde

α(x0) contiene todos los parámetros de {µ(x0), Y (1)(x0), · · · , Y (k)(x0)}. Para estimar α(x0),se minimiza el problema:

Page 72: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

58 4 Regresión PLS. Implementación

Gn(α(x0)) =n∑i=1

Kh(xi−x0)d2g

(Expµ(x0)

(Φ−1µ(x0)

(k0∑k=1

Y (k)(x0)(x− x0)k

)), Si

)(4.5)

Claramente, la función objetivo 4.4 adopta una forma según la métrica Riemannianad2g(·, ·), cuya forma estructural depende del producto interno que se de�ne sobre el conjuntoTµ(x)Sym

+(p). Por tal razón a continuación se exponen dos formas de resolver el problema;una utilizando la métrica log-euclídea y otra utilizando el producto interno regular deFrobenius, el producto interno escalado de Frobenius (de�nidos en la sección 4.1):

4.2.1. Métrica Log-Euclídea.

Para comenzar, a continuación se de�ne la métrica log-euclídea continuación Huang, Z.Et al. (2015)

De�nición 4.2.1. Sean T1, T2 ∈ Tµ(x)Sym+(p). La métrica Log-Euclídea sobre el conjunto

Sym+(p) está de�nida por:

〈T1, T2〉 = tr(Dµ(x) log(T1)Dµ(x) log(T2)

),

donde Dµ(x) log(T ) denota la derivada direccional de la matriz logaritmo en µ(x) a lo largode T .

Ahora, la geodésica asociada a la métrica log-euclídea dada en 4.2.1, está dada por:

γ(t, T1) = exp(log(µ(x)) + tDµ(x) log(T2)

).

Por otro lado, los mapeos exponencial y logarítmico Riemanniano están dados por:

1. Expµ(x)(T1) = exp(log(µ(x)) +Dµ(x) log(T1)

).

2. Logµ(x)(S1) = Dlog(µx) exp (log(S1)− log(µ(x))).

Ahora, para µ(x), S ∈ Sym+(p), se tiene que la distancia geodésica está dada por:

d2g(µ(x), S) = tr

[(log(µ(x))− log(S))⊗2

],

donde v⊗2 = vvT , con v un vector. De ésta manera, la función objetivo dada en 4.4, quedaescrita como:

Gn(µ(x0)) =n∑i=1

Kh(xi − x0)tr[(log(µ(x))− log(Si))

⊗2]

(4.6)

Page 73: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

4.2 Datos respuesta en Sym+(p). Modelo de Regresión. 59

Ahora, considere µ(x), µ(x0) ∈ Sym+(p) y Uµ(x0) ∈ Tµ(x0)Sym+(p), se tiene que el trans-

porte paralelo Φµ(x0) está dado por:

Φµ(x0) : Tµ(x0)Sym+(p)→ TIpSym

+(p),

donde Φµ(x0) = Dµ(x0) log(Uµ(x0)). Luego, tomando Uµ(x0) = Logµ(x0)µ(x) ∈ Tµ(x0)Sym+(p),

se tiene que:

Y (x) = Φµ(x0)(Logµ(x0)µ(x)) = log(µ(x))− log(µ(x0)),

de donde µ(x) = exp (log(µ(x0) + Y (x))). Por último, el residual de S respecto a µ(x), sede�ne como εµ(x) = log(µ(x)) − log(µx0) y E[log(S)|X = x] = log(µ(x)) y el modelo deregresión está dado por:

log(S|X) = log(µ(x)) + εµ(x),

con E[εµ(x)] = 0.

4.2.2. Métrica de Frobenius.

Como se mencionó antes, la estructura del problema 4.4 depende de la distancia geodé-sica que se propone sobre la variedad Riemanniana y dicha distancia a su vez dependedel producto interno que se de�ne sobre el espacio tangente. A continuación se hace undesarrollo análogo al elaborado con la métrica log-euclídea.

Según la de�nición 4.1.5, se tiene que dados T1, T2 ∈ Tµ(x)Sym+(p), el producto interno

sobre el conjunto Tµ(x)Sym+(p) está dado por:

〈T1, T2〉 = tr(T1µ(x)−1T2µ(x)−1

)y la geodésica γµ(x)(t, T1) está dada por:

γµ(x)(t, T1) = G(x) exp(G(x)−1T1(G(x)−1)T t

)G(x)T ,

donde µ(x) = G(x)G(x)T . Por otro lado, los mapeos exponencial y logarítmico Rieman-niano están dados por:

1. Expµ(x)(T1) = γµ(x)(1, T1) = G(x) exp(G(x)−1T1(G(x)T )−1

)G(x)T .

2. Logµ(x)(S) = G(x) log(G(x)−1S(G(x)T )−1

)G(x)T

Además, la distancia geodésica está dada por:

Page 74: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

60 4 Regresión PLS. Implementación

d(µ(x), S) = ‖Logµ(x)(S)‖ =

√tr(log2(G(x)−1SG(x)−T )) =

√tr(log2(S−1/2µ(x)S−T/2)),

donde S1/2 es alguna raíz de S. Ahora, considere µ(x), µ(x0) ∈ Sym+(p), con µ(x0) =G(x0)G(x0)T . Para alguna Uµ(x0) ∈ Tµ(x0)Sym

+(p), se tiene que el transporte paraleloΦµ(x0) está dado por:

Φµ(x0)(Uµ(x0)) = G(x0)−1Uµ(x0)G(x0)−T ∈ TIPSym+(p)

De manera sencilla se tiene que:

Y (x) = Φµ(x0)

(Logµ(x0)µ(x)

)= log

(G(x0)−1µ(x)G(x0)−T

),

de donde µ(x) = G(x0) exp(Y (x))G(x0)T .

Cuando se usa el producto interno de Frobenius, se tiene que εµ(x) = log(G(x)−1SG(x)−T

y al usar expansión en series de Taylor para Y (x) en x0, se tiene que:

µ(x) ≈ G(x0) exp

(k0∑i=1

Y (k)(x0)(x− x0)k

)G(x0)T = µ(x, α(x0), k0)

4.3. Modelo de Regresión PLS para Datos Respuestaen el Conjunto Sym+(3).

Suponga que se tienen n matrices de�nidas positivas de orden 3×3 denotadas porMi parai = 1, 2, · · · , n obtenidas a partir de un voxel correspondiente de las matrices de�nidaspositivas normalizadas y reorientadas espacialmente de n individuos. Considere la logtransformación log(Mi) = LiM(j,k)

y un vector de orden 6 dado por:

LiM =(LiM(1,1)

, LiM(1,2), LiM(1,3)

, LiM(2,2), LiM(2,3)

, LiM(3,3)

)T,

donde LiM(j,k)denota la componente (j, k) de la matriz logaritmo de la matriz Mi. Denote

por LM la matriz cuyas �las están conformadas por las LiM y cuyas columnas se denotanpor L(k)

M , para k = 1, 2, · · · , 6.

Suponga además que para cada individuo se observa un conjunto de covariables de inte-rés. Dichas covariables de interés dependen del estudio que se está llevando a cabo; porejemplo, en estudios de imágenes medicas se consideran medidas demográ�cas o clínicas.Comúnmente la información disponible en relación a las covariables es muy grande, por loque generalmente se presentan problemas de multicolinealidad y por otro lado se cuenta

Page 75: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

4.3 PLS para Datos Respuesta en el Conjunto Sym+(p) 61

con pocos individuos disponibles para el análisis de la información.

A continuación se muestra un modelo de regresión lineal para las matrices de�nidas po-sitivas log transformadas:

L(k)M = Xβ + ε, k = 1, 2, · · · , 6.

donde L(k)M es un vector columna de orden n× 1, X es una matriz de orden n× p formado

por las covariables observadas; β es un vector de orden p× 1 formada por los parámetrosa estimar y ε es un vector de errores de orden n× 1.

De manera compacta, se tiene el siguiente modelo:

LMn×6

= Xn×p

Bp×6

+ En×6

donde LM es la matriz cuya i-ésima �la es LiM , X es la matriz de covariables, B la matrizde coe�cientes y E es la matriz de errores. En este modelo se tiene que E[E|X] = 0n×6,Cov[E|X] = Σ6n×6n. Este modelo no asume supuestos distribucionales para las medidasde imágenes.

Sea Θ(6p+n(n+1)

2 )×1el vector de parámetros desconocidos contenidos enB y Σ. Para estimar

Θ(6p+n(n+1)

2 )×1se maximiza la función objetivo:

ln(Θ) = −1

2

n∑i=1

(log|Σ|(L(k),i

M − xiβ)TΣ−1(L(k),iM − xiβ)

), k = 1, 2 · · · , 6,

donde xi es la i-ésima �la de la matriz de covariables X, utilizando el algoritmo iterativopropuesto en Li, Y. (2009).

A continuación se presenta la implementación con datos simulados sobre el conjunto dematrices de�nidas positivas de orden 3×3, Sym+(p)(3). Consideramos que es importantehacer las simulaciones sobre este conjunto pues las matrices de�nidas positivas aparecenen muchas aplicaciones que incluyen imágenes de resonancia magnética por tensor difusión(DT −MRI). Una DT −MRI la cual rastrea la difusión efectiva de las moléculas deagua en cierta región del cerebro, contiene una matriz de�nida-positiva 3 × 3, llamadatensor difusión en cada uno de los voxeles de un volumen de imagen del cerebro. Apartir de los DT's se obtiene información global sobre la conectividad de varias regionescerebrales. Además de la información de conectividad de estas regiones; se ha mostradoque una herramienta apropiada para el entendimiento de ciertos trastornos cerebrales, es lainformación sobre la difusividad del agua en dichas regiones. Los datos obtenidos a partirde DT-MRI, son modelados de manera más apropiada mediante espacios no-lineales, talescomo los espacios simétricos Riemannianos.

Page 76: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

62 4 Regresión PLS. Implementación

4.4. Implementación con Datos Simulados.

A continuación se evalúa el comportamiento de las metodologías de regresión por compo-nentes principales PCR, Métodos de Ridge y Lasso, Correlación Canónica y regresión pormínimos cuadrados parciales PLS mediante conjuntos de datos simulados, comparandolos resultados de predicción de dichas metodologías. Para llevar a cabo las simulacionesse usa el software estadístico R, en particular la librería plsr() que implementa el algorit-mo Kernel para PLS, además la métrica utilizada en las transformaciones es la métricalog-euclídea Arsigny, V. Et al. (2006).

Para llevar a cabo las simulaciones se tienen en cuenta las siguientes características:

1. Presencia de multicolinealidad en la matriz X.

2. Entornos donde n < p y diferentes estructuras de covarianza.

3. Entorno donde n = p.

4. Entorno donde n > p y diferentes estructuras de covarianza.

De esta manera se consideran posibles entornos de simulación tales que las metodologíasmás usuales que permiten resolver el problema de multicolinealidad pueden ser compara-dos en términos predictivos. Los entornos que se tienen en cuenta en las simulaciones sonlos siguientes:

1. En el primer entorno se simulan n = 20 matrices de�nidas positivas sobre el conjuntoSym+(3), p = 15 covariables generadas a partir de una distribución normal multi-variada con media cero y estructura de covarianza dada por Σ = I15 y matriz deerrores E generada a partir de una distribución normal con media cero y estructurade covarianza dada por 0.6I6. En éste entorno se consideran coe�cientes beta dadosen una matriz de orden p× 6 con βik = (1 + 0.1× (k − 1)) para k = 1, 2 · · · , 6.

2. En el segundo entorno se consideran n = 20, p = 15, donde la matriz X se genera apartir de Σ = 0.3I15 + 0.71151T15. En este entorno se usan los mismos coe�cientesbeta del entorno 1.

3. En el tercer entrono se consideran n = 50, p = 50 con Σ = I50. En este entorno se usanuna matriz de errores E análoga a la usada en el entorno 1 y los mismos coe�cientesbeta del entorno 1.

4. En el cuarto entorno se considera n = 30, p = 33 con Σ = I30. En este entorno se usanuna matriz de errores E análoga a la usada en el entorno 1 y los mismos coe�cientesbeta del entorno 1.

5. En el quinto entorno se considera n = 20, p = 22, donde la matrizX es la concatenaciónde dos matrices X1 y X2 que se generan a partir de Σ1 = 0.1I11 + 0.81111T11 yΣ2 = 0.8I11, respectivamente. En este entorno se usan los mismos coe�cientes betadel entorno 1.

Page 77: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

4.4 Implementación con Datos Simulados. 63

Se tiene entonces que en cada uno de los cinco entornos se simulan n observaciones co-rrespondientes a n individuos, a cada uno de los cuales se le asocia una matriz de�nidapositiva de orden 3 × 3 y la medida de p covariables. Como se explicó en la sección 4.3,dadas n matrices de�nidas positivas de orden 3×3 denotadas porMi para i = 1, 2, · · · , n,se procede de la siguiente manera.

1. Se calcula la log transformación log(Mi) = LiM(j,k).

2. Se construye un vector de orden 6 dado por:

LiM =(LiM(1,1)

, LiM(1,2), LiM(1,3)

, LiM(2,2), LiM(2,3)

, LiM(3,3)

)T,

donde LiM(j,k)denota la componente (j, k) de la matriz logaritmo de la matriz Mi.

3. Se construye la matriz Y de orden n× 6 cuyas �las están conformadas por las LiM .Porfacilidad con la notación, se nombra cada columna de la matriz Y por Yi parai = 1, 2, 3, 4, 5, 6.

4. Se construye la matriz X de orden n × p cuyas �las corresponden a las p covariablesasociadas a cada individuo.

5. Se resuelve el modelo Yn×6

= Xn×p

Bp×6

+ En×6

usando las metodologías de regresión por

componentes principales PCR, Métodos de Ridge y Lasso, Correlación Canónica yregresión por mínimos cuadrados parciales PLS.

Para el entorno 1, en la tabla 4.1, se muestra el porcentaje de variabilidad acumulada deX y de Y explicada por cada una de las metodologías PCR y PLS.

1 Comp 2Comps 3Comps 4Comps 5Comps 6Comps 7Comps 8Comps

XPCR 20.96 37.43 50.41 61.16 71.14 78.86 84.61 89.84

XPLS 17.97 31.23 44.88 53.16 60.14 70.19 78.29 83.60

Y1 25.92 68.49 68.60 68.79 77.51 91.22 94.86 95.36

Y1 86.46 94.54 95.21 97.39 97.39 98.07 98.07 98.16

Y2 27.17 61.16 63.22 63.49 76.18 89.59 94.78 94.80

Y2 84.59 94.13 96.28 97.03 97.43 97.49 97.67 97.74

Y3 27.99 64.91 66.58 67.35 80.11 91.54 93.83 94.38

Y3 87.12 95.50 96.85 97.19 98.15 98.54 98.90 99.28

Y4 30.30 61.05 62.34 62.52 73.11 87.77 93.04 93.10

Y4 84.16 92.18 96.16 98.14 98.91 98.95 99.04 99.05

Y5 23.41 67.25 69.07 69.46 80.05 90.75 94.06 94.15

Y5 86.12 95.82 96.09 97.38 98.66 98.69 98.95 99.31

Y6 28.36 60.32 61.75 64.25 78.46 95.05 96.68 96.72

Y6 85.61 95.53 98.23 98.28 98.68 99.28 99.28 99.28

Tabla 4.1: Porcentaje de Variabilidad Acumulada de X y Y Explicada por las Componentes

mediante PCR y PLS.

Page 78: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

64 4 Regresión PLS. Implementación

Como se observa, las componentes PLS explican un mayor porcentaje de variabilidad deY que las componentes PCR. Se tiene que con 2 componentes PLS se explica más del85 % de la variabilidad de Y y más de 25 % de la variabilidad de X.

Por otro lado, en la tabla 4.2 se muestran los porcentajes de variabilidad de X explicadapor cada una de las metodologías PCR y PLS. Como se observa, la metodología PCRexplica más de la variabilidad de X que la metodología PLS, lo cuál siempre sucede.

Comp 1 Comp 2 Comp 3 Comp 4 Comp 5 Comp 6 Comp 7 Comp 8PCR 20.96 16.45 12.99 10.75 9.98 7.72 5.75 5.24PLS 17.97 13.26 13.65 8.28 6.98 10.06 8.09 5.31

Tabla 4.2: Porcentaje de Variabilidad de X Explicada por cada Componente.

De manera grá�ca, a continuación se muestra que la metodología de regresión por mí-nimos cuadrados PLS necesita menos componentes que la metodología de regresión porcomponentes principales PCR y que además la metodología PLS predice mejor que lametodología PCR.

La �gura 4.4 muestra las grá�cas de el número de componentes contra la raíz cuadradadel error cuadrático medio de predicción (RMSEP ) usando validación cruzada (CV ).En dicha �gura se puede observar que PCR necesita al rededor de 7 componentes paraexplicar la mayor parte de la variabilidad de los datos.

Figura 4.4: Número de Componentes vs RMSEP , para PCR

La grá�ca 4.5 muestra las grá�cas de el número de componentes contra la raíz cuadradadel error cuadrático medio de predicción (RMSEP ). En dicha grá�ca se observa que PLS

Page 79: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

4.4 Implementación con Datos Simulados. 65

necesita 5 componentes en la mayor parte de los casos.

Figura 4.5: Número de Componentes vs RMSEP , para PLS

En la �gura 4.6 se muestran las grá�cas de los datos predichos junto con los valoresobservados de las respuestas las cinco metodologías.

Figura 4.6: Datos Predichos junto con Datos Observados para las cinco Metodologías.

Page 80: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

66 4 Regresión PLS. Implementación

Se puede apreciar en ésta grá�ca que los datos predichos por las cinco metodologíassiguen la tendencia de los datos observados, sin embargo, es complicado sacar una con-clusión fuerte solo a partir de la observación. Para reforzar esta apreciación, se muestra acontinuación una tabla con lo cálculos de la raíz del error cuadrático medio de predicciónRMSEP , dado por

RMSEP =

√√√√ m∑i=1

(Yi − Yi

)2

m

con m número de datos analizados; para cada Yi contrastado por medio de cada modelo.

PCR PLS Ridge Lasso Correlación CanónicaY1 1.2504560 0.5869316 1.5143150 2.0022890 1.4355210Y2 1.4801680 0.7262227 1.4933710 1.7539550 1.3891930Y3 1.4241780 0.5923941 1.5666200 2.0853660 1.7227740Y4 1.8771910 0.5511395 1.4493240 2.1350370 1.5073150Y5 1.8170360 0.6834595 2.0679450 2.6808540 2.0714140Y6 1.3105220 0.5004141 1.7565540 2.4891250 2.1526500

Tabla 4.3: Raíz del Error Cuadrático Medio de Predicción para cada Modelo.

Como se puede observar, el mejor modelo en términos predictivos en este entorno, es elmodelo de regresión PLS. A continuación se hace un estudio del entorno de simulación2, análogo al hecho para el entorno 1.

1 Comp 2Comps 3Comps 4Comps 5Comps 6Comps 7Comps 8CompsXPCR 77.67 83.99 86.94 89.71 92.26 94.34 95.91 97.06XPLS 70.59 80.34 84.80 87.75 88.61 90.77 92.58 93.86Y1 0.21 0.69 5.01 13.29 14.50 15.05 17.94 49.15Y1 6.85 51.55 66.33 78.03 91.67 93.81 94.43 95.24Y2 0.33 0.69 4.87 13.08 14.35 14.79 17.46 50.17Y2 7.37 51.16 66.64 78.19 91.35 93.32 93.83 94.84Y3 0.26 0.82 4.99 13.57 14.91 15.29 17.90 50.07Y3 7.16 52.07 66.50 78.27 91.63 93.69 94.13 95.14Y4 0.29 0.81 4.87 13.20 14.57 14.87 18.19 49.81Y4 7.28 51.60 66.28 78.04 90.92 93.18 93.87 95.03Y5 0.27 0.81 5.19 13.24 14.62 14.90 17.79 49.97Y5 7.19 51.72 66.32 78.28 91.92 93.90 94.49 95.48Y6 0.34 0.89 5.24 13.06 14.50 14.80 17.63 48.93Y6 7.42 51.07 65.41 77.32 91.17 93.25 93.90 94.97

Tabla 4.4: Porcentaje de Variabilidad Acumulada de X y Y Explicada por las Compo-nentes mediante PCR y PLS para el entorno 2.

Page 81: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

4.4 Implementación con Datos Simulados. 67

En la tabla 4.4, se muestra que al igual que en el entorno 1, las componentes PLS expli-can un mayor porcentaje de variabilidad de Y que las componentes PCR. Se tiene quetres componentes PLS explican mas del 95 % de la variabilidad de Y y más de 20 % dela variabilidad de X. En la tabla 4.5 se muestran los porcentajes de variabilidad de Xexplicada por cada una de las metodologías PCR y PLS.

Comp 1 Comp 2 Comp 3 Comp 4 Comp 5 Comp 6 Comp 7 Comp 8PCR 77.69 6.30 2.95 2.77 2.54 2.08 1.57 1.14PLS 70.59 9.75 4.46 2.96 0.87 2.16 1.81 1.29

Tabla 4.5: Porcentaje de Variabilidad de X Explicada por cada Componente.

Como sucedió en el entorno 1, la metodología PCR explica más de la variabilidad de Xque la metodología PLS.

Las �guras 4.7 y 4.8 muestran la grá�ca de el número de componentes contra la raízcuadrada del error cuadrático medio de predicción (RMSEP ) usando validación cruzada(CV ). En dichas �guras se puede observar que PCR necesita al rededor de 7 componentespara explicar la mayor parte de la variabilidad de los datos, mientras que PLS necesita 5

Figura 4.7: Número de Componentes vs RMSEP , para PCR.

Page 82: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

68 4 Regresión PLS. Implementación

Figura 4.8: Número de Componentes vs RMSEP , para PLS.

Por otro lado, en la �guras 4.9 se muestran grá�cas de los datos predichos junto con losvalores observados de las respuestas para las cinco metodologías, donde se observa que losdatos predichos por las cinco metodologías siguen la tendencia de los datos observados.

Figura 4.9: Datos Predichos junto con Datos Observados para las cinco Metodologías.

Page 83: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

4.4 Implementación con Datos Simulados. 69

Sin embargo, como sucedió en el entorno de simulación 1, la grá�ca 4.9 se puede prestarpara mal interpretaciones pues el análisis depende solo de la observación subjetiva. Acontinuación se muestra la tabla con lo cálculos de la raíz del error cuadrático medio depredicción para cada Yi contrastado por medio de cada modelo, de manera que podamoshacer conclusiones más fuertes a partir de medidas numéricas.

PCR PLS Ridge Lasso Correlación CanónicaY1 17.65125 4.764276 7.649557 7.515125 11.13729Y2 19.74628 5.527623 9.032871 8.393567 12.43574Y3 21.03039 5.739713 9.011737 9.194512 13.34046Y4 22.88768 6.478766 10.390157 9.915 14.43428Y5 24.79283 6.635963 10.895912 10.652353 15.29213Y6 26.92705 7.577946 12.499813 11.354039 16.98342

Tabla 4.6: Raíz del Error Cuadrático Medio de Predicción para cada Modelo.

A partir de la �gura 4.9 y la tabla 4.6, se concluye que el mejor modelo en términospredictivos, es el modelo de regresión PLS.

En los entornos de simulación 1 y 2 consideramos n < p y dos estructuras de covarianzadiferentes. A continuación consideramos un entrono de simulación donde la estructurade covarianza es la misma para diferentes diferentes tamaños de individuos n, tales quen < p. Para llevar a cabo dicho estudio se tienen en cuenta las siguientes consideraciones.

1. La matriz X se genera a partir de una distribución normal multivariada con mediacero y estructura de covarianza dada por Σ = In y la matriz de errores E se generaa partir de una distribución normal con media cero y estructura de covarianza dadapor 0.6I6. Se consideran coe�cientes beta dados en una matriz de orden p × 6 conβik = (1 + 0.1× (k − 1)) para k = 1, 2, · · · , 6.

2. Se simulan 7 entornos de simulación, todos con la misma estructura de covarianza y conpares de parámetros (n, p) dados por: (20, 15), (25, 15), (30, 15), (35, 15), (40, 15),(45, 15) y (50, 15).

3. Cada modelo se corre 1000 veces, en cada una de dichas corridas se calcula la raízdel error cuadrático medio de predicción y �nalmente en cada modelo se promediandichos estos 1000 errores.

4. Se elabora una �gura compuesta por seis grá�cos, uno para cada Yi con i = 1, 2, 3, 4, 5, 6,donde cada grá�co ilustra el número de individuos versus el promedio de la raíz delerror cuadrático medio de predicción.

Page 84: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

70 4 Regresión PLS. Implementación

A continuación se muestra la �gura descrita en los anteriores pasos, para diferentes ta-maños de individuos n. En esta �gura se puede observar que la metodología de regresiónPLS es la mejor en términos predictivos, puesto que siempre la raíz del error cuadráticomedio de predicción está por debajo en este modelo.

Figura 4.10: Número de Individuos vs RMSEP con los 5 Métodos.

En la �gura 4.10 se tiene que: el modelo de regresión por componentes principales PCRestá representado por el color rojo, el modelo de regresión Ridge por el color azul, elmodelo de regresión Lasso por el color verde, el modelo de regresión correlación canónicapor el color violeta y el modelo de regresión por mínimos cuadrados parciales PLS por elcolor negro.

Como puede observarse en la �gura 4.10, entre las cinco metodologías de regresión, lapeor en términos predictivos es la metodología de regresión PCR, siendo la conocida yusada de todas las metodologías que resuelven el problema de la multicolinealidad. Lasotras metodologías, si bien no se comportan como la metodología de regresión PLS, seobservan estables en términos predictivos.

Claramente, no es su�ciente un solo entorno de simulación donde variamos el tamaño deindividuos n, para sacar una conclusión tan fuertes como: la regresión PLS es la mejormetodología de regresión en términos predictivos; es por esta razón que más adelantemostramos los otros entornos de simulación con la intención de hacer dicha a�rmación demanera más categórica.

Page 85: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

4.4 Implementación con Datos Simulados. 71

A continuación hacemos el estudio del entorno de simulación 3, análogo a el estudio delos anteriores entornos. En este entorno de simulación mostramos como se comportan lascinco metodologías con n = p = 50 y la estructura de covarianza descrita al principiode esta sección, así como entornos de simulación donde se usa la misma estructura decovarianza y diferentes valores de n y p.

En la tabla 4.7, se muestra que al igual que en los entornos anteriores, las componentesPLS explican un mayor porcentaje de variabilidad de Y que las componentes PCR. Setiene que tres componentes PLS explican mas del 95 % de la variabilidad de Y y más de20 % de la variabilidad de X.

N◦Comps 1 2 3 4 5 6 7 8 9 10XPCR 7.67 15.15 21.42 27.01 32.41 37.44 42.29 46.84 51.32 55.33XPLS 5.03 8.78 13.04 17.61 22.10 25.35 29.15 33.87 37.78 40.53Y1 0.29 0.54 11.92 14.82 24.83 27.37 32.83 39.79 39.83 40.05Y1 76.99 92.53 96.66 97.90 98.64 98.97 99.28 99.39 99.50 99.56Y2 0.06 0.26 11.37 14.25 24.31 26.11 31.28 38.39 38.44 38.73Y2 75.99 92.42 95.89 97.21 97.71 98.50 98.80 99.00 99.11 99.44Y3 0.25 0.49 12.64 16.02 25.42 27.95 32.60 40.03 40.11 40.21Y3 77.30 92.28 96.58 97.90 98.54 98.97 99.16 99.20 99.38 99.56Y4 0.13 0.35 11.86 14.59 24.05 26.34 31.74 38.64 38.71 39.00Y4 75.92 92.26 96.64 98.13 98.62 98.96 99.13 99.35 99.58 99.70Y5 0.22 0.49 12.03 14.75 24.38 27.10 31.99 38.94 38.99 39.35Y5 76.18 92.07 96.60 97.95 98.58 98.93 99.21 99.39 99.55 99.65Y6 0.14 0.42 11.89 14.90 24.78 27.18 32.70 39.45 39.51 39.87Y6 77.15 92.88 96.71 97.94 98.52 98.99 99.22 99.39 99.51 99.72

Tabla 4.7: Porcentaje de Variabilidad Acumulada de X y Y Explicada por las Compo-nentes mediante PCR y PLS.

En la tabla 4.8 se muestran los porcentajes de variabilidad de X explicada por cada unade las metodologías PCR y PLS. Como sucedió en el entorno 1, la metodología PCRexplica más de la variabilidad de X que la metodología PLS.

Componente 1 2 3 4 5 6 7 8 9 10PCR 7.67 7.48 6.27 5.59 5.40 5.03 4.85 4.55 4.48 4.00PLS 5.03 3.75 4.26 4.57 4.49 3.25 3.80 4.72 3.91 2.75

Tabla 4.8: Porcentaje de Variabilidad de X Explicada por cada Componente.

La �gura 4.11 muestra las grá�cas de el número de componentes contra la raíz cuadradadel error cuadrático medio de predicción (RMSEP ) usando validación cruzada (CV ).En dicha �gura se puede observar que PCR necesita al rededor de 8 componentes paraexplicar la mayor parte de la variabilidad de los datos.

Page 86: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

72 4 Regresión PLS. Implementación

Figura 4.11: Número de Componentes vs RMSEP , para PCR.

La �gura 4.12 muestra las grá�cas de el número de componentes contra la raíz cuadradadel error cuadrático medio de predicción (RMSEP ) usando validación cruzada (CV ). Endicha �gura se puede observar que PLS necesita 2 componentes para explicar la mayorparte de la variabilidad de los datos.

Figura 4.12: Número de Componentes vs RMSEP , para PLS.

Page 87: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

4.4 Implementación con Datos Simulados. 73

En la �gura 4.13 se muestran grá�cas de los datos predichos junto con los valores ob-servados de las respuestas para las cinco metodologías, donde se observa que los datospredichos por las cinco metodologías siguen la tendencia de los datos observados.

Figura 4.13: Datos Predichos junto con Datos Observados para las cinco Metodologías.

Para terminar, a continuación se muestra la tabla con lo cálculos de la raíz del error cua-drático medio de predicción para cada Yi contrastado por medio de cada modelo.

PCR PLS Ridge Lasso Correlación CanónicaY1 4.887979 0.5342415 1.310832 1.6206994 2.464352Y2 5.424270 0.7592322 1.380233 0.9539525 2.903177Y3 5.721696 0.678418 1.421008 1.3057188 3.024128Y4 6.35685 0.7589142 1.558509 1.2686909 3.334825Y5 6.866349 0.7822355 1.481032 1.7317725 3.474628Y6 7.222695 0.10032 1.71478 1.1613663 3.842692

Tabla 4.9: Raíz del Error Cuadrático Medio de Predicción para cada Modelo.

A partir de las �guras 4.13 y la tabla 4.9, se concluye que el mejor modelo en términospredictivos, es el modelo de regresión PLS.

Como en el caso n < p, se llevan a cabo entornos de simulación donde n = p con la mismaestructura de covarianzas y diferentes números de individuos n. a continuación se describeel procedimiento.

Page 88: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

74 4 Regresión PLS. Implementación

1. La matriz X se genera a partir de una distribución normal multivariada con mediacero y estructura de covarianza dada por Σ = In y la matriz de errores E se generaa partir de una distribución normal con media cero y estructura de covarianza dadapor 0.6I6. Se consideran coe�cientes beta dados en una matriz de orden p × 6 conβik = (1 + 0.1× (k − 1)) para k = 1, 2, · · · , 6.

2. Se simulan 7 entornos de simulación, todos con la misma estructura de covarianza y conpares de parámetros (n, p) dados por: (20, 20), (25, 25), (30, 30), (35, 35), (40, 40),(45, 45) y (50, 50).

3. Cada modelo se corre 1000 veces, en cada una de dichas corridas se calcula la raízdel error cuadrático medio de predicción y �nalmente en cada modelo se promediandichos estos 1000 errores.

4. Se elabora una �gura compuesta por seis grá�cos, uno para cada Yi con i = 1, 2, 3, 4, 5, 6,donde cada grá�co ilustra el número de individuos versus el promedio de la raíz delerror cuadrático medio de predicción.

A continuación se muestra la �gura descrita en los anteriores pasos, para diferentes ta-maños de individuos n. En esta �gura se puede observar que la metodología de regresiónPLS es la mejor en términos predictivos, puesto que siempre la raíz del error cuadráticomedio de predicción está por debajo en este modelo.

Figura 4.14: Número de Individuos vs RMSEP con los 5 Métodos.

En la �gura 4.14 se tiene que: el modelo de regresión por componentes principales PCRestá representado por el color rojo, el modelo de regresión Ridge por el color azul, el

Page 89: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

4.4 Implementación con Datos Simulados. 75

modelo de regresión Lasso por el color verde, el modelo de regresión correlación canónicapor el color violeta y el modelo de regresión por mínimos cuadrados parciales PLS por elcolor negro.

Se puede observar en la �gura 4.14 que entre las cinco metodologías implementadas, lamejor metodología de regresión en términos predictivos es la metodología de regresiónPLS, mientras que la peor metodología de regresión en términos predictivos es la meto-dología de regresión PCR.

A continuación hacemos el estudio del entorno de simulación 4, que es análogo al estudiode los anteriores entornos de simulación. En la tabla 4.10, se muestra que al igual que enel entorno 1, las componentes PLS explican un mayor porcentaje de variabilidad de Yque las componentes PCR. Se tiene que tres componentes PLS explican mas del 95 % dela variabilidad de Y y más de 20 % de la variabilidad de X.

N◦Comps 1 2 3 4 5 6 7 8 9 10XPCR 13.53 24.28 33.28 41.11 48.44 54.86 61.08 66.33 71.29 75.94XPLS 11.15 20.23 27.67 33.68 39.54 44.07 49.12 53.60 58.25 61.90Y1 20.42 47.24 69.53 70.98 71.81 71.82 73.48 77.78 85.31 85.57Y1 85.07 93.38 96.31 97.86 99.12 99.25 99.49 99.50 99.62 99.63Y2 20.06 46.65 67.97 69.56 71.18 71.26 73.92 78.77 87.45 87.54Y2 85.20 94.32 97.34 98.12 98.89 99.52 99.57 99.60 99.68 99.69Y3 18.80 47.51 67.72 68.81 70.28 70.34 72.61 76.63 85.78 85.90Y3 84.40 93.94 96.97 98.65 99.22 99.58 99.63 99.83 99.90 99.92Y4 19.87 48.55 69.24 70.58 71.78 71.83 73.94 78.76 87.55 87.60Y4 85.99 94.90 97.72 98.96 99.40 99.61 99.64 99.64 99.70 99.84Y5 19.62 47.56 68.89 70.13 71.36 71.41 73.03 78.16 86.60 86.79Y5 85.22 94.27 97.16 98.52 99.20 99.43 99.62 99.64 99.76 99.78Y6 19.74 47.61 69.04 70.04 71.28 71.30 73.72 78.14 87.15 87.27Y6 85.58 94.73 97.66 98.80 99.33 99.53 99.63 99.78 99.81 99.88

Tabla 4.10: Porcentaje de Variabilidad Acumulada de X y Y Explicada por las Compo-nentes mediante PCR y PLS.

En la tabla 4.11 se muestran los porcentajes de variabilidad de X explicada por cada unade las metodologías PCR y PLS. Como sucedió en el entorno 1, la metodología PCRexplica más de la variabilidad de X que la metodología PLS.

Componente 1 2 3 4 5 6 7 8 9 10PCR 13.53 10.75 9.00 7.83 7.33 6.41 6.22 5.25 4.96 4.66PLS 11.15 9.08 7.44 6.01 5.86 4.53 5.05 4.48 4.65 3.65

Tabla 4.11: Porcentaje de Variabilidad de X Explicada por cada Componente.

Page 90: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

76 4 Regresión PLS. Implementación

Las �guras 4.15 y 4.16 muestras las grá�cas de el número de componentes contra la raízcuadrada del error cuadrático medio de predicción (RMSEP ). Se puede observar quePCR necesita al rededor de 9 componentes para explicar la mayor parte de la variabilidadde los datos, mientras que PLS necesita al rededor de 5 componentes para explicar lamayor parte de la variabilidad de los datos.

Figura 4.15: Número de Componentes vs RMSEP , para PCR.

Figura 4.16: Número de Componentes vs RMSEP , para PLS.

Page 91: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

4.4 Implementación con Datos Simulados. 77

En la �gura 4.17 se muestran grá�cas de los datos predichos junto con los valores obser-vados de las respuestas, para las cinco metodologías.

Figura 4.17: Datos Predichos junto con Datos Observados para las cinco Metodologías.

Se puede observar que todas las metodologías siguen la tendencia de los datos observa-dos. Para terminar, a continuación se muestra la tabla con lo cálculos de la raíz del errorcuadrático medio de predicción para cada Yi contrastado por medio de cada modelo.

PCR PLS Ridge Lasso Correlación CanónicaY1 3.201197 0.5388887 2.161116 0.5500054 1.87215Y2 3.333337 0.4523601 2.193823 2.06645542 2.039777Y3 3.86018 0.4804413 2.429476 0.46192009 2.004417Y4 4.009459 0.4932187 2.689932 4.53046569 2.254372Y5 4.434356 0.6474308 2.318958 0.24699547 2.171948Y6 4.651769 0.6197044 2.93466 0.07643169 2.646129

Tabla 4.12: Raíz del Error Cuadrático Medio de Predicción para cada Modelo.

Como se puede observar en la grá�ca 4.17 y en la tabla 4.12, la metodología de regresiónPLS es la mejor en términos predictivos.

Page 92: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

78 4 Regresión PLS. Implementación

Para el último entorno de simulación, el entorno de simulación 5, en la tabla 4.13 semuestra que al igual que en los otros entornos, las componentes PLS explican un mayorporcentaje de variabilidad de Y que las componentes PCR.Se tiene que 2 componentesPLS explican casi el 100 % de la variabilidad de Y y más de 65 % de la variabilidad deX.

1 Comp 2Comps 3Comps 4Comps 5Comps 6Comps 7Comps 8CompsXPCR 49.57 61.65 71.01 78.68 83.48 87.66 90.95 93.33XPLS 49.44 58.18 63.76 71.61 77.67 84.97 86.22 90.20Y1 88.52 88.54 95.06 95.83 99.11 99.21 99.22 99.22Y1 91.62 98.91 99.66 99.72 99.86 99.90 99.93 99.93Y2 89.40 89.41 95.53 96.11 99.46 99.54 99.58 99.58Y2 92.40 99.13 99.86 99.90 99.94 99.94 99.96 99.96Y3 89.12 89.21 95.21 95.79 99.45 99.52 99.56 99.56Y3 92.15 98.99 99.82 99.91 99.92 99.93 99.96 99.97Y4 88.84 88.87 95.56 96.21 99.38 99.54 99.56 99.56Y4 91.95 99.23 99.84 99.89 99.94 99.94 99.97 99.98Y5 88.73 88.77 94.94 95.46 99.18 99.29 99.33 99.33Y5 91.78 98.80 99.73 99.88 99.95 99.96 99.98 99.98Y6 88.75 88.78 95.38 96.11 99.31 99.36 99.38 99.38Y6 91.86 99.11 99.77 99.83 99.92 99.95 99.95 99.96

Tabla 4.13: Porcentaje de Variabilidad Acumulada de X y Y Explicada por las Compo-nentes mediante PCR y PLS.

En la tabla 4.14, se muestran los porcentajes de variabilidad de X explicada por cada unade las metodologías PCR y PLS. Como sucedió en los entornos 1 y 2, la metodologíaPCR explica más de la variabilidad de X que la metodología PLS.

Comp 1 Comp 2 Comp 3 Comp 4 Comp 5 Comp 6 Comp 7 Comp 8PCR 49.57 12.08 9.36 7.67 4.80 4.18 3.29 2.38PLS 49.44 8.74 5.58 7.85 6.07 7.29 1.26 3.97

Tabla 4.14: Porcentaje de Variabilidad de X Explicada por cada Componente.

Las �gura 4.18 muestra las grá�cas de el número de componentes contra la raíz cuadradadel error cuadrático medio de predicción (RMSEP ) usando validación cruzada (CV ).En dicha �gura se puede observar que PCR necesita al rededor de 5 componentes paraexplicar la mayor parte de la variabilidad de los datos.

Page 93: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

4.4 Implementación con Datos Simulados. 79

Figura 4.18: Número de Componentes vs RMSEP , para PCR.

Las �gura 4.19 muestra las grá�cas de el número de componentes contra la raíz cuadradadel error cuadrático medio de predicción (RMSEP ). En dicha �gura se puede observar quePLS necesita al rededor de 4 componentes para explicar la mayor parte de la variabilidadde los datos.

Figura 4.19: Número de Componentes vs RMSEP , para PLS.

Page 94: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

80 4 Regresión PLS. Implementación

En las �gura 4.20 se muestran grá�cas de los datos predichos junto con los valores obser-vados de las respuestas, para las cinco metodologías.

Figura 4.20: Datos Predichos junto con Datos Observados para las cinco Metodologías.

Se puede observar que los datos predichos con las cinco metodologías tienen la tenden-cia de los datos observados. Para terminar con el estudio del entorno de simulación 5, acontinuación se muestra la tabla con lo cálculos de la raíz del error cuadrático medio depredicción para cada Yi contrastado por medio de cada modelo.

PCR PLS Ridge Lasso Correlación CanónicaY1 1.849407 0.5290935 1.809127 1.04006 0.5009812Y2 1.999721 0.3813527 1.011486 1.217753 0.6380294Y3 2.222313 0.4656012 2.226277 1.632809 0.5804465Y4 2.304864 0.4704565 2.252231 1.053600 0.5387682Y5 2.694399 0.6520158 2.621099 2.091338 0.7273657Y6 2.684047 0.6531228 2.648936 1.785191 0.656619

Tabla 4.15: Raíz del Error Cuadrático Medio de Predicción para cada Modelo.

Como se puede observar en las grá�cas 4.20 y en la tabla 4.15, la metodología de regre-sión PLS es la mejor en términos predictivos, teniendo en cuenta que en algunos casos lametodología de regresión correlación canónica le compite en algunos casos.

Page 95: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

4.4 Implementación con Datos Simulados. 81

Como en los casos n < p y n = p, se llevan a cabo entornos de simulación donde n > p conla misma estructura de covarianzas y diferentes números de individuos n. A continuaciónmostramos el procedimiento.

1. La matriz X se genera a partir de una distribución normal multivariada con mediacero y estructura de covarianza dada por Σ = In y la matriz de errores E se generaa partir de una distribución normal con media cero y estructura de covarianza dadapor 0.6I6. Se consideran coe�cientes beta dados en una matriz de orden p × 6 conβik = (1 + 0.1× (k − 1)) para k = 1, 2, · · · , 6.

2. Se simulan 7 entornos de simulación, todos con la misma estructura de covarianza y conpares de parámetros (n, p) dados por: (20, 22), (25, 27), (30, 32), (35, 37), (40, 42),(45, 47) y (50, 52).

3. Cada modelo se corre 1000 veces, en cada una de dichas corridas se calcula la raízdel error cuadrático medio de predicción y �nalmente en cada modelo se promediandichos estos 1000 errores.

4. Se elabora una �gura compuesta por seis grá�cos, uno para cada Yi con i = 1, 2, 3, 4, 5, 6,donde cada grá�co ilustra el número de individuos versus el promedio de la raíz delerror cuadrático medio de predicción.

Figura 4.21: Número de Individuos vs RMSEP con los 5 Métodos.

En la �gura 4.21 se tiene que: el modelo de regresión por componentes principales PCRestá representado por el color rojo, el modelo de regresión Ridge por el color azul, el

Page 96: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

82 4 Regresión PLS. Implementación

modelo de regresión Lasso por el color verde, el modelo de regresión correlación canónicapor el color violeta y el modelo de regresión por mínimos cuadrados parciales PLS por elcolor negro.

Se puede observar que el mejor modelo de regresión en términos predictivos, es el modelode regresión por mínimos cuadrados parciales PLS.

Page 97: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

Capítulo 5

Conclusiones y Trabajos Futuros

En esta tesis se hace un estudio de la metodología de regresión por mínimos cuadradosparciales (PLS) aplicada a datos que no viven sobre un Espacio Euclídeo, por mediode dos líneas diferentes: La primera es mediante el uso de variedades Riemannianas, enparticular sobre el conjunto de matrices de�nidas positivas Sym+(p) y la segunda es pormedio del teorema de embebimiento de Rådström, en particular sobre el conjunto demulti intervalos Im. En la primera línea se muestra la implementación de la metodologíaPLS con datos simulados y se compara dicha metodología con las metodologías de regre-sión por componentes principales PCR, análisis y correlación canónico, Ridge y Lasso.Los resultados presentados apoyan la metodología PLS en el sentido que ésta resuelveel problema de la multicolinealidad y además es más e�ciente en términos de predicción.En la segunda línea se hace una propuesta de corte teórico, a manera de trabajo futuro,teniendo en cuenta que para dicho propósito se extiende la regresión lineal polinomial ymúltiple al caso intervalo-valuado.

En la literatura desarrollada hasta la fecha no se encuentra la aplicación de la metodo-logía de regresión por mínimos cuadrados parciales PLS sobre la variedad RiemannianaSym+(p) con datos reales, nosotros tampoco lo hemos hecho debido a la di�cultad deconseguir este tipo de datos. Para trabajos futuros se plantea entonces aplicar la me-todología de regresión por mínimos cuadrados parciales PLS con datos reales sobre elconjunto Sym+(3), relacionados con imágenes cerebrales. Por otro lado, se propone hacerun desarrollo análogo al elaborado con la variedad Riemanniana Sym+(p) sobre otro tipode variedades Riemannianas, como por ejemplo sobre datos funcionales o datos de datosde representación medial axial (m-rep).

En la presente tesis se propone la metodología de regresión por mínimos cuadrados par-ciales PLS sobre el espacio no Euclídeo Im de manera teórica; quedan abiertas investiga-ciones de tipo numérico tanto con datos simulados como con datos reales, que muestrenla potencia de la regresión polinomial y múltiple en el caso intervalo-valuado, así comola regresión PLS con datos de intervalo. Además, dado que existen avances signi�cativosrelacionados con optimización no lineal sobre el conjunto Im y hay propuestas de la me-

83

Page 98: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

84 5 Conclusiones y Trabajos Futuros.

todología de regresión PLS sobre Espacios Euclídeos para el caso no lineal, queda comoproblema abierto proponer la metodología de regresión PLS intervalo-valuada para elcaso no lineal. Por otro lado, queda abierto el problema de desarrollar las metodologías deregresión análisis de correlación canónico, Ridge y Lasso, para el caso intervalo-valuado.

Page 99: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

Apéndice A

Anexo: Elementos de Topología y

Geometría Diferencial

A continuación se hace una revisión sobre las propiedades matemáticas de los objetosgeométricos que se consideran en el trabajo. Dicha revisión se hace necesaria dado quepara estudiar modelos de regresión sobre espacios que no son Euclídeos, se hace necesarioconocer los elementos teóricos necesarios para llevar a cabo mínimas construcciones. Paraprofundizar más alrededor de conceptos de topología algebraica y geometría diferencialse puede consultar por ejemplo Munkres, J.R (1975).

La continuidad de una función real valuada es formulada en términos de intervalos abier-tos, esto es, está dada por medio de la de�nición usual de ε − δ. Una topología de�necuales subconjuntos de un conjunto abierto X son abiertos, de la misma forma que unintervalo abierto. A continuación se formaliza el concepto de conjunto abierto.

A.1. Conceptos de Topología

De�nición A.1.1. Una Topología sobre un conjunto abierto X es una colección τ desubconjuntos de X, tales que cumple las siguientes condiciones:

1. El conjunto vacío φ y el conjunto X están en τ .

2. La unión de una colección arbitraria de elementos de τ también está en τ .

3. la intersección de una colección �nita de elementos de τ también está en τ .

El par (X, τ) se llama Espacio Topológico. Los elementos de τ se llaman conjuntosabiertos.

De�nición A.1.2. Sea (X, τ) un espacio topológico. Un conjunto A ⊆ X es un conjuntocerrado si su complemento es abierto, esto es, A es cerrado si X − A es abierto.

85

Page 100: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

86 A Anexo: Elementos de Topología y Geometría Diferencial

Existen conjuntos abiertos y cerrados al mismo tiempo y también existen conjuntos queno son abiertos ni cerrados.

De�nición A.1.3. Sea (X, τ) un espacio topológico. Una vecindad abierta de x ∈ X,es un abierto U tal que x ∈ U .

De�nición A.1.4. Dado un espacio topológico (X, τ), una base topológica es un con-junto B ⊆ τ tal que todo abierto no vacío U ∈ τ se puede expresar como una unión deelementos de B

De�nición A.1.5. Una Métrica sobre un conjunto X es una función d : X ×X → Rque cumple las siguientes condiciones:

1. d(x, y) ≥ 0.

2. d(x, y) = 0 si y sólo si x = y.

3. d(x, z) ≤ d(x, y) + d(y, z).

El par (X, d) se llama Espacio Métrico.

Mediante la de�nición de distancia en un espacio métrico, se tiene que una base parauna topología sobre X puede ser de�nida como la colección de bolas abiertas de la formaB(x, r) = {y ∈ X : d(x, y) < r} para todo x ∈ X, r ∈ R.

Se introduce el concepto de topología con la intención de generalizar la noción de conti-nuidad de mapeos de espacios euclídeos. A continuación se hace dicha generalización:

De�nición A.1.6. Sean X y Y espacios topológicos. Un mapeo f : X → Y es continuosi para cada conjunto abierto U ⊂ Y , se tiene que el conjunto f−1(U) es abierto en X.

De�nición A.1.7. Sean X y Y espacios topológicos. Un mapeo f : X → Y es unhomeomor�smo si es biyectivo y tanto f como f−1 son continuas. En este caso se diceque X y Y son homeomorfos.

Cuando X y Y son homeomorfos, hay una correspondencia biunívoca tanto entre lospuntos como en los conjuntos abiertos de X y Y , por lo tanto como espacios topológicosX y Y son indistinguibles, lo que signi�ca que cualquier propiedad que se veri�que en elespacio X basado únicamente en la topología de X también es cierto para Y .

De�nición A.1.8. Un espacio topológico X se dice Hausdor� si para cualquiera de dospuntos distintos x, y ∈ X existen conjuntos abiertos disjuntos U y V tales que x ∈ U yy ∈ V .

De�nición A.1.9. Sea X un espacio topológico. Una colección de subconjuntos abiertosO de X se dice que es un cubrimiento abierto, si X =

⋃U∈O

U . Un espacio topológico

se dice compacto, si para todo cubrimiento abierto O de X existe una subcolección �nitade conjuntos de O que cubre a X.

Page 101: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

A.2 Variedades Diferenciales 87

De�nición A.1.10. Una separación de un espacio topológico X es un par de conjuntosdisjuntos U y V tal que X = U ∪ V . Se dice que X es conectado si no existe ningunaseparación de X.

A.2. Variedades Diferenciales

Las variedades diferenciales son espacios topológicos que localmente se comportan comoespacios euclídeos. En la mayoría de las variedades diferenciales al igual que en los espaciostopológicos, es natural que se hable de continuidad, diferenciación, integración, camposvectoriales y ecuaciones diferenciales. A continuación se hace una revisión básica de losconceptos que se necesitan. Para una visión más general de los conceptos de geometríadiferencial, se puede consultar Spivak, M. (1999), Auslander, L. &MacKenzie, R.E. (1963),Milnor, J.W (1997) y Helgason, S. (1978).

De�nición A.2.1. Una variedad topológica es un espacio topológico Hausdor� M conuna base contable tal que para cada p ∈M existe una vecindad U de p que es homeomorfoa Rn para algún natural n; esto es, existe un homeomor�smo x : U → Θ ⊆ Rn, para unabierto Θ en Rn.

En cada punto p ∈M la dimensión n de Rn en la de�nición anterior, es única. Si el enteron es el mismo para cualquier punto en M , entonces M se llama variedad n−dimensional.

A continuación se de�ne la noción de diferenciación de mapeos en variedades. La diferen-ciación de mapeos sobre espacios euclídeos es de�nida como una propiedad local. Aunqueuna variedad es localmente homeomór�ca a un espacio euclídeo, se requiere de más es-tructuras para establecer la diferenciación.Recuerde que sobre un espacio euclídeo, una función f : Rn → R es suave o C∞ si existentodas sus derivadas parciales. Un mapeo o aplicación de espacios euclídeos f : Rn → Rm sepuede pensar como una n−tupla de funciones real valuadas, es decir f = (f1, f2, · · · , fn)y f es suave si cada una de las fi lo es.

Dadas dos vecindades U y V en una variedad M , se dice que dos homeomor�smosx : U → Rn y y : V → Rn estánC∞ relacionados si el mapeo x◦y−1 : y(U∩V )→ x(U∩V )es C∞.

Al par (x, U) se le llama entorno coordenado de p o sistema de coordenadas localesalrededor de p, y se puede considerar como la asignación de un conjunto de coordenadasa los puntos en la vecindad U de p; esto es, a cualquier punto p ∈ U le son asignadaslas coordenadas x1(p), x2(p), · · · , xn(p). Los entornos coordenados son importantes paraescribir expresiones locales para derivadas, vectores tangentes y métricas Riemannianassobre una variedad.

Una colección de entornos coordenados cuyo dominio cubre a M se le llama atlas ; estoes, A = {(xα, Uα) : α ∈ I} es un atlas si M =

⋃α∈I

Uα.

Page 102: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

88 A Anexo: Elementos de Topología y Geometría Diferencial

De�nición A.2.2. Un atlas A sobre una variedad M se dice que es maximal si paracualquier otro atlas A′ sobre M , cualquier entorno de coordenadas locales (x, U) ∈ A′también está en A, esto es, A contiene A′.

De�nición A.2.3. Una estructura suave sobre una variedad M es un atlas maximalA sobre M

La variedad M en conjunto con dicho atlas se denomina una variedad suave.

Teorema A.2.1. Dada una variedad M con un atlas A, existe un único atlas A′ tal queA ⊂ A′.

Considere la función f : M → R sobre una variedad suave M . Se dice que f es unafunción suave si para cualquier entorno de coordenadas locales (x, U) sobre M , se tieneque f ◦ x : U → R es suave.

Un mapeo f : M → N de variedades suaves se dice mapeo suave, si para cada entorno decoordenadas locales (x, U) sobre M y cada entorno de coordenadas locales (y, V ) sobreN , el mapeo y ◦ f ◦ x−1 : x(U) ⊆ Rn → y(V ) ⊆ Rn es un mapeo suave.

Como en el caso de espacios topológicos, se tiene el deseo de determinar cuando dosvariedades suaves son equivalentes, lo que indica que ellas son homeomorfas como espaciostopológicos y que también tienen estructuras suaves.

De�nición A.2.4. Dadas dos variedades suaves M y N , un mapeo biyectivo f : M → Nse llama un difeomor�smo si tanto f como f−1 son mapeos suaves. Se dice en este casoque M y N son difeomorfas.

Dada una variedad M ⊂ Rd, se puede asociar un subespacio lineal de Rd a cada puntop ∈M , llamado espacio tangente en p. El espacio tangente aM en p se denota por TpM yse considera de forma intuitiva como el subespacio lineal que mejor aproxima a M en unavecindad del punto p. Los vectores en el espacio tangente se llaman vectores tangentesen p.

Los vectores tangentes se pueden considerar derivadas direccionales . Considere unacurva suave γ : (−ε, ε)→ M , con γ(0) = p, entonces dada cualquier función f : M → R,la composición f ◦ γ : (−ε, ε)→ R es una función suave y existe la siguiente derivada:

d

dt(f ◦ γ)(0),

esto conduce a una relación de equivalencia ∼ entre las curvas suaves que pasan por pen t = 0; esto es, Cp = {γ : (−ε, ε)→M : εγ > 0, γ(0) = p, γ es diferenciable}. Si γ1 y γ2

son curvas suaves que pasan a través del punto p en t = 0, entonces γ1 ∼ γ2, si para algúnentorno de coordenadas (x, U) de p se cumple que:

Page 103: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

A.2 Variedades Diferenciales 89

d

dt(f ◦ γ1)(0) =

d

dt(f ◦ γ2)(0),

es decir, las curvas son equivalentes si los vectores tangentes en Rn de ambas curvas vis-tas en coordenadas locales coinciden para cualquier función suave f : M → R. Note quef ◦γ1(0) = f(γ1(0)) = f(γ2(0)) = f ◦γ2(0) = p. Ahora, un vector tangente se de�ne comouna de estas clases de equivalencia de curvas.

Se puede mostrar, Auslander, L. & MacKenzie, R.E. (1963), que estas clases de equiva-lencia forman un espacio vectorial que es el espacio tangente TpM , el cual tiene la mismadimensión de M . Dado un sistema de coordenadas locales (x, U) que contiene a p, unabase para el espacio tangente TpM está dada por los operadores derivadas parciales ∂

∂xi,

las cuales son los vectores tangentes asociados con las curvas coordenadas de x.

Un campo vectorial sobre una variedad M es una función que asigna de manerasuave a cada punto p ∈ M un vector tangente Xp ∈ TpM . Este mapeo es suave en elsentido que las componentes de los vectores pueden ser escritas como funciones suaves encualquier sistema de coordenadas locales. Esto es, un campo vectorial es una aplicaciónX : M → TM , tal que π ◦ X = IdM , donde π : TM → M , Xp 7→ π(Xp) = p es laproyección canónica y TM =

⋃p∈M

TpM es la variedad tangente de M .

Un campo vectorial se puede ver como un operador X : C∞(M) → C∞(M), el cualmapea una función suave f ∈ C∞(M) a una función suave Xf : M → M tal quep → Xpf , en otras palabras, la derivada direccional es aplicada en cada punto sobre M ,con C∞ = {f : M → R : f es diferenciable o suave}.

Para dos variedades M y N , un mapeo suave φ : M → N induce un mapeo lineal de losespacios tangentes:

φ∗ : TpM → Tφ(p)N,

dicho mapeo se llama diferencial de φ en p. Esta diferencial está dada por φ∗(Xp)f =Xp(f◦φ), para cualquierXp ∈ TpM y para cualquier función suave f ∈ C∞(M). Un mapeosuave de variedades no siempre induce un mapeo de campos vectoriales, sin embargo unconcepto relacionado se da en la siguiente de�nición:

De�nición A.2.5. Dado un mapeo de variedades suaves φ : M → N , se dice que uncampo vectorial X sobre M y un campo vectorial Y sobre N están φ−relacionados siφ∗(X(p)) = Y (q) es cierto para cada q ∈ N y para cada p ∈ φ−1(q).

Page 104: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

90 A Anexo: Elementos de Topología y Geometría Diferencial

A.3. Geometría Riemanniana

La idea de distancias sobre una variedad es relevante para la de�nición de estadísticassobre variedades. La noción de distancia sobre una variedad se enmarca en la geometríaRiemanniana, la cual se relaciona con la teoría de variedades suaves. Para ver más sobregeometría Riemanniana revisar Milnor, J.W (1963), Boothby, W.M. (1986), Spivak, M.(1999) y (1977).

Recuerde la de�nición de longitud de una curva suave sobre un espacio euclidiano: seaγ : [a, b] → Rd un segmento de curva suave. En cualquier punto t0 ∈ [a, b], la derivadade la curva γ

′(t0) da la velocidad de la curva al tiempo t0. La longitud del segmento de

curva γ está dada por la integral de velocidad de la curva, esto es:

L(γ) =

∫ b

a

‖γ′(t)‖dt.

Esta de�nición de longitud requiere la norma de los vectores tangentes. En variedadesesto se trata por medio de la de�nición de métrica Riemanniana.

De�nición A.3.1. Una métrica Riemanniana sobre una variedad M es una funciónque asigna suavemente a cada punto p ∈M un producto interno 〈., .〉 sobre el espacio tan-gente TpM . Una variedad Riemanniana es una variedad suave dotada de una métricaRiemanniana.

La norma de un vector tangente v ∈ TpM se de�ne como ‖v‖ = 〈v, v〉 12 . Dadas las coor-denadas locales x1, x2, · · · , xn sobre una vecindad de p, los vectores coordenados vi = ∂

∂xi

en p, forman una base para el espacio tangente TpM . La métrica Riemanniana se puedeexpresar en esta base como una matriz n×n denotada por g, llamada el tensor métrico,cuyas entradas están dadas por:

gij = 〈vi, vj〉

Las gij son funciones suaves de coordenadas x1, x2, · · · , xn.

Dado un segmento de curva suave γ : [a, b] → M , la longitud de γ se puede de�nir demanera similar al caso euclideo:

L(γ) =

∫ b

a

‖γ′(t)‖dt,

donde el vector tangente γ′(t) es un vector sobre Tγ(t)M y la norma está dada por lamétrica Riemanniana en γ(t).

Dada una variedad M y una variedad N con métrica Riemanniana 〈., .〉, un mapeoφ : M → N induce una métrica φ∗〈., .〉 sobre M de�nida por:

Page 105: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

A.3 Geometría Riemanniana 91

φ∗〈Xp, Yp〉 = 〈φ∗(Xp), φ∗(Yp)〉

Esta métrica se llama pull-back inducida por φ, ya que ésta mapea la métrica en ladirección opuesta del mapeo φ.

Sobre espacios euclídeos la trayectoria más corta entre dos puntos es una línea recta yla distancia entre los puntos es medida como la longitud de ese segmento de línea recta.Esta noción de trayectoria más corta puede ser extendida a variedades Riemannianasconsiderando el problema de hallar el segmento de curva suave más corto entre dos puntossobre la variedad. Si γ : [a, b] → M es una curva suave sobre la variedad RiemmanianaM con puntos �nales γ(a) = x y γ(b) = y, una variación de γ que mantiene los puntos�nales �jos es una familia α de curvas suaves:

α : (−ε, ε)× [a, b]→M

tal que:

1. α(0, t) = γ(t),

2. α(s0) : t 7→ α(s0, t), es un segmento de curva suave para s0 ∈ (−ε, ε),

3. α(s, a) = x y α(s, b) = y para todo s ∈ (−ε, ε).

La trayectoria suave más corta entre los puntos x, y ∈ M puede ser vista como hallarun punto crítico para la función longitud, donde la longitud de α se considera como unafunción de s. La trayectoria γ = α(0) es una trayectoria crítica para L si:

dL(α(s))

ds= 0.

Resulta más fácil trabajar la trayectoria crítica del funcional energía, el cual está dadopor:

E(γ) =

∫ b

a

‖γ′‖2dt

Se puede probar, Spivak, M. (1999) que una trayectoria crítica para E también es críticapara L. De manera recíproca, una trayectoria crítica para L, una vez parametrizada deforma proporcional a la longitud de arco, es una trayectoria crítica para E. Por tanto, alasumir curvas que están parametrizadas proporcionalmente a la longitud de arco, no haydiferencia entre curvas con longitud mínima y aquellas con mínima energía. Una trayec-toria crítica del funcional E se llama una geodésica.

Dado un grá�co (x, U) una curva geodésica γ ⊂ U se puede escribir en coordenadas localescomo γ(t) = (γ1(t), γ2(t), · · · , γn(t)). Usando algún sistema de coordenadas locales, γcumple la siguiente ecuación diferencial, Spivak, M. (1999):

Page 106: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

92 A Anexo: Elementos de Topología y Geometría Diferencial

d2γkdt2

= −n∑

i,j=1

Γki,j(γ(t))dγi

dt

dγj

dt

A Γkij se les llama los símbolos de Christo�el y se de�nen de la siguiente manera:

Γkij =1

2

n∑l=1

gkl(∂gjl∂xi

+∂gil∂xj− ∂gij∂xl

),

donde gij denota las entradas de la matriz inversa g−1 de la métrica Riemanniana.

Dados dos puntos sobre una variedad Riemanniana no hay garantía que exista una geo-désica entre ellos. También pueden existir varias geodésicas uniendo los puntos, es decir,no hay garantía de que la geodésica sea única. Además, una geodésica no tiene que serun mínimo global de la longitud funcional, esto es, pueden existir geodésicas de diferenteslongitudes entre los mismos puntos.

La idea de mínimo global de la longitud, lleva a la de�nición de distancia métrica ddada por d : M ×M → R. esta distancia métrica se de�ne como:

d(p, q) = Inf {L(γ) : γ es una curva suave entre p y q}

Si existe una geodésica entre los puntos p y q que cumple esta distancia, esto es, siL(γ) = d(p, q) entonces a γ se le llama geodésica minimal . Las geodésicas minimalesexisten bajo ciertas condiciones.

De�nición A.3.2. Una variedad Riemmaniana M se dice que es completa si cualquiersegmento geodésico γ : [a, b]→M se puede extender a una geodésica desde el conjunto delos números reales a M .

Teorema A.3.1. Hopf-Rinow

Si M es una variedad Riemanniana completa y conectada, entonces la distancia métricad(., .) inducida sobre M es completa. Además entre cualquiera dos puntos sobre M existeuna geodésica minimal.

Dadas las condiciones iniciales γ(0) = p y γ′(0) = v, la teoría de ecuaciones diferencialesparciales de segundo orden garantiza la existencia de una única solución a la ecuación dela de�nición de γ, al menos localmente. Así, existe una única geodésica γ con γ(0) = p yγ′(0) = v de�nida en algún intervalo (−ε, ε). Cuando la geodésica γ existe en el intervalo[0, 1], el mapa exponencial Riemanniano en el punto p se de�ne así:

Expp : TpM →M

v → Expp(v) = γ(1)

Page 107: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

A.4 Grupos de Lie 93

Si M es una variedad completa entonces el mapa exponencial Riemanniano está de�nidopara todos los vectores v ∈ TpM .

Teorema A.3.2. Dada una variedad Riemmaniana M y un punto p ∈ M , el mapaExppM es un difeomor�smo sobre alguna vecindad U ⊆ TpM que contiene el cero.

Este teorema implica que el mapa exponencial Expp tiene una inversa de�nida por lomenos sobre una vecindad Expp(U) de p, donde U es el mismo que en el anterior teorema.A esta inversa se le llama el mapa logarítmico Riemanniano y lo de�nimos como sigue:

Logp : Expp(U) ⊆M → TpM

X → Logp(X) = v

De�nición A.3.3. Una Isometría es un difeomor�smo φ : M → N de variedadesRiemannianas que preserva la métrica Riemanniana. Es decir, si 〈., .〉M y 〈., .〉N son lasmétricas para M y N respectivamente, entonces φ∗〈., .〉M = φ∗〈., .〉N

De la de�nición anterior concluimos que una isometría preserva longitudes de curvas; estoes, si c es una curva suave sobre M , entonces la curva φ ◦ c es una curva de la mismalongitud sobre N . Además, la imagen de una geodésica bajo una isometría es nuevamenteuna geodésica.

A.4. Grupos de Lie

El conjunto de todas las posibles traslaciones del espacio euclídeo Rn es nuevamente elespacio Rn. Un punto p ∈ Rn es transformado por el vector v ∈ Rn mediante la sumap + v. Esta transformación tiene una única transformación inversa, llamada traslaciónpor el vector negativo −v. La operación de traslación es un mapeo suave del espacio Rn.La composición de las dos traslaciones mencionadas anteriormente también es un mapeosuave. Un conjunto de transformaciones con estas propiedades, es decir, una variedadsuave con operaciones de grupo suaves, se conoce como un grupo de Lie. Muchas otrastransformaciones de interés de espacios euclídeos también son grupos de Lie, entre lascuales están las rotaciones, las re�exiones y magni�caciones. Sin embargo los grupos deLie aparecen mas generalmente como transformaciones suaves de variedades.

De�nición A.4.1. Un grupo es un conjunto G dotado de una operación ⊗ tal que:

1. Para todo x, y, z ∈ G, se satisface (x⊗ y)⊗ z = x⊗ (y ⊗ z).

2. Existe un e ∈ G, tal que para todo x ∈ G se satisface x⊗ e = e⊗ x = x.

3. Para todo x ∈ G, existe x−1 ∈ G tal que se satisface x⊗ x−1 = x−1 ⊗ x = e.

Como se mencionó antes, un grupo de Lie le da la estructura de variedad suave a un grupo.

Page 108: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

94 A Anexo: Elementos de Topología y Geometría Diferencial

De�nición A.4.2. Un grupo de Lie G es una variedad suave que también forma ungrupo, donde las dos operaciones de grupo multiplicación e inversa son mapeos suaves devariedades. Esto es:

Multiplicación : G×G→ G

(x, y) 7→ x⊗ y

Inversa : G→ G

x 7→ x−1

son mapeos suaves de variedades.

Dado un punto y sobre un grupo de Lie G, es posible de�nir dos difeomor�smos:

Multiplicación por izquierda : G→ G

x 7→ yx

Multiplicación por derecha : G→ G

x 7→ xy

Un campo vectorialX sobre un grupo de Lie G, se llama invariante a izquierda si dichocampo es invariante bajo la multiplicación a izquierda, esto es, Ly⊗X = X para cualquiery ∈ G. Los campos vectoriales invariantes a derecha se de�nen de manera análoga. Uncampo vectorial invariante a izquierda es únicamente de�nido mediante sus valores sobreel espacio tangente en la identidad; es decir, en TeG.

Recuerde que los campos vectoriales sobre G pueden ser vistos como operadores sobreel espacio de funciones suaves, C∞(G) = {f : G→ R : f es suave o diferenciable}. Por lotanto dos campos vectoriales X e Y pueden ser compuestos para formar otro operadorXY sobre C∞(G). Sin embargo el operador XY no necesariamente es un campo vectorial.Pero el operador XY −Y X si es un campo vectorial sobre G. Esto da lugar a la de�nicióndel corchete de Lie.

De�nición A.4.3. Sean X e Y campos vectoriales sobre G. El corchete de Lie entreX e Y que se denota por [X, Y ] se de�ne por:

[X, Y ] = XY − Y X

A continuación se de�ne el concepto de álgebra de Lie.

De�nición A.4.4. Una álgebra de Lie es un espacio vectorial dotado de un productobilineal [., .] : V × V → V llamado corchete de Lie que cumple:

1. [X, Y ] = −[Y,X].

Page 109: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

A.4 Grupos de Lie 95

2. Para todo X, Y , Z ∈ V se cumple [[X, Y ], Z] + [[Y, Z], X] + [[Z,X], Y ] = 0.

El espacio tangente de un grupo de Lie G, que se denota por g, forma una álgebra de Lie.El corchete de Lie sobre g es inducido mediante el corchete de Lie sobre el correspondientecampo vectorial invariante a izquierda. Si X e Y son dos vectores en g, entonces sean X eY los únicos campos vectoriales invariante a izquierda correspondientes sobre G, entoncesel corchete de Lie está dado por:

[X, Y ] = [X, Y ](e)

El corchete de Lie proporciona una prueba para saber si el grupo de Lie G es conmutativo.Un grupo de Lie es conmutativo si y sólo si el corchete de Lie sobre las correspondienteálgebra de Lie g es cero, esto es, si [X, Y ] = 0 para todo X e Y en g.

A.4.1. Mapa Exponencial y Logarítmico de Grupos de Lie

De�nición A.4.5. Un mapeo de grupos de Lie φ : G1 → G2 se llama un homeomor-

�smo de grupos de Lie, si es un mapeo suave y un homeomor�smo de grupos; esto es,φ(e1) = e2 cuando e1 y e2 son los respectivos elementos identidad de G1 y G2 respectiva-mente y φ(gh) = φ(g)φ(h), para todo g, h ∈ G1

La imagen de un homeomorfísmo de grupos de Lie h : R → G, se llama un subgrupo

uni-paramétrico. Un subgrupo uni-paramétrico es al mismo tiempo una curva

suave y un subgrupo de G. Esto no signi�ca que cualquier subgrupo uni-paramétricoes un subgrupo de Lie de G. Existe una correspondencia biunívoca entre el álgebra de Liey los subgrupos uni-paramétricos.

Teorema A.4.1. Sea g el álgebra de Lie de un grupo de Lie G. Dado cualquier vectorX ∈ g, existe un único homeomor�smo de grupos de Lie hX : R→ G, tal que h

′X(0) = X.

Un mapa exponencial de grupos de Lie, exp : g→ G se de�ne como sigue:

exp(X) = hX(1)

A.4.2. Métricas Bi-Invariantes

De�nición A.4.6. Una métrica Riemanniana 〈., .〉 sobre un grupo de Lie G, se dice quees una métrica Bi-Invariante si es invariante tanto bajo multiplicación a izquierdacomo a derecha, es decir, R⊗g 〈., .〉 = L⊗g 〈., .〉 = 〈., .〉 para todo g ∈ G.

Teorema A.4.2. Para un grupo de Lie G con una métrica Bi-Invariante el mapa expo-nencial de grupo de Lie coincide con el mapa exponencial Riemanniano en la identidad,esto es, para cualquier vector tangente X ∈ g se tiene:

exp(X) = Expe(X)

Page 110: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

96 A Anexo: Elementos de Topología y Geometría Diferencial

Usando la inversa a izquierda de la métrica Riemanniana, cualquier geodésica en unpunto g ∈ G se puede escribir como la multiplicación a izquierda de una geodésica en laidentidad. Esto es, la geodésica γ con condición inicial γ(0) = g y γ

′(0) = Lg⊗(X) está

dada por:

γ(t) = g exp(tX)

Teorema A.4.3. Un grupo de Lie compacto G tiene una métrica Bi-Invariante.

A.4.3. Espacios Simétricos

Un espacio simétrico Riemanniano es una variedad conectada M tal que en cadapunto de M el mapeo que regresa geodésicas a través de ese punto es una isometría. Al-gunos ejemplos comunes de espacios simétricos son los espacios euclidianos Rn, esferas Sn

y espacios hiperbólicos Hn. Los espacios simétricos y los métodos para calcular geodésicasy distancias sobre ellas, aparecen de forma natural a partir de ciertas acciones de gruposde Lie sobre variedades.

Antes de de�nir lo que es un espacio simétrico, es necesario dar algunas de�nicionespreliminares acerca de mapeos de conjuntos. Sea X y φ cualquier mapeo de X en simismo. Un punto x ∈ X se llama punto �jo de φ, si φ(x) = x. El mapeo φ se llamainvolutivo si φ no es el mapeo identidad pero su cuadrado si lo es, esto es, φ ◦ φ = Id.

De�nición A.4.7. Un espacio simétrico es una variedad Riemanniana conectada Mtal que en cada punto p de M existe una isometría involutiva φp : M →M que tiene a pcomo un punto �jo aislado.

El término aislado signi�ca que existe una vecindad U de p tal que p es el único punto enU que es un punto �jo de φp. Esta de�nición es difícil de intuir, aunque es su�ciente paraimplicar algunas propiedades importantes de espacios simétricos.

Teorema A.4.4. Si un espacio simétrico Riemanniano es completo, y si φp es una isome-tría involutiva deM , entonces φp es una re�exión del espacio tangente TpM , es decir,φp(X) = −X y φp regresa geodésicas a través de p, es decir φp(Exp(X)) = Expp(−X) paratodo x ∈ TpM tal que dicha geodésica exista.

A.4.4. Acciones de Grupos de Lie

De�nición A.4.8. Dada una variedad suave M y un grupo de Lie G, una acción de

grupo suave de G sobreM , es una mapeo suave G×M →M , de�nido como (g, p) 7→ g.p,tales que para todo g, h ∈ G y todo p ∈M se cumple que:

1. e.p = p.

Page 111: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

A.4 Grupos de Lie 97

2. (g.h).p = (g.(h.p)).

La acción de grupo se podría pensar como una transformación de la variedad M , de lamisma forma que las matrices son transformaciones del espacio euclidiano.

La órbita de un punto p ∈ M se de�ne como G(p) = {g.p : g ∈ G}. En el caso queM tenga una sola órbita, entonces a M se le llama un espacio homogéneo y en estecaso se dice que la acción de grupo es transitiva . El subgrupo de Isotropía de p se de-�ne como Gp = {g ∈ G : g.p = p}, es decir, Gp es el subgrupo de G que deja �jo al punto p.

Sea H un subgrupo de Lie cerrado del grupo de Lie G. La cerradura izquierda de unelemento g ∈ G se de�ne como gH = {gh : h ∈ H}. El espacio de todas estas cerradurasse denota por G/H y es una variedad suave. Existe una biyección natural G(p) ∼= G/Gp,dada por el mapeo, g.p 7→ gGp.

Sea M un espacio simétrico y p ∈M , un punto base arbitrario. Siempre se puede escribira M como un espacio homogéneo M = G/Gp, donde G es un grupo conectado de isome-trías de M y el subgrupo de isotropía Gp es compacto. El hecho que G es un grupo deisometrías signi�ca que d(p, q) = d(g.p, g.q), para todo p, q ∈M y g ∈ G.

Un elemento g ∈ G induce un mapeo suave φg : M →M vía la acción de grupo, de�nidocomo φg(p) = g.p. Este mapeo también tiene inversa suave φg−1 . Por lo tanto φg es undifeomor�smo.

De�nición A.4.9. Dada una acción de grupo de Lie G sobre una variedad M , unamétrica Riemanniana G-invariante 〈., .〉 sobre M es una métrica tal que el mapeoφg es una isometría para toda g ∈ G.

A.4.5. Espacios Simétricos como Grupos de Lie Cocientes

El siguiente teorema da un criterio para que una variedad posea una métrica G-invariante.

Teorema A.4.5. Tome un grupo de Lie G que actúa transitivamente sobre una variedadM . Si para algún punto p ∈M el subgrupo de isotropía Gp es un subgrupo de Lie compactoconectado de G, entonces M tiene una métrica G-invariante.

Los espacios simétricos aparecen naturalmente a partir de espacios homogéneos con mé-tricas G-invariantes, como lo muestra el siguiente teorema.

Teorema A.4.6. Suponga que G, M y p cumplen las condiciones del teorema A.4.5. Siα : G→ G es un automor�smo involutivo, esto es un isomor�smo de G en si mismo, conun conjunto �jo Gp, entonces M es un espacio simétrico.

El recíproco de este teorema también es cierto.

Page 112: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

98 A Anexo: Elementos de Topología y Geometría Diferencial

Teorema A.4.7. Si M es un espacio simétrico y p es cualquier punto de M , entoncesM es difeomorfo al grupo de Lie cociente G/Gp, donde G = I0(M) es el componenteconectaod del grupo de Lie de isometrías de M y Gp es el subgrupo de Lie compacto de Gque deja al punto p �jo. Además existe un automor�smo involutivo α : G → G que deja�jo a Gp.

Teorema A.4.8. Un grupo de Lie conectado G con métrica Bi-Invariante es un espaciosimétrico.

Las geodésicas sobre un espacio simétricoM = G/Gp, son calculadas a través de la acciónde grupo. Debido a que G es un grupo de isometrías que actúa transitivamente sobre M ,es su�ciente considerar únicamente geodésicas iniciando en el punto base p. Para un puntoarbitrario q ∈ M , las geodésicas que inician en q son de la forma g.γ, donde g = g.q y γes una geodésica con γ(0) = p. Las geodésicas son la imagen de la acción de un subgrupouniparamétrico de G que actúa sobre el punto base p, como se enuncia en el siguienteteorema.

Teorema A.4.9. Si M es un espacio simétrico con métrica G-invariante, como en elteorema A.4.6, entonces una geodésica γ que inicia en el punto p ∈M , es de la forma:

γ(t) = exp(tX).p

donde X es un vector sobre el álgebra de Lie g.

Page 113: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

Apéndice B

Anexo: Teorema de Rådström

Los teoremas de embebimiento son una herramienta muy útil en el estudio del álgebra yla topología algebráica, el sentido práctico nació con el álgebra, pero su uso se extendiópor todas las áreas de la matemática. Existen resultados de suma importancia que sondesarrollados en Fernandez (2008) y que están basados en Rådström (1953). El tema deéste artículo fue planteado para otras aplicaciones, pero Banks y Jacobs Banks, H. T. &Jacobs, M. Q. (1970) usaron este resultado para crear un cálculo diferencial para lo quedenominaron multifunciones, además de otras dos formas de generar la diferencial.

Desde la teoría del análisis convexo se tiene que para un espacio topológico lineal realM , si S y R son subconjuntos convexos en M y si λ es un número real, los subconjuntosS + R y λS están bien de�nidos y son convexos en M . Se entiende por S + R y λS,los conjuntos S + R = {z|z = x+ y, x ∈ S, y ∈ R} y λS = {z|z = λx, x ∈ S}. Estasoperaciones satisfacen para S, R, Z ∈M y λ, µ ∈ R las siguientes propiedades:

1. (S +R) + Z = S + (R + Z).

2. S +R = R + S.

3. λ (S +R) = λS + λR.

4. λ (µS) = (λµS).

5. 1S = S.

Así, el conjunto de todos los subconjuntos convexos de M es un semigrupo conmutativobajo la adición. Si la situación hubiera sido tal que no sólo fuera un semigrupo sino tambiénun grupo, y además se diera que (λ+ µ)S = λS + µS, entonces el conjunto de todos lossubconjuntos convexos podría haber sido un espacio vectorial. Sin embargo, esto es ciertosólo si λ y µ tienen el mismo signo, en particular si ambos son positivos. A continuaciónse describen las condiciones bajo las cuales un semigrupo conmutativo bajo la operaciónadición, puede ser embebido en un grupo y bajo cuales condiciones la multiplicaciónpor escalar puede ser extendida en este grupo de tal manera que el sistema resultantesea un espacio vectorial. Las condiciones aparecen en Rådström (1953) y conforman un

99

Page 114: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

100 B Anexo: Teorema de Rådström

método clásico para extender semigrupos conmutativos, el cual por ejemplo, es usado enla construcción de los números enteros.A continuación se enuncia el teorema que muestra las condiciones bajo las cuales se realizala extensión antes mencionada.

Teorema B.0.1. Teorema de Extension de Semigrupo

1. Sea M un semigrupo conmutativo en el cual la ley cancelativa se cumple; esto es, paraS, R, Z ∈M , se tiene que:

1. (S +R) + Z = S + (R + Z),

2. S +R = R + S,

3. si S + Z = R + Z entonces S = R.

Entonces M puede ser embebido en un grupo N . Además N puede ser elegido mi-nimal en el siguiente sentido: Si G es cualquier grupo en el cual M es embebido,entonces N es isomor�co a un subgrupo de G que contiene a M .

2. Si existe una multiplicación por escalar real no negativo en M y satisface:

4. λ (S +R) = λS + λR,

5. (λ+ µ)S = λS + µS,

6. λ (µS) = λµS,

7. 1S = S,

entonces una multiplicación por escalar real puede ser de�nida en N tal que conviertea N en un espacio vectorial y así para λ ≥ 0 y S ∈M el producto λS coincide conel dado en M .

3. Si además una métrica d (S,R) esta dada en M y satisface que:

8. d (S + Z,R + Z) = d (S,R),

9. d (λS, λR) = λd (S,R),

10. S +R y λS son operaciones continuas en la topología inducida por d en M ,

entonces una métrica puede ser de�nida en N y así convierte a N en un espaciovectorial normado y es tal que si S, R ∈ M , la distancia entre S y R es igual ad (S,R).

Los siguientes resultados son fundamentales tanto para el teorema de embebimiento deRådström, enunciado con la métrica dH ; como para su aplicación sobre el conjunto Im,con un métrica de�nida en dicho conjunto y que cumple con las mismas propiedades dela métrica dH en su enunciado, además de ser equivalente a la métrica dH .

Lema B.0.1. Sean S,Z y R conjuntos dados en un espacio lineal normado real. Supongaque Z es cerrado y convexo, R es acotado, y que S +R ⊂ Z +R, entonces S ⊂ Z.

Page 115: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

101

La invarianza de la metrica de Hausdor� es dada a través del siguiente lema.

Lema B.0.2. Sean S y Z conjuntos convexos en un espacio lineal normado M . Tambiénsuponga que S+λE y Z+λE son cerrados para todo λ ≥ 0, donde E es la esfera unidad.Sea R cualquier conjunto cerrado en M . Entonces dH (S,Z) = dH (S +R,Z +R).

Combinando los resultados anteriores, Rådström probó en Rådström (1953), lo que ahorase denomina el teorema de embebimiento de Rådström y que se enuncia a continuación.

Teorema B.0.2. Teorema de Extension de Rådström.

Sea M un espacio lineal normado real, si L cualquier espacio de puntos los cuales sonconjuntos cerrados,acotados y convexos en M , el cual tiene las siguientes propiedades:

1. L es cerrado bajo la adicción y multiplicación por escalar no negativo,

2. Si R ∈ L y S es la esfera unitaria de M , entonces R + S es cerrado,

3. L es métrizado por la métrica de Hausdor�,

entonces, L puede ser embebido como un cono convexo en un espacio normado real N detal manera que:

1. El embebimiento es isométrico.

2. La adición en L induce la adición en N .

3. La multiplicación por escalar no negativo en L induce la correspondiente multiplicaciónpor escalar no negativo en N .

Además, N puede ser elegido minimal en el siguiente sentido: Si H es cualquier espaciolineal normado real, en el cual L está embebido en el sentido anterior, entonces H contieneun subespacio que contiene a L y es isomorfo a N .

Son conjuntos que satisfacen las condiciones impuestas sobre L: El conjunto de todos losconjuntos convexos compactos de dimensión �nita y El conjunto de todos los conjuntosconvexos y compactos.

Page 116: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

102 B Anexo: Teorema de Rådström

Page 117: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

Apéndice C

Anexo: Multi-Intervalos y

Multi-Matrices

A continuación se presentan los elementos preliminares relacionados con intervalo vectorese intervalo matrices, dado que el propósito del presente trabajo es proponer la metodologíade regresión PLS para el caso donde las variables explicativas y las variables respuesta sonconformadas por intervalos, no por números. Aquí se presentan los elementos algebraicosfundamentales para que este trabajo sea autocontenido.

C.1. El conjunto I

El conjunto I y su estructura algebraica y analítica es presentada en Wu, H.C. (2007)y Moore Et al. (2009) para el estudio del problema de optimización mono-objetivo bajoincertidumbre.

El conjunto I se de�ne como:

I = {I ⊆ R : I intervalo cerrado, acotado y convexo}

Si A ∈ I entonces A =[aL; aU

], donde aL ≤ aU y los superíndices L y U provienen de sus

correspondientes palabras en inglés Lower y Upper, para simbolizar el extremo inferior yel extremo superior del intervalo, ambos extremos deben ser �nitos.

Si A,B ∈ I , con A =[aL; aU

]y B =

[bL; bU

], entonces se de�ne la igualdad entre estos

objetos de la siguiente manera:

A = B si y sólo si aL = bL y aU = bU

En I se pueden de�nir las siguientes operaciones algebraicas:

Sean A,B ∈ I y α ∈ R, con A =[aL; aU

]y B =

[bL; bU

],

103

Page 118: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

104 C Anexo: Multi-Intervalos y Multi-Matrices

1. Adición en I:

A+B =[aL + bL; aU + bU

]2. Multiplicación por un escalar en I

αA =

{[αaL;αaU

]Si α ≥ 0[

αaU ;αaL]Si α < 0

Con estas operaciones en I es importante hacer notar que: Respecto de la operación +, elconjunto I satisface las propiedades: clausurativa, conmutativa, asociativa y modulativa,además se cumple la ley cancelativa, pero no es un espacio vectorial ya que con la operaciónalgebraica + los elementos no siempre tienen inverso aditivo.

Adicionalmente, otra operación en el conjunto I, es la diferencia de Hukuhara, que sede�ne de la siguiente manera:

De�nición C.1.1. Sean Kc (Rm) = {C ⊆ Rm : C es conjunto compacto y convexo} y A,B ∈ Kc (Rm), si existe C ∈ Kc (Rm) tal que A = B+C, entonces C se llama la diferenciade Hukuhara, denotada por C = AB.

Al aplicar la de�nición C.1.1 en el conjunto I, se tiene que con A =[aL; aU

], B =

[bL; bU

]en I, la diferencia de Hukuhara entre A y B si existe, es el intervalo C =

[cL; cU

]el cual

está de�nido por C =[aL − bL; aU − bU

].

Ahora, si se de�ne la longitud de un intervalo A =[aL, aU

]∈ I, denotada por l (A) como

l (A) = aU − aL, se obtiene el siguiente resultado.

Proposición C.1.1. Sean A =[aL; aU

]y B =

[bL; bU

]∈ I, entonces A B existe si y

sólo si l (A) ≥ l (B).

La prueba de la anterior proposición se puede encontrar en Banks, H. T. & Jacobs, M.Q. (1970).

Por otra parte, al conjunto I también se le dota de una métrica, llamada la métrica deHausdor� (1914) que lo hace un espacio métrico completo. Para X e Y , subconjuntos deun espacio métrico E, se tiene que:

dH (X, Y ) = max

{supx∈X

ınfy∈Y‖x− y‖ , sup

y∈Yınfx∈X‖x− y‖

}donde ‖ · ‖ es la distancia de�nida en el espacio métrico (E, ‖ · ‖). Las pruebas sobreestas a�rmaciones se pueden encontrar en Wu, H.C. (2007), Alefeld, G. & Hersberger, J.(1983), Banks, H. T. & Jacobs, M. Q. (1970), Moore Et al. (2009).

Page 119: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

C.1 El conjunto I 105

En particular, la norma Housdor� induce una métrica para el conjunto Im que puede serexpresada de la siguiente manera: Sean A =

[aL; aU

]y B =

[bL; bU

], la métrica Housdor�

dH(·, ·) en I, está dada por:

dH(A,B) = max{|aL − bL|, |aU − bU |

}.

Dado es espacio métrico (I, dH(·, ·)), tiene sentido hablar de los conceptos de límite y deconvergencia.

De�nición C.1.2. Sean {An} una sucesión de intervalos en I y A ∈ I. Se dice que lasucesión de intervalos {An} converge al intervalo A y se escribe lım

n→∞An = A, si para todo

ε > 0 existe N ∈ N tal que para n ≥ N , se tiene que dH(An, A) < ε.

Lema C.1.1. La convergencia en el conjunto I se puede reducir a la convergencia en Ren el siguiente sentido: lım

n→∞An = A si y sólo si lım

n→∞aLn = aL y lım

n→∞aUn = aU .

En el conjunto I toma sentido el concepto de límites y convergencia de funciones. Enprimer lugar, se da a continuación el concepto de función intervalo-valuada.

De�nición C.1.3. La función f : Rn → I de�nida en el espacio Euclídeo Rn es llamadafunción intervalo-valuada. Ésta función puede ser escrita como f(x) =

[fL(x), fU(x)

],

donde fL y fU son funciones real-valuadas de�nidas en Rn tales que fL ≤ fU para todox ∈ Rn.

A continuación se presenta la de�nición de límite de una función intervalo valuada.

De�nición C.1.4. Sean c ∈ Rn, A ∈ I y f una función intervalo-valuada. El límite def cuando x tiende a c es A y se escribe lım

x→cf(x) = A, si y sólo si para todo ε > 0 existe

δ > 0 tal que para ‖x− c‖ < δ, se tiene dH(f(x), A) < ε.

El límite de funciones intervalo-valuadas se puede reducir al límite de funciones real-valuadas como se muestra en el siguiente teorema.

Teorema C.1.1. lımx→c

f(x) = A si y sólo si lımx→c

fL(x) = aL y lımx→c

fU(x) = aU .

Sin lugar a dudas, la diferenciación es uno de los conceptos clave en la optimización,porque las cualidades de las derivadas de una función proporcionan información muyrelevante relacionada con los mínimos y valores extremos de una función. La extensiónde diferenciabilidad a una función intervalo-valuada se basa en la diferencia Hukuhara. Acontinuación se presentan los conceptos de derivada en lso sentidos fuerte y débil.

De�nición C.1.5. Sea X un conjunto abierto en R. Una función f : X → I con f(x) =[fL(x), fU(x)

], se llama debilmente diferenciable en x0 ∈ X si las funciones real-valuadas

fL y fU son diferenciables en x0 en el sentido usual.

Page 120: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

106 C Anexo: Multi-Intervalos y Multi-Matrices

De�nición C.1.6. Sea X un conjunto abierto en R. La función f : X → I con f(x) =[fL(x), fU(x)

], se llama H-diferenciable ó fuertemente diferenciable en x0 ∈ X, si existe

A(x0) ∈ I tal que:

lımh→0+

f(x0 + h) f(x0)

h, y lım

h→0+

f(x0) f(x0 − h)

h

ambos existen y son iguales a A(x0). Se dice entonces que A(x0) es la H-derivada de fen x0.

En Wu, H.C. (2007) se da la demostración del siguiente teorema que presenta las condi-ciones para que una función intervalo-valuada sea H-diferenciable.

Teorema C.1.2. Sea X un conjunto abierto en Rn. La función f : X → I con f(x) =[fL(x), fU(x)

]. Suponga que f es débilmente diferenciable en x0 con derivadas (fL)′(x0) =

aL(x0) y (fU)′(x0) = aU(x0)

1. Si fL(x0+h)−fL(x0) ≤ fU(x0+h)−fU(x0) y fL(x0)−fL(x0−h) ≤ fU(x0)−fU(x0−h)para todo h > 0, entonces f es H-diferenciable en x0 con H-derivada A(x0) =[aL(x0), aU(x0)].

2. Si aU(x0) > aL(x0) entonces f no es H-diferneciable en x0.

A partir de éste teorema se concluye que si f es H-diferenciable entonces es débilmentediferenciable.

C.2. El Conjunto Im

Se De�ne Im = {I1 × · · · × Im : Ij ∈ I} para todo j = 1, · · · ,m y por abuso de lenguaje,se representa como un arreglo m× 1 de intervalos, esto es,

Im =

I1

...Im

⊆ Rm : Ij ∈ I, para todo j = 1, · · · ,m

sobre este conjunto, cada elemento se llama un multi-intervalo como en Fernandez (2008).

Se dice también que si A,B ∈ Im con A =

[aL1 ; aU1

]...[

aLm; aUm] y B =

[bL1 ; bU1

]...[

bLm; bUm]

A = B si y sólo si aLj = bLj y aUj = bUj para todo j = 1, · · · ,m.

En Im se de�nen las operaciones adición y multiplicación por escalar como sigue:

Sean A, B ∈ Im y α ∈ R

Page 121: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

C.2 El Conjunto Im 107

1. A+B =

A1 +B1...

Am +Bm

donde Aj =[aLj ; aUj

]y Bj =

[bLj ; bUj

],

dado que cada Aj +Bj ∈ I, para todo j, j = 1, · · · ,m entonces A+B ∈ Im.

2. αA =

αA1...

αAm

nuevamente, αAj ∈ I, para todo j, j = 1, · · · ,m luego, αA ∈ Im.

Con lo anterior, las operaciones adición y multiplicación por escalar son clausurativassobre Im. Adicionalmente se tiene que para A,B y C ∈ Im y α, λ ∈ R no negativos.La operación + satisface las propiedades:

P.-1 Asociatividad. (A+B) + C = A+ (B + C)

P.-2 Conmutatividad. A+B = B + A

P.-3 Elemento neutro. 0 =

[0; 0]...

[0; 0]

tal que A+ 0 = 0 + A = A

La operación multiplicación por un escalar satisface las propiedades:

P-4. Asociatividad. α (λA) = (αλ)A

P-5. Elemento neutro. 1 ∈ R, 1A = A

y por último, las leyes distributivas de la suma y el producto por escalar.

P-6. Distributividad con la suma. α (A+B) = αA+ αB

P-7. Distributividad con la suma escalar. (α + λ)A = αA+ λA

Esta es la aritmética para el conjunto Im que interesa, aunque Im no es espacio vectorial,pues no todo multi-intervalo A posee inverso aditivo.

Aunque las propiedades P. − 4 y P. − 6 también se cumplen para escalares negativos,no es interesante desde el punto de vista teórico, por otro lado la propiedad P. − 7 no secumple en general si tomamos λ = −α, con α positivo, ya que el lado izquierdo es iguala 0 pero el lado derecho puede ser distinto de 0

0 = (α + (−α))A 6= αA+ (−α)A =

[αaL1 , αa

U1

]+[−αaU1 ,−αaL1

]...[

αaLm, αaUm

]+[−αaUm,−αaLm

]

Adicionalmente, se ha probado que Im es un semigrupo conmutativo que satisface la leycancelativa, ya que cada elemento A, B y C ∈ Im son conjuntos cerrados, acotados y

Page 122: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

108 C Anexo: Multi-Intervalos y Multi-Matrices

convexos de Rm, con lo cual se está frente a un conjunto con una estructura muy cercanaa la de los espacios vectoriales.

En Fernandez (2008) se demuestra que el conjunto Im dotado de la adición, la mul-tiplicación por un escalar y la métrica Hausdor�, satisface las condiciones del teoremade Rådström B.0.2 y puede ser embebido en un espacio vectorial. En Fernandez (2008)se hace la construcción de dicho embebimiento. Del mismo modo en Fernandez (2008)se construye el concepto de función multi intervalo-valuada así como los conceptos dediferenciabilidad en los sentidos fuerte y débil.

C.3. Órdenes Parciales y Convexidad

Los problemas de optimización matemática mono-objetivo, están de�nidos sobre el campode los reales, R, el cual es totalmente ordenado, por esta razón en las presentaciones sobreproblemas de este tipo de optimización, se obvia el estudio sobre ordenes parciales. Encontraste, en los problemas de optimización matemática multi-objetivo, este tema tomagran relevancia, puesto que al espacio vectorial Rm no se le ha dotado de un orden total, loque obliga a re�exionar sobre el signi�cado de la expresión "minimizar o maximizar" unafunción f : Rn → Rm. Esto es fundamental porque el concepto de minimizar o maximizarestá ligado a ordenar y poder decidir si un elemento a de un conjunto M antecede o noa otro elemento b del conjunto M . Dado que nuestro objetivo en este trabajo es estudiarproblemas de optimización multi-objetivo, se hace necesario introducir algunos conceptossobre los órdenes parciales que usaremos.

En este trabajo utilizaremos el orden de Pareto para el caso de funciones vector-valuadas.

De�nición C.3.1. Sean x, y ∈ Rm

x ≤ y si y sólo si xi ≤ yi para todo i = 1, 2, ...,m.

Cuando x ≤ y se dice que x antecede a y o y sucede a x. Si no se cumple que x ≤ y oy ≤ x, entonces x e y se llaman no comparables.

En Wu, H.C. (2007), Wu, H.C. (2007), Wu, H.C. (2007) y Fernandez (2008) se presentanlos órdenes parciales �LU , �UC y �CW para I y Im; además se presentan relaciones deimplicación de gran importancia entre estos. Para esta tesis se usa el orden �LU en Im.Dicho orden parcial se de�ne como sigue:

De�nición C.3.2. Sean A =[aL; aU

]y B =

[bL; bU

]∈ I:

A �LU B si y sólo si aL ≤ bL y aU ≤ bU

El orden parcial �LU en I, de�nido antes, genera el siguiente orden parcial en Im.

Page 123: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

C.3 Órdenes Parciales y Convexidad 109

Teorema C.3.1. Sean A =

A1...Am

y B =

B1...Bm

∈ Im. La relacion binaria de�nida

como:

A �LU B si y sólo si Aj �LU Bj para todo j, j = 1, · · · ,m (C.1)

De�nen en Im una relación de orden parcial.

La prueba de este teorema se hace en Fernandez (2008).

Teorema C.3.2. Sean A, B y C ∈ Im.

El orden parcial �LU de�nido en Im es compatible con respecto a la adición y a la mul-tiplicación por un escalar positivo, esto es:

1. A �LU B si y solo si A+ C �LU B + C.

2. A �LU B si y solo si λA �LU λB.

Demostración. Sean A, B y C ∈ Im

1. A + C �LU B + C es equivalente a Aj + Cj �LU Bj + Cj para todo j = 1, · · · ,m,lo cual es equivalente a aLj + cLj ≤ bLj + cLj y aUj + cUj ≤ bUj + cUj para j = 1, · · · ,m,y como son reales y el orden en R es compatible con la adición, entonces se obtieneel resultado.

2. Si λ > 0, entonces λA �LU λB, entonces λAj �LU λBj para j = 1, · · · ,m, si y sólosi λaLj ≤ λbLj y λaUj ≤ λbUj para j = 1, · · · ,m y como el orden en R también escompatible con la multiplicación por escalar positivo, se concluye que A �LU B.

Sea f una función real valuada diferenciable en un subconjunto no vacío, abierto y convexoX de Rn entonces f es convexa en x∗ si y sólo si:

f(x)− f(x∗) ≥ ∇f(x∗)T (x− x∗) Para x ∈ X.

Se sabe que si X es un subconjunto no vacío convexo de Rn y F = (f1, f2, · · · , fm) es unafunción vector-valuada de�nida en X entonces la función F es convexa en x∗ si y sólo silas funciones real valuadas fi para i = 1, 2, · · · ,m son convexas en x∗.

La intención es generalizar los conceptos de función convexa para una función real valuaday vector-valuada a una función multi-intervalo valuada; dicho propósito se lleva a cabopor medio de la siguiente de�nición y de la posterior proposición.

Page 124: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

110 C Anexo: Multi-Intervalos y Multi-Matrices

De�nición C.3.3. Sea X un subconjunto no vacío convexo de Rn y F un función multi-intervalo valuada de�nida en X . F es convexa en x∗ si y sólo si:

F(λx∗ + (1− λ)x) �LU λF(x∗) + (1− λ)F(x)

para todo λ ∈ (0, 1) y todo x ∈ X

Proposición C.3.1. Sea X un subconjunto no vacío convexo de Rn y F un función multi-intervalo valuada de�nida en X . La función F es convexa en x∗ si y sólo si las funcionesvector-valuadas FL y FU son convexas en x∗.

C.4. El conjunto In×p(R)

A continuación se de�ne el conjunto de todas las matrices de orden n× p cuyas entradasson elementos del conjunto I.

De�nición C.4.1. Una multi-matriz de orden n× n es el siguiente conjunto:

XI =[X,X

]={X : X ≤ X ≤ X

}donde X y X son matrices de orden n× n y de entradas reales que satisfacen X ≤ X enel sentido usual.

A continuación se de�nen la matriz centro y la matriz radio.

De�nición C.4.2. Sea XI una multi-matriz de orden n×n. Las matrices centro y radio,que se denotan por XC y ∆X, se de�nen por:

1. XC = 12

(X +X

).

2. ∆X = 12

(X −X

)De manera trivial se tiene que una multi-matriz XI se puede expresar como:

XI = [Xc −∆X,XC + ∆X] .

A continuación se de�nen las multi-matrices simétricas.

De�nición C.4.3. Sea XI una multi-matriz. XI es simétrica si:

XI = XIS

donde XIS =[

12

(X +XT

), 1

2

(X +X

T)]

Page 125: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

C.4 El conjunto In×p(R) 111

A partir de la de�nición se tiene que: XI es simétrica si y sólo si X y X son simétricas.Una multi-matriz simétrica puede contener matrices no simétricas.

Se de�ne In×p(R) como el conjunto de todas las multi-matrices de orden n×p. En analogíaal caso escalar, una multi-matriz XI ∈ In×p(R) puede ser expresada como XI = (Xij)donde Xij ∈ I. A continuación se de�nen operaciones sobre el conjunto In×p(R).

De�nición C.4.4. Sobre el conjunto In×p(R) se de�nen las siguientes operaciones:

1. Adición. Sean XI = (Xij) , YI = (Yij) ∈ In×p(R), entonces:

XI ± Y I = (Xij ± Yij)

2. Multiplicación. Sean XI = (Xij) ∈ In×r(R) y Y I = (Yij) ∈ Ir×p(R), entonces:

XIY I =

(r∑

k=1

XikYkj

)

3. En particular, Si XI = (Xij) ∈ In×r(R) y uI = (Yij) ∈ Ir×1(R), entonces:

XIuI =

(r∑

k=1

Xikuk

)

4. Multiplicación por un intervalo. Sean XI = (Xij) ∈ In×p(R) y K ∈ I, entonces:

KXI = XIK = (KXij)

Dado que la metodología PLS se basa en el cálculo de vectores y valores propios, entoncesdebe extenderse el concepto de valor y vector propio al caso de multi-matrices.

C.4.1. Intervalo-eigenvalores e Intervalo-eigenvectores

Dada una multi-matriz xI ∈ In×p(R), muchas investigaciones se han hecho en base a lacaracterización de soluciones del siguiente problema de intervalo-eigenvalores:

XIuI = λuI (C.2)

El problema C.2 tiene importantes propiedades Deif, A.S. & Rohn, J. (1994), Rohn, J.(1993) y es útil para una amplia gamma de aplicaciones en física e ingeniería. El problemaC.2 se resuelve determinando dos conjuntos λIα y uIα dados por:

λIα ={λα(X) : X ∈ XI

}, uIα =

{uα(X) : X ∈ XI

}, α = 1, 2, · · · , r

Page 126: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

112 C Anexo: Multi-Intervalos y Multi-Matrices

donde (λα, uα) es un eigenpar de X ∈ XI . El par (λIα, uIα) es el α-ésimo eigenpar de

XI y representa el conjunto de los α-ésimos eigenvalores y el conjunto de los α-ésimoseigenvectores de todas las matrices dentro de XI .

De�nición C.4.5. Sea x ∈ Rn. El vector z = sign(x) está dado por:

zi =

{1 xi ≥ 0

−1 xi < 0

S = diag(sign(x)) es la matriz diagonal cuya diagonal está conformada por los elementosde sign(x).

La de�nición C.4.5 es fundamental para formular el siguiente teorema que entrega unaimportante herramienta para calcular los eigenvalores de una multi-matriz.

Teorema C.4.1. Sean XI ∈ In×n(R), XC y ∆X las matrices centro y radio respecti-vamente y uα(XC) para α = 1, 2, · · · , n los eigenvectores de XC. Si XI es simétrica ySα = diag(sign(uα(XC))) para α = 1, 2, · · · , n calculada para XC es constante en XI,entonces el eigenvalor λα de X ∈ XI oscila en el intervalo:

λIα =[λα(XC − Sα∆XSα), λα(XC + Sα∆XSα)

], α = 1, 2 · · · , n.

El teorema C.4.1 da una forma exacta de calcular el intervalo-eigenvalor λIα. Los intervalo-eigenvectores se pueden calcular resolviendo un problema de programación lineal ?.

Teorema C.4.2. Una condición necesaria y su�ciente para que uα(X) sea una eigenvec-tor de X asociado al eigenvalor λα(X) es:

−∆X|uα(X)| ≤ (λα(X)I − SαXCSα) |uα(X)| ≤ ∆X|uα(X)| (C.3)

donde I es la matriz unitaria y λα(X) ≤ λα(X) ≤ λα(X).

Para obtener cotas para las componentes de uα(X) se escribe la expresión C.3 de lasiguiente manera: [

λα(X)I − SαXCSα −∆X

SαXCSα −∆X − λα(X)

]|uα(X)| ≤ 0

donde λα(X) ≤ λα(X) ≤ λα(X).

Para calcular cotas superiores e inferiores para uα(X) se minimiza y maximiza |uiα| sujetoa C.3 para i = 1, 2 · · · , n−1 mientras se mantiene |uin| igual a uno. Este tipo de problemade optimización es un problema de programación lineal y se resuelve de manera numé-rica. Las cotas para uα(X) se obtienen multiplicando las cotas de |uα(X)| por la matriz Sα.

Page 127: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

C.4 El conjunto In×p(R) 113

Hasta el momento se han mostrado teoremas donde los intervalo-eigenvalores se calculande manera exacta. Sin embargo, existen algoritmos que permiten calcular dichos intervalo-eigenvalores de manera numérica Hladik Et al. (2008), Hladik Et al. (2009), Hladik, Etal. (2011).

C.4.2. Intervalo-Valores Singulares

Los valores singulares de una multi-matriz XI pueden ser calculados directamente delproblema de eigenvalores para XTX con X ∈ XI Deif, A.S. (1991). Se considera elsiguiente conjunto:

Σ ={σ : XTXu = σ2u, u 6= 0, X ∈ XI

}La intención es calcular los intervalo-valores singulares σIα para α = 1, 2 · · · , p para todoX ∈ XI . Los siguientes tres supuestos son necesarios:

1. Se debe dar que sign(uα(X)) para α = 1, 2, · · · , p es invariante para cada X ∈ XI .Por lo tanto se tiene que sign(uα(XC)) es igual a sign(uα(X)) para α = 1, 2, · · · , p.

2. Debe darse que |δXuα| < 2|XCuα| donde |δX| ≤ ∆X.

3. Debe darse que sign(XCuα) para α = 1, 2, · · · , p es invariante para cada X ∈ XI .

las condiciones para la validez de los supuestos 1, 2 y 3 se dan en ?, donde Sα1 =diag(sign(uα)) y Sα2 = diag(sign(XCuα)).

Teorema C.4.3. Los valores de δX que optimizan el valor singular σα de la matrizXC + δX, para todo |δX| ≤ ∆X, están dados por:

δX = ±Sα2 ∆XSα1 .

Teorema C.4.4. Bajo los supuestos 1, 2 y 3 los valores singulares cuadrados σ2 deXC +δX, para todo |δX| ≤ ∆X, varían en el intervalo λIα =

[λα, λα

]para α = 1, 2 · · · , r,

donde:

1. λα = λα(XTCXC − 2

(Sα1 ∆XTSα2XC

)S

+ Sα1 ∆XT∆XSα1).

2. λα = λα(XTCXC + 2

(Sα1 ∆XTSα2XC

)S

+ Sα1 ∆XT∆XSα1).

De esta manera se pueden calcular intervalo-valores singulares de una multi-matriz XI ypor tanto una descripción del conjunto Σ. Por otro lado, se muestra como se calculan losintervalo-eigenvalores de una matriz XTX con X ∈ XI .

Page 128: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

114 C Anexo: Multi-Intervalos y Multi-Matrices

Page 129: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

Apéndice D

Anexo: Algunos Elementos de

Estadística Intervalo Valuada

A continuación se presentan algunas de�niciones y resultados que permiten extender al-gunos conceptos estadísticos al caso intervalo-valuado Gioia & Lauro (2005).

De�nición D.0.1. Considere un conjunto de variables de intervalo [x1, x1], [x2, x2], · · · ,[xn, xn]. El intervalo media, que se denota por M , es el intervalo:

M = [M,M ] =

n∑i=1

nxi,

n∑i=1

xi

n

De�nición D.0.2. Considere un conjunto de variables de intervalo [x1, x1], [x2, x2], · · · ,[xn, xn] con media M . La i-ésima desviación SC(Xi) de Xi con respecto a M , está dadapor:

SC(Xi) =

[xi −

1

n

(xi −

∑j 6=i

xj

), xi −

1

n

(xi −

∑j 6=i

xj

)], i = 1, 2, · · · , n.

El multi intervalo SC(X) formado por todas las desviaciones está dado por:

SC(X) = (SC(Xi)) , i = 1, 2, · · · , n

Teorema D.0.1. Considere un conjunto de variables de intervalo [x1, x1], [x2, x2], · · · ,[xn, xn] con media M . se veri�ca que:

n∑i=1

SC(Xi) = 0.

De�nición D.0.3. Considere un conjunto de variables de intervalo [x1, x1], [x2, x2], · · · ,[xn, xn]. Considere la siguiente función:

115

Page 130: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

116 D Anexo: Algunos Elementos de Estadística Intervalo Valuada

V ar(X) = f(x1, x2, · · · , xn) =1

n

n∑h=1

(xh −

1

n

n∑k=1

xk

)2

.

La varianza de X = (X1, X2, · · · , Xn) donde Xi = [xi, xi], que se denota por V(X), estádada por:

V(X) =

[mınxi∈Xi

f(x1, x2, · · · , xn), maxxi∈Xi

f(x1, x2, · · · , xn)

]En Gioia & Lauro (2005) se dan importantes resultados de f y V ar(X); por ejemplo:

1. f es una función continua.

2. V ar(X) es un intervalo cerrado.

3. V ar(X) es un intervalo formado por elementos no negativos.

4. Tiene sentido calcular la desviación estándar de X a partir de V ar(X), considerandof

12 .

A continuación se considera una extensión de los conceptos de covarianza y correlaciónde variables intervalo valuadas.

De�nición D.0.4. Considere dos variables de tipo intervalo X = (X1, X2, · · · , Xn) conXi = [xi, xi] para i = 1, 2, · · · , n y Y = (Y1, Y2, · · · , Yn) con Yi = [y

i, yi] para i =

1, 2, · · · , n. Considere la función:

Cov(X, Y ) = g(x1, · · · , xn, y1, · · · , yn) =1

n

n∑i=1

[(xi −

1

n

n∑k=1

xk

)(yi −

1

n

n∑k=1

yk

)].

La covarianza entre X y Y , que se denota por Cov(X,Y), está dada por:

Cov(X,Y) =

[mın

xi∈Xi,yi∈Yig(x1, · · · , xn, y1, · · · , yn), max

xi∈Xi,yi∈Yig(x1, · · · , xn, y1, · · · , yn)

]De�nición D.0.5. Considere dos variables de tipo intervalo X = (X1, X2, · · · , Xn) conXi = [xi, xi] para i = 1, 2, · · · , n y Y = (Y1, Y2, · · · , Yn) con Yi = [y

i, yi] para i =

1, 2, · · · , n. Considere la función:

Corr(X, Y ) = h(x1, · · · , xn, y1, · · · , yn) =Cov(X, Y )√

V ar(X)√V ar(Y )

.

La correlación entre X y Y , que se denota por Corr(X,Y), está dada por:

Page 131: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

117

Corr(X,Y) =

[mın

xi∈Xi,yi∈Yih(x1, · · · , xn, y1, · · · , yn), max

xi∈Xi,yi∈Yih(x1, · · · , xn, y1, · · · , yn)

]

A partir de la de�nición de la función h, se tiene que el conjunto Cov(X,Y) satisface:

1. Corr(X,Y) es el intervalo formado por todas las correlaciones que pueden ser calcu-ladas cuando las variables varían en sus respectivos rangos de variación.

2. Cualquier elemento en Corr(X,Y) varía entre −1 y 1.

3. En particular, Corr(X,Y) = 1.

A continuación se da la de�nición de vector estandarizado.

De�nición D.0.6. Considere una variable de tipo intervalo X = (X1, X2, · · · , Xn) conXi = [xi, xi] para i = 1, 2 · · · , n. Considere la función:

f(x1, x2, · · · , xn) =xi − x√nσ2

donde x y σ2 denotan media y varianza muestral.

La estandarización de la variable X, que se denota por s, es la variable s = (s1, s2, · · · , sn)con:

si =

[mınxi∈Xi

f(x1, x2, · · · , xn), maxxi∈Xi

f(x1, x2, · · · , xn)

]

En el caso clásico, dada una matriz X ∈ Rn×p, la estandarización de X es una matrizS ∈ R que resulta de X estandarizando cada una de sus componentes; esto es, cadacomponente sij de S está dada por:

sij =xij − xj√

nσ2j

.

A partir de S, se construye la matriz SST . Dada una multi matriz XI ∈ In×p(R), los masnatural es pensar en construir la matriz estandarizada SI y calcular SI(SI)T ; sin embargose sigue un camino diferente con la intención de garantizar que cada componente de lanueva matriz sea un intervalo. Dicho propósito se alcanza por medio de la maximizacióny la minimización de cada componente de la matriz SST cuando cada xij de cada varíaen su rango de valores. A continuación se formalizan estas apreciaciones.

Page 132: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

118 D Anexo: Algunos Elementos de Estadística Intervalo Valuada

De�nición D.0.7. Considere una multi matriz XI ∈ In×p(R). Considere la función:

Fi(x1j, x2j, · · · , xnj) = (ssT )ij

donde (ssT )ij es la ij-ésima componente de la matriz SST , con S la matriz estandarizadade alguna X ∈ XI.

La multimatriz (SST )I ∈ In×n(R), es tal que su ij-ésima componente está dada por:

((ssT )ij)I =

[mınxij∈Xij

Fi(x1j, x2j, · · · , xnj), maxxij∈Xij

Fi(x1j, x2j, · · · , xnj)]

Page 133: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

Apéndice E

Trabajo Futuro. Regresión por Mínimos

Cuadrados Parciales PLS con Datos de

Intervalo

La incertidumbre en los datos puede ser considerada mediante un intervalo numérico enel cual una variable puede asumir sus posibles valores, esto se conoce como datos de in-tervalo. En este capítulo se extiende la metodología de regresión PLS al caso donde tantolas variables explicativas como las variables respuesta y los coe�cientes de regresión sondel tipo intervalo. De ésta manera se propone una metodología de regresión que resuelvetres problemas que se presentan con los datos de tipo real: en primer lugar problemasde multicolinealidad tanto en las variables explicativas como en las variables respuesta,en segundo lugar problemas cuando los datos no pertenecen a un espacio Euclídeo y porúltimo problemas cuando la incertidumbre en los datos se representa por medio de in-tervalos. Hoy en día existen tareas del común, tales como plani�cación y operación desistemas eléctricos, plani�cación de producción, logística del transporte, inventarios, ges-tión de carteras de valores; entre otras, que involucran incertidumbre. De ésta manera serequieren modelos que tengan en cuenta dicha incertidumbre y puedan dar la posibilidadde tomar decisiones para resultados óptimos desde una gama de posibilidades o escenariosposibles. Por otro lado, el análisis de datos reales a menudo se ve afectado por diferentestipos de errores tales como: errores de medición, errores de cálculo e impresición relacio-nada con el método adoptado para la estimación de los datos.

El presente capítulo está estructurado de la siguiente manera: en la sección E.1 se presentala metodología de regresión lineal con datos de intervalo, donde se muestran modelos deregresión como el método del centro, el método del centro y el rango, el método bivariantedel centro y el rango y el método restringido, que no trabajan con la información completadada por los intervalos sino que trabajan con números reales que se obtienen a partirde los intervalos. En la misma sección se utilizan elementos de optimización intervalo-valuada para estimar los parámetros de regresión en el caso de variables explicativasconformadas por números reales y tanto coe�cientes de regresión como variable respuestade tipo intervalo. Se �naliza la sección haciendo una propuesta de un modelo de regresión

119

Page 134: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

120 E Trabajo Futuro. Regresión PLS. Datos de Intervalo.

lineal múltiple donde las variables explicativas, las variables respuesta y los coe�cientesde regresión son del tipo intervalo. En al sección E.2 se muestra la extensión del análisisde componentes principales al caso intervalo-valuado. Por último, en la sección E.3 sepresenta la metodología de regresión PLS con datos de intervalo.

E.1. Regresión Lineal con Datos de Intervalos

Se han tratado diferentes enfoques para llevar a cabo el análisis de regresión lineal paralos datos de intervalo, desde que se presentó el primer enfoque Billard & Diday (2000).Primero se ajusta un modelo de regresión lineal para el punto central de los intervalos,luego, se aplica el modelo ajustado a los límites inferior y superior de las variables in-dependientes para hacer predicciones de los límites inferior y superior, respectivamente.Neto Et. al. (2004) y De Carvalho Et. al. (2004) transforman las variables de intervalooriginales variables de punto central y rango y luego llevan a cabo un análisis de regresiónclásica en cada una de las variables punto central y variables de rango por separado. Pos-teriormente Billard & Diday (2007) extienden los conceptos de Lima Nieto y de Carvalhoconsiderando el punto central y el rango del intervalo de manera simultánea. Neto Et. al.(2005), De Carvalho, F. & Neto, E. (2010) mejoran su propuesta proponiendo un proble-ma de programación lineal restringida. La principal desventaja de todos estos métodos esla pérdida de información al realizar las regresiones.

A continuación se hace una presentación teórica de cada uno de éstos métodos.

E.1.1. Método del Centro

Suponga que X1, X2, · · · , Xp son p intervalo vectores explicativos y Y el intervalo vectorrespuesta. Sea Xij = [aLij, a

Uij] el intervalo i sobre el intervalo vector j. Sean Xij,C y Yi,C

para i = 1, 2, · · · , n los puntos medios de los intervalos de las variables explicativas y lavariable respuesta respectivamente. El modelo de regresión se puede ver entonces como:

YC = XCβC + εC

donde YC = (Y1,C , Y2,C , · · · , Yn,C)T , XC = (X1,C , X2,C , · · · , Xn,C)T , βC = (β0, β1, · · · , βp)T

y Xi,C = (1, Xi1,C , Xi2,C , · · · , Xip,C)T para i = 1, 2, · · · , n. Se tiene que el estimador βCestá dado por:

βC =(XCX

TC

)−1XTCYC

Para una nueva observaciónXnew = (Xnew1 , Xnew

2 , · · · , Xnewp )T dondeXnew

j = [Xnew,Lj , Xnew,U

j ]

para j = 1, 2, · · · , p, el valor predicho Y = [Y L, Y U ], está dado por:

Y L = Xnew,LβC , Y U = Xnew,U βC

Page 135: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

E.1 Regresión Lineal con Datos de Intervalos 121

E.1.2. Método del Centro y el Rango

En contraste con el método del centro, que considera los centros de los intervalos, elmétodo del centro y el rango no solo considera los centros de cada intervalo sino el centroy el rango de cada intervalo. Éste método considera el modelo:

YC = XCβC + εC

y de manera independiente resuelve un modelo análogo considerando los rangos de cadaintervalo. Sean Xij,r y Yi,r para i = 1, 2, · · · , n los rangos de los intervalos de las variablesexplicativas y la variable respuesta, respectivamente. El modelo de regresión para losrangos, se puede ver entonces como:

Yr = Xrβr + εr

donde Yr = (Y1,r, Y2,r, · · · , Yn,r)T , Xr = (X1,r, X2,r, · · · , Xn,r)T , βr = (β0, β1, · · · , βp)T y

Xi,r = (1, Xi1,r, Xi2,r, · · · , Xip,r)T para i = 1, 2, · · · , n. Se tiene que el estimador βr está

dado por:

βr =(XrX

Tr

)−1XTr Yr

Para una nueva observaciónXnew = (Xnew1 , Xnew

2 , · · · , Xnewp )T dondeXnew

j = [Xnew,Lj , Xnew,U

j ]

para j = 1, 2, · · · , p, el valor predicho Y = [Y L, Y U ], está dado por:

Y L =YC − Yr

2, Y U =

YC + Yr2

donde YC = XnewβC y Yr = Xnewβr

E.1.3. Método Bivariante de Centro y el Rango

El método bivariante del centro y el rango es una modi�cación del método del centroy el rango, en el sentido que los centros de los intervalos y los rangos de los intervalosno se toman de manera independiente. El método bivariante de centro y rango utilizasimultaneamente los centros de los intervalos y los rangos de los intervalos. El modelopuede ser visto como:

Y = Xβ + ε

donde Y = (YC , Yr), YC = (Y1,C , Y2,C , · · · , Yn,C)T , Yr(Y1,r, Y2,r, · · · , Yn,r)T , con X =(X1, X2, · · · , Xn)T donde Xi = (1, Xi1,C , Xi2,C , · · · , Xip,C , Xi1,r, Xi2,r, · · · , Xip,r)

T y β =(β0, β1,C , β2,C , · · · , βp,C , β1,r, β2,r, · · · , βp,r)T . Se tiene entonces que:

β = (XTX)−1XTY

Page 136: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

122 E Trabajo Futuro. Regresión PLS. Datos de Intervalo.

El valor de una nueva observación Xnew está dado por:

Y L =YC − Yr

2, Y U =

YC + Yr2

donde (YC , Yr) = Xnewβ.

E.1.4. Método Restringido

En los anteriores métodos puede darse que el límite inferior de las predicciones sea mayorque el límite inferior. Basados en programación lineal, se propone un método restringidodonde se garantiza que las estimaciones de los β's sean no negativas. El modelo se puedever como:

YC = XCβC + εC , Yr = Xrβr + εr

sujetos a las restricciones βj,C ≥ 0 y βj,r ≥ 0 para j = 1, 2 · · · , p.

E.1.5. Estimación de Parámetros con Optimización Intervalo-valuada

A continuación se presentan algunos resultados obtenidos en Gallego-Posada & Puerta-Yepes (2015). En dichos resultados se muestra la estimación de parámetros intervalosusando una metodología análoga a mínimos cuadrados sobre el conjunto I.

Ajuste Polinomial Generalizado.

Considere ci = [cLi , cUi ] ∈ I para i = 0, 1, 2 · · · , n. Se dice que p(x) es un polinomio

generalizado si puede ser expresado de la forma:

p(x) =n∑i=0

cixi =

n∑i=1

[cLi , cUi ]xi.

Considere un conjunto de observaciones yi = [yLi , yUi ] ∈ I para i = 1, 2, · · · ,m. Se puede

modelar el fenómeno usando un polinomio de grado n en forma matricial como sigue:y1

y2...ym

=

1 x1 x2

1 x31 · · · xn1

1 x2 x22 x3

2 · · · xn2...

......

.... . .

...1 xm x2

m x3m · · · xnm

c0

c1...cm

+

ε1

ε2...εm

o de manera compacta como Y = VC + E, donde V es la matriz de Vandermonde.

Page 137: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

E.1 Regresión Lineal con Datos de Intervalos 123

En Gallego-Posada & Puerta-Yepes (2015) se considera un polinomio de grado 10 concoe�cientes de intervalo. Se toma una muestra aleatoria de intervalos teóricos y con éstainformación se busca estimar los los valores originales de los coe�cientes que generan estecomportamiento. En la �gura E.1 se muestra el polinomio intervalo-valuado, donde lasbandas moradas representan la muestra aleatoria de intervalos.

Figura E.1: Grá�co Polinomio Intervalo-valuado.

La primer técnica que se utiliza para estimar los coe�cientes, es la metodología de mínimoscuadrados ordinarios, donde la estimación de C está dada por C = (VTV)−1VTY. Estosresultados pueden ser obtenidos minimizando la norma L2 de los residuales entre lospuntos medios del modelo estimado y las medidas reales

mınm∑i=1

(m(yi)−m(yi))2

donde m(yi) representa el punto medio de las medidas reales y m(yi) representa el puntomedio del modelo estimado.

Figura E.2: Estimación de Parámetros por M.C.

Page 138: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

124 E Trabajo Futuro. Regresión PLS. Datos de Intervalo.

En la �gura E.2 se muestran los verdaderos coe�cientes en color rojo y las estimacionesde los coe�cientes en color gris.Como se observa las estimaciones son bastante sensiblesutilizando mínimos cuadrados ordinarios.

La segunda metodología que se implementa en Gallego-Posada & Puerta-Yepes (2015)para estimar los coe�cientes del polinomio intervalo-valuado, es un algoritmo evolutivollamado Di�erential Evolution (DE) desarrollado originalmente por Price al tratar deresolver un problema de ajuste del polinomio de Chebychev propuesto por Storn. Unacompleta descripción de DE aparece en Storn & Price (1997).

Las estimaciones obtenidas utilizando la metodología DE se presentan en la �gura E.3.Como se observa no hay una mejora sustancial en la calidad de la estimación en relacióncon los valores reales de los parámetros. La mayoría de las estimaciones cae casi en elpunto medio de los intervalos reales. Sin embargo, algunos del coe�cientes se subestimano sobrestiman en la longitud del intervalo, como se puede ver claramente en coe�cientesen las �guras E.1 y E.3. Además, dada la naturaleza de la heurística, la calidad de lasestimaciones no es muy uniforme y, en algunos casos, la búsqueda no converge a valoresadecuados de los parámetros.

Figura E.3: Estimación de Parámetros con DE.

Como otra alternativa, en Gallego-Posada & Puerta-Yepes (2015), se utiliza la implemen-tación en el software CVX para optimización convexa desarrollado en I.CVX Research(2012) y Grant & Boyd (2008). Para evitar la sobre estimación de la longitud de los inter-valos, la métrica inducida en I por la norma L1 se utiliza para medir los residuos, que sepueden expresar en términos de la distancia Hausdor� en I. de ésta manera, el problemade optimización puede ser expresado como:

mınm∑i=1

dH(yi, yi)

Los resultados de ésta metodología son presentados en la �gura E.4. Como puede verse,las estimaciones coinciden con éxito con los valores reales de los parámetros, con errores

Page 139: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

E.1 Regresión Lineal con Datos de Intervalos 125

de magnitud de 10−9 en relación a los puntos �nales teóricos. De ésta manera puedeobservarse la potencia de la metodología y como ésta captura la incertidumbre dada porlas mediciones.

Figura E.4: Estimación de Parámetros con CVX.

Función de Weierstrass.

Con el �n de mostrar la potencia de la metodología, en Gallego-Posada & Puerta-Yepes(2015), se toma una función no tan suave como un polinomio. De ésta manera, se tomala función de Weierstrass Hardy (1916) dada por:

f(x) =∞∑n=0

ancos(bnπx)

En este caso la intención es estimar el coe�ciente a que es tomado como un intervalo,basados en un conjunto de medidas para x ∈ [0, 1]. Basados en la métrica L1 inducida enI, se resuelve el problema de optimización mencionado previamente. En la grá�ca E.5 semuestra la estimación de la función de Weierstrass junto con los intervalos estimados.

Figura E.5: Estimación de la Función de Weierstrass.

Page 140: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

126 E Trabajo Futuro. Regresión PLS. Datos de Intervalo.

Como se puede ver en la �gura, los coe�cientes estimados para este modelo son capacesde manejar el comportamiento caótico y ruidoso de ésta función, así como la extremasensibilidad que existe en el parámetro.

Series de Fourier aplicada a la Modelación Densidades Espectrales de Potencia.

El uso de hidrófonos para las mediciones de la densidad espectral de potencia de las señalesde sonido generados por lanchas se realizaron con el �n de desarrollar una caracterizaciónde la �rma acústica. Se realizaron un total de 36 mediciones, sin embargo 12 de ellasfueron descartados debido a factores que generaron cambios en el comportamiento delespectro, por ejemplo, los cambios en la velocidad de la embarcación y sus motores. Las24 mediciones aceptadas se presentan en la �gura E.6, donde el eje horizontal representala frecuencia en Hz y el eje vertical la densidad espectral de potencia en dB/Hz. Debidoa cuestiones de con�dencialidad, la fuente de estos datos no pueden ser especi�cado.

Figura E.6: Medidas Reales. Nivel como Función de la Frecuencia.

Para describir este comportamiento se propuso un modelo de series de Fourier. Una seriede Fourier es una forma de representar una función de onda como la suma de ondassinusoidales simples, descomponiendo la señal en la suma de un (posiblemente in�nito)conjunto de funciones oscilantes simples, a saber, senos y cosenos, como sigue:

f(x) = a0 +n∑i=1

ai cos(iwx) + bi sin(iwx)

donde un a0 es un término constante (intercepto) los datos y se asocia con i = 0 términocoseno, w es la frecuencia fundamental de la señal, n es el número de términos (armó-nicos) en la serie. En este caso se estimaron modelos de varios órdenes, sin embargo, unmodelo de orden 8 muestra la tendencia observada en las medidas de forma adecuada,especialmente en las partes iniciales y �nales de los datos.

Page 141: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

E.1 Regresión Lineal con Datos de Intervalos 127

Con base en el conjunto completo de mediciones, se extraen los límites superior e inferioren cada instante y con ésta información, se estiman los coe�cientes las cotas superior einferior que limitan el modelo. En la �gura E.7 se muestran dichas cotas

Figura E.7: Cotas Superior e Inferior del Modelo.

Usando éstas estimaciones, se propone una función intervalo-valuada que encierra lavolatibidad de las medidas usando series de Fourier para describir las funciones supe-rior e inferior; esto es, se propone una función intervalo-valuada f : R → I dada porf(x) = [fL(x), fU(x)], donde la funciones que acota inferiormente está dada por:

fL(x) = aL0 +n∑i=1

aLi cos(iwLx) + bLi sin(iwxL)

y la función que acota superiormente está dada por:

fU(x) = aU0 +n∑i=1

aUi cos(iwUx) + bUi sin(iwxU)

Figura E.8: Grá�ca Intervalo-Valuada del Modelo de Fourier Estimado.

Page 142: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

128 E Trabajo Futuro. Regresión PLS. Datos de Intervalo.

En la �gura E.8 se muestra la �rma acústica estimada junto con las cotas superior einferior. Es importante notar que la estimación utiliza únicamente información con lasmedidas máximas y mínimas en cada instante. Por lo tanto, la calidad de las estimacionesobtenidas podrían haber sido igual de buenas como las presentadas en una situacióndonde se tiene escasa información disponible. También es posible percibir una reducciónen el ruido de las señales proporcionadas por el modelo, que es importante con el �n deaproximar el comportamiento local del fenómeno.

E.1.6. Regresión Lineal Simple con datos Intervalos

En Gioia & Lauro (2005) se hace una extensión de la metodología de regresión linealsimple al caso intervalo valuado. A continuación se muestran de manera general dichosresultados.

Considere un conjunto de n pares(XI1 , Y

I1

),(XI2 , Y

I2

), · · · ,

(XIn , Y

In

), donde:

XIj = [xj, xj], Y Ij = [yj, yj], j = 1, 2 · · · , n.

El propósito de la propuesta es considerar todas las posibles combinaciones de paresordenados (xi, yi) con xi ∈ XIi y yi ∈ Y Ii y determinar los parámetros βI0 , β

I1 tales que:

Y I = βI0 + βI1XI .

Para dicho propósito se consideran los conjuntos:

β1 =

β1(x1, · · · , xn, y1, · · · , yn) =

n∑i=1

(xi − x)(yi − y)

n∑i=1

(xi − x)2

: xi ∈ XIi , yi ∈ Y Ii

(E.1)

β0 ={β0(x1, · · · , xn, y1, · · · , yn) = y − β1x : xi ∈ XIi , yi ∈ Y Ii

}. (E.2)

Maximizando y minimizando las funciones E.1 y E.2, se obtienen los siguientes intervalos:

βI1 =

[mın

xi∈XIi ,yi∈Y Iiβ1 , max

xi∈XIi ,yi∈Y Iiβ1

](E.3)

βI0 =

[mın

xi∈XIi ,yi∈Y Iiβ0 , max

xi∈XIi ,yi∈Y Iiβ0

]. (E.4)

En Gioia & Lauro (2005) se muestran varios ejemplos utilizando esta metodología.

Page 143: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

E.1 Regresión Lineal con Datos de Intervalos 129

E.1.7. Regresión de Polinimios con Datos Intervalos

En la subsección E.1.5 se hace una primera extensión de la metodología de regresión pormínimos cuadrados ordinarios en el caso de variables explicativas en el conjunto de losnúmeros reales R y variable respuesta intervalo. Dicha extensión se hizo utilizando la mé-trica inducida en I por la norma L1; esto es, por medio de la distancia Hausdor� en I. Laintención ahora es extender dichos conceptos considerando tanto las variables explicativascomo la respuesta de tipo intervalo.

Considere un conjunto de n pares(XI1 , Y

I1

),(XI2 , Y

I2

), · · · ,

(XIn , Y

In

), donde:

XIj = [xj, xj], Y Ij = [yj, yj], j = 1, 2 · · · , n.

El propósito es determinar los parámetros βI0 , βI1 , · · · , βIp tales que:

Y I = βI0 + βI1XI + βI2 (XI)2 + · · ·+ βIp (XI)p + ε,

con (XI)k = XI(XI)k−1 donde k = 2, · · · , p. Dicho propósito se logra resolviendo elproblema de optimización:

mınn∑i=1

dH(Y Ii , YIi ).

E.1.8. Regresión Lineal Múltiple con Datos de Intervalos

El objetivo de la regresión lineal múltiple con datos de intervalos, es construir un modeloque relacione una variable dependiente de tipo intervalo Y I con un conjunto de variablesexplicativas de tipo intervalo XI1 , X

I2 , · · · , XIp . La relación de tipo lineal mencionada está

dada por:

Y I = βI0 + βI1XI1 + βI2X

I2 + · · ·+ βIpX

Ip + ε (E.5)

De manera análoga a la regresión de polinomios con datos intervalos, la estimación de losparámetros βI0 , β

I1 , · · · , βIp , se logra resolviendo el problema de optimización:

mınn∑i=1

dH(Y Ii , YIi ).

Page 144: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

130 E Trabajo Futuro. Regresión PLS. Datos de Intervalo.

E.2. Análisis de Componentes Principales con Datos deIntervalos

A continuación se muestra la extensión del análisis de componentes principales al casointervalo-valuado Federica & Carlo (2006). Considere una multimatriz XI sobre el con-junto In×p(R) cuyas columnas son los multivectores XI1 , X

I2 , · · · , XIp , con XIj dada por

XIj =(Xij = [xij, xij]

)ipara i = 1, 2, · · · , n. Se tiene entonces que:

XI =

[x11, x11] [x12, x12] [x13, x13] · · · [x1p, x1p][x21, x21] [x22, x22] [x23, x23] · · · [x2p, x2p]

......

.... . .

...[xn1, xn1] [xn2, xn2] [xn3, xn3] · · · [xnp, xnp]

Se supone que las variables intervalo-valuadas son estandarizadas previamente (Ver apén-dice Federica & Carlo (2006)). Se sabe que la metodología de regresión por componentesprincipales resuelve el problema de determinar m ≤ p ejes uα para α = 1, 2, · · · ,m talesque resuelven el problema de optimización:

max uTαXTXuα

s.a

{uTαuβ = 0 α 6= β

uTαuβ = 1 α = β

(E.6)

donde X ∈ Rn×p es una matriz de orden n× p y entradas reales. El problema de optimi-zación E.6 se puede reducir al problema de eigenvalores y eigenvectores:

XTXuα = λuα, 1 ≤ α ≤ m. (E.7)

Cuando los datos son del tipo intervalo, se tiene que el problema E.7 se convierte en elsiguiente problema de eigenvalores y eigenvectores:

(XI)TXIuIα = λIuIα, 1 ≤ α ≤ m, (E.8)

cuyas soluciones de intervalo están dadas por:

[λα(Z) : Z ∈ (XI)TXI

],[uα(Z) : Z ∈ (XI)TXI

], α = 1, 2 · · · ,m. (E.9)

Los intervalos dados en E.9 pueden ser calculados por medio del teorema C.4.1. El proble-ma E.8 se puede resolver mediante el álgebra de intervalos, teniendo en cuenta que puedenencontrarse intervalos de gran tamaño. La primera idea que se presenta para resolver elproblema E.8 es tomar cualquier matriz X ∈ XI y resolver el problema E.7; sin embargo,este camino es bastante lento computacionalmente. Para resolver el problema E.8 de unamanera más directa, se considera la siguiente relación:

(XI)TXI ={XY : X ∈ (XI)T , Y ∈ XI

}⊃{XTX : X ∈ XI

}(E.10)

Page 145: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

E.2 Análisis de Componentes Principales con Datos de Intervalos 131

esto signi�ca que en la multimatriz (XI)TXI están contenidas matrices que no tienen laforma XTX. Esto implica que los eigenvalores y eigenvectores del problema E.8 son degran tamaño. Dicho inconveniente se resuelve considerando el conjunto:

ΘI ={XTX : X ∈ XI

}.

Para calcular los eigenvalores y eigenvectores del conjunto ΘI , se puede utilizar el teoremaC.4.4. Debe tenerse en cuenta que cuando las hipótesis del teorema C.4.4 no se satisfacen,se puede utilizar el teorema C.4.1.

A partir de la de�nición D.0.5, denote por ΓI , la matriz de correlaciones donde la com-ponente ij-ésima de dicha matriz es la correlación entre XIi y XIj . Se tiene que ΘI ⊂ ΓI

(Federica & Carlo (2006)); esto es, se tiene que los eigenvalores y eigenvectores de ΓI pue-den ser de gran tamaño en relación a los eigenvalores y eigenvectores de ΘI . El conceptode ortogonalidad entre multi vectores se da en la siguiente de�nición.

De�nición E.2.1. Sean uIα y uIβ dos multi vectores. uIα y uIβ son ortogonales si y sólo sipara todo uα ∈ uIα tal que uTαuα = 1, se tiene que existe uβ ∈ uIβ tal que α 6= β y uTβuβ = 1,que satisface uTαuβ = 0.

Como se dijo en el capítulo 3; en el caso clásico, el porcentaje de variabilidad total querecoge el componente principal α-ésimo está dado por:

λαp∑j=1

λj

.

En el caso intervalo valuado, se tiene que el porcentaje de variabilidad total que recogecada componente principal intervalo valuado está dado por: λα

λα +p∑

j=1,j 6=αλj

,λα

λα +p∑

j=1,j 6=αλj

.Por otro lado, considere el conjunto:

(ΘT )I ={XXT : X ∈ XI

};

donde se utiliza el teorema C.4.4 si la matriz (XT )I satisface las condiciones de dichoteorema. De lo contrario, se pueden calcular los autovalores y autovectores de la matrizestandarizada dada en la de�nición D.0.7. Debe tenerse en cuenta que (ΘT )I ⊂ (SST )I ,por tal razón los eigenvalores y eigenvectores calculados pueden ser de gran tamaño.

Page 146: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

132 E Trabajo Futuro. Regresión PLS. Datos de Intervalo.

En el caso clásico, se sabe que una matriz y su transpuesta tiene los mismos eigenvalores ysu autovectores están conectados por una relación particular. En el caso intervalo valuadose tiene que si λI1 , λ

I2 , · · · , λIp son los eigenvalores de ΘI con eigenvectores uI1 , u

I2 , · · · ,

uIp y también son los eigenvalores de (ΘI)T con eigenvectores vI1 , vI2 , · · · , vIp , entonces

tomando un eivenvector de alguna XTX ∈ ΘI y vα ∈ vIα; se tiene que existe uα ∈ uIα talque:

uα = kαXTvα

donde kα es una constante que se introduce por la condición de norma unitaria del vectorXTvα.

A partir de la teoría clásica de regresión por componentes principales, se sabe que el α-ésimo componente principal cα de una matriz X ∈ Rn×p se puede calcular por medio deuna de las dos siguientes maneras:

1. Multiplicando la matriz X por el α-ésimo vector propio uα.

2. Multiplicando la raíz cuadrada del eigenvalor λα por el eigenvector vα.

De manera análoga, el α-ésimo componente principal cIα de una matriz XI ∈ In×p(R) sepuede calcular por medio de una de las dos siguientes formas:

1. cIα = XIuIα.

2. cIα =√λIαv

Iα.

Si se denota por UI la matriz cuya α-ésima columna es el eigenvector uIα, entonces demanera matricial se calculan las componentes principales por medio de la relación XIUI .

De esta manera, se ha mostrado como se utiliza el análisis de componentes principalescuando se tienen datos de intervalo. Si bien el cálculo de valores y vectores propios estábasado en teoremas, existen actualmente algoritmos numéricos que permiten llevar a ca-bo los cálculos de una manera más sencilla (Hladik Et al. (2008), Hladik Et al. (2009),Hladik, Et al. (2011), Stoyanov (2014), Rhon (1993)).

E.2.1. Metodología de Regresión por Componentes Principales

con Datos de Intervalos

Utilizando los elementos desarrollados en Federica & Carlo (2006) y la metodología deregresión lineal múltiple con datos intervalos propuesta en E.1.8, se propone a continuaciónla metodología de regresión por componentes principales con datos de intervalo. Considereuna variable dependiente de tipo intervalo Y I y un conjunto de variables explicativas detipo intervalo XI1 , X

I2 , · · · , XIp , que presentan multicolinealidad.

Page 147: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

E.3 Regresión PLS con datos de Intervalos 133

1. Se utiliza el análisis de componentes principales desarrollada en Federica & Carlo(2006) y se calculan las componentes principales CI1 , C

I2 , · · · , CIk que recogen la

mayor variabilidad.

2. Con las componentes principales calculadas en el punto 1, se utiliza la metodología deregresión lineal múltiple con datos intervalos propuesta en E.1.8; esto es, se estimanlos los parámetros βI0 , β

I1 , · · · , βIk tales que:

Y I = βI0 + βI1CI1 + βI2C

I2 + · · ·+ βIkC

Ik + ε (E.11)

Como sucede en el caso clásico, la metodología de regresión por componentes principa-les con datos intervalos, solo tiene en cuenta las variables explicativas para resolver elproblema de multicolinealidad. De ésta manera entonces, tiene sentido pensar en una me-todología de regresión que resuelva el problema de la multicolinealidad pero teniendo encuenta la variable respuesta. Dicha metodología se lleva a cabo en la siguiente sección.

E.3. Regresión PLS con datos de Intervalos

El propósito de la presente sección es extender la metodología de regresión por mínimoscuadrados parciales PLS sobre espacios euclídeos, al caso de metodología de regresión pormínimos cuadrados parciales PLS con datos de intervalo. Como se menciona en el apéndi-ce C, el conjunto de intervalos I no es un espacio vectorial; sin embargo se puede embeber(Fernandez (2008)) en un espacio vectorial usando el teorema de Rådström (1953) . Deesta manera se extiende la metodología de regresión PLS sobre un espacio no Euclídeo.La extensión de la metodología PLS al caso intervalo-valuado se presenta de manera teó-rica; resultados numéricos con datos reales y simulados se presentarán en trabajos futuros.

Considere dos multi matrices XI y YI , cuyos datos en las �las provienen de n indivi-duos u objetos, donde XI contiene la información de p características y YI describe qpropiedades. El objetivo es determinar una relación lineal:

YI ≈ XIBI

En lugar de determinar esta relación directamente, se tiene que tanto XI como YI sonmodelados mediante variables latentes en base a los modelos de regresión:

XI = TI(PI)T + EIX y YI = UI(QI)T + EIY,

donde a relación entre los scores está dada por:

UI = TIDI + EI .

Page 148: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

134 E Trabajo Futuro. Regresión PLS. Datos de Intervalo.

A partir de las subsecciones E.1.1, E.1.2, E.1.3 y E.1.4, se extiende de manera natural lametodología de regresión por mínimos cuadrados parciales PLS al caso intervalo-valuado.De ésta manera se da lugar a los siguientes métodos cuando hay presencia de multicoli-nealidad en el caso intervalo-valuado.

1. Método del centro para la metodología PLS con datos de intervalo.

2. Método del centro y el rango para la metodología PLS con datos de intervalo.

3. Método bivariante del centro y el rango para la metodología PLS con datos de inter-valo.

1. Método restringido para la metodología PLS con datos de intervalo.

Estas metodologías son una propuesta inicial para resolver el problema intervalo-valuado;sin embargo su principal inconveniente es que botan la información de los intervalos desdeel principio.

A continuación se propone la metodología de regresión por mínimos cuadrados parcialescon datos de intervalos; donde la información de los intervalos no se bota en principio.

E.3.1. Algoritmo Kernel para PLS con Datos intervalo.

Por razones técnicas, se utilizan otros vectores de cargas, wI para los xI-variables ycI para las yI-variables; esto es tI = XIwI y cI = YIcI . De manera análoga a lametodología clásica expuesta en la sección 3.5, se tiene que:

1. wI1 es el eigenvector asociado al eigenvalor más grande de (XI)TYI(YI)TXI .

2. cI1 es el eigenvector asociado al eigenvalor más grande de (YI)TXI(XI)TYI .

Los scores de las de las direcciones encontradas son las proyecciones

1. tI1 = XIwI1 .

2. uI1 = YIcI1 .

Se tiene además que:

1. La variable latente pI1 es calculada en relación al modelo XI = TI(PI)T , utilizandola metodología de regresión lineal múltiple con datos intervalos propuesta en E.1.8.

2. La variable latente qI1 es calculada en relación al modelo YI = UI(QI)T , utilizandola metodología de regresión lineal múltiple con datos intervalos propuesta en E.1.8.

Page 149: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

E.3 Regresión PLS con datos de Intervalos 135

A partir de las variables latentes tI1 , pI1 , u

I1 y qI1 ; se construyen las matrices desin�adas

XI1 y YI1 , dadas por:

XI1 = XI tI1 (pI1 )T , YI1 = YI uI1 (qI1 )T .

Utilizando las matrices XI1 y YI1 , se tiene que wI2 es el eigenvector asociado al eigenvalor

más grande de (XI1 )TYI1 (YI1 )TXI1 . De manera análoga, cI2 es el eigenvector asociado aleigenvalor más grande de (YI1 )TXI1 (XI1 )TYI1 .

El proceso continúa de manera análoga y se calculan wI1 ,wI2 , · · · ,wIa y cI1 ,c

I2 ,· · · , cIa o de

manera compacta, las matrices WI y WI . De manera análoga a la expuesta en la sección3.5, se propone:

BI = WI ((PI)TWI)−1(CI)T ,

donde la inversa de una multimatriz se calcula según Rhon (2011).

E.3.2. Algoritmo NIPALS para PLS con Datos Intervalo.

A continuación se muestra una versión del algoritmo NIPALS para PLS con datos in-tervalo, con los principales pasos. Si se quiere calcular la primera componente PLS seprocede así:

1. Inicialice uI1 , por ejemplo, con la primera �la de la matriz YI .

2. Calcule wI1 resolviendo XI = uI1 (wI1 )T .

3. tI1 = XIwI1 .

4. Calcule cI1 resolviendo YI = tI1 (cI1 )T .

5. (u∗1)I = YIcI1.

6. ∆uI = dH((u∗1)I ,uI1 ).

7. Si ∆uI < ε, entonces pare; sino uI1 = (u∗1)I y vuelva al paso 2.

8. Calcule pI1 resolviendo XI = tI1 (pI1 )T .

9. Calcule qI1 resolviendo YI = uI1 (qI1 )T .

10. Calcule dI1 resolviendo uI1 = tI1 (dI1 )T .

14. XI1 = XI tI1 (pI1 )T y YI1 = YI dI1t1(cI1 )T

Finalmente se tiene que:

BI = WI ((PI)TWI)−1(CI)T .

Page 150: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

136 E Trabajo Futuro. Regresión PLS. Datos de Intervalo.

Page 151: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

Bibliografía

Alefeld, G.; Hersberger, J.(1983), Introduction to interval computations. Academic Press.

Arsigny, V., Fillard, P., Pennec, X., Ayache, N. (2006), Log-euclidean metrics for fast andsimple calculus on di�usion tensors. Magnetic Resonance in Medicine. 56. 411-421.

Auslander, L., MacKenzie, R.E (1963), Introduction to di�erentiable manifolds. McGraw-Hill. New York.

Banks, H. T. , Jacobs, M. Q. (1970), A di�erential calculus for multifunctions. Journalof Mathematical Analysis and Applications. 29. 246-272.

Billard, L.; Diday, E. (2000), Regression Analysis for Interval-Valued Data. Dataanalysis, Classi�cation, and Related Methods. eds. H.A.L. Kiers, J.-P. Rassoon,P.J.F.Groenen, and M. Schader, Springer-Verlag, Berlin. 369-374.

Billard, L.; Diday, E. (2007), Symbolic Data Analysis: Conceptual Statistics and DataMining. Wiley, Chichester. 295-306.

Boothby, W.M. (1986), An introduction to di�erentiable manifolds and Riemanniangeometry. Academic Press.

Chikuse,Y. (2003), Statistics on special manifolds. Springer-Verlag. New York.

Cummins, D., Andrews, C.W. (1995), Iteratively reweighted partial least squares: Aperformance analysis by Monte Carlo simulations. J.Chemon. 9. 489-507.

De Carvalho, F., Neto, E., Tenorio, C. (2004), A New Method to Fit a Linear RegressionModel for Interval-valued Data, Springer-Verlag, Berlin. 295-306.

137

Page 152: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

138 BIBLIOGRAFÍA

De Carvalho, F., Neto, E., Tenorio, C. (2005), Applying constrained linear aggressionmodels to predict interval-valued data. Springer-Verlag,Berlin. 92-106.

De Carvalho, F., Neto, E. (2010), Constrained linear regression models for symbolicinterval-valued variables. Computational Statistics and Data Analysis. 54(2).333-347.

De Jong, S. (1993), SIMPLS: An alternative approach to partial least squares regression.J.Chemom. Intell. Lab.Syst. 18. 251-263.

Deif, A.S. (1991), Singular values of an interval matrix. Linear Algebra and its Applica-tions. 151. 125-133.

Deif, A.S., Rohn, J. (1994), On the invariance of the sign pattern of matrix eigenvectorsunder perturbation. Linear Algebra and its Applications. 196.63-70.

Docarmo, M. (1992), Riemannian geometry. Birkhauser.

Fang, K.T. and Zhang, Y.T (1990), Generalized multivariate analysis. Springer-Verlag.Berlin Heidelberg.

Federica, G.; Carlo, N. (2006), Principal components analysis on interval data. Compu-tational Statistic. 21. 343-363

Fernandez, J.P (2008), Optimización multi-objetivo intervalo valuada. Thesis of Master.Universidad EAFIT.

Forstner, W., Moonen, B. (1999), A metric for covariance matrices. In Friedhelm Krummund Volker S. Schwarze, editor, Quo vadis geodesia. Department of Geodesy andGeoinformatics,Stuttgart University. 113-128.

Gallego-Posada, J.D; Puerta-Yepes, M.E. (2015), Interval Analysis and OptimizationApplied to Parameter Estimation under Uncertainty. Preprint.

Geladi, P., Kowalski, B. (1986), Partial least-squares regression: A tutorial. Elsevier.185. 1-17.

Page 153: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

BIBLIOGRAFÍA 139

Gil,J., Romera, R. (1998), On robust partial least square (PLS) methods. J.Chemon. 12.365-378.

Gioia, F.; Lauro, C. (2005), Basic Statistical Methods for Interval Data. StatisticaApplicata. 17. In press

Grant, M.; Boyd, S. (2000), Graph implementations for nonsmooth convex programsRecent Advances in Learning and Control, Springer-Verlag, Limited.

Gupta, A.K., Nagar, D.K. (2000), Matrix variate distributions. Chapman and Hall/CRC..Boca Raton, Florida.

Hardy, G. (1916), Weierstrass non-di�erentiable function. Transactions of the AmericanMathematical Society, 17, 301.

Hastie, T. (2001), The elements of statistical learning. Springer. New York.

Helgason, S. (1978), Di�erential geometry, Lie groups, and symmetric spaces. Academicpress.

Helland, I. (2001), Some theoretical aspects of partial least squares regression. Elsevier.58. 97-107.

Hausdor� (1914), Grundzuege der mengenlehre. Leipzig: Veit and Company.

Hladik, M, Daney, D, Tsigaridas, E. (2008), An Algorithm for the Real Interval Eigenva-lue Problem. Institut National of de Recherche en Informatique et en Automatique,6680, 1-28.

Hladik, M, Daney, D, Tsigaridas, E. (2009), Bounds on eigenvalues and singular valuesof interval matrices. Institut National of de Recherche en Informatique et enAutomatique, 1234, 1-18.

Hladik, M, Daney, D, Tsigaridas, E.(2011), Characterizing and approximating eigenvaluesets of symmetric interval matrices. Computers and Mathematics with Applications,62, 3152-3163.

Page 154: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

140 BIBLIOGRAFÍA

Hoerl, A., Kennard, R. (1970), Ridge regression: Biased estimation for nonorthogonalproblems. Techonometrics. 12.55-67.

Hoeskuldsson, A. (1998), PLS regresion methods. J.Chemom. 2. 211-228.

Huang, Z., Wang, R., Shan, S., Li, X. and Chen, X. (2015), Log-Euclidean metric learningon symmetric positive de�nite manifold with application to image set classi�cation.Preprint.

Jhonson,R.A., Wichern, D.W. (2002), Applied multivariate statistical analysis. PrenticeHall, Upper Saddle River. NJ.

Lee, J.M. (1977), Riemannian manifolds: An introduction to curvature.

Li, Y. (2009), RADTI: Regression analysis of di�usion tensor images. Medical imaging.7259.

Lindgren, F. (1993), The Kernel algorthm for PLS. J.Chemom. 7. 45-59.

Manne, R. (1987), Analysis of two partial least sqares algorithms for multivariatecalibration. J.Chemom. Intell. Lab.Syst. 2. 187-197.

Milnor, J.W. (1963), Morse Theory. Princeton university press.

Milnor, J.W. (1997), Topology from the di�erentiable viewpoint. Princeton universitypress.

I.CVX Research (2012), CVX: Matlab software for disciplined convex programming,version 2.0. http://cvxr.com/cvx.

Moore, R, Baker, R, Claud, M (2009), Introduction to Interval Analysis. Society forIndustrial and Applied Mathematics, Philadelphia.

Munkres, J.R (1975), Topology: A �rst course. Prentice-Hall.

Neto, E.A, De Carvalho, Tenorio, C. (2004), Univariate and Multi-variate LinearRegression Methods to Predict Interval-valued Features, Springer-Verlag, Berlin.526-537.

Page 155: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

BIBLIOGRAFÍA 141

Neto, E, De Carvalho, Tenorio, C.(2005), Applying Constrained Linear AggressionModels to Predict Interval-Valued Data, Springer-Verlag,Berlin. 92-106.

Rådström, H. (1953), An embedding theorem for spaces of convex sets. AmericanMAthematical Society, 3, 165-169.

Rhon, J. (1993), Interval Matrices: Singularity and Real Eigenvalues. Society for Indus-trial and Applied Mathematics, 14, 82-91.

Rhon, J. (2011), Inverse Interval Matrix: A Survey. Electronic Journal in Linear Algebra,22, 704-719.

Rohn, J. (1993), Interval matrices: singularity and real eigenvalues. SIAM J, Matrix AnalApply. 14. 82-91.

Schwartzman, A. (2006), Random ellipsoids and false discovery rates: Statistics fordi�usion Tensor imaging data. Standford University. Ph. D Thesys.

Spivak, M. (1999), A comprehensive introduction to di�erential geometry. Publish orPerish. 1,2,3,4,5.

Storn, R., Price, K. (1997), Di�erential evolution-a simple and e�cient heuristic for globaloptimization over continuous spaces. Jornal of Global Optimization, 11, 341-359.

Stoyanov (2014), Eigenvalues of Symmetric Interval Matrices. Thesis of Master. CharlesUniversity in Praga.

Tibshirani, R. (1996), Regression shrinkage and selection via the lasso. Royal StatisticsSociety. 58. 267-288.

Valencia, L., Diaz, F., Calleja, S. (2003) Regresión PLS en las Ciencias Experimentales.Línea 300.

Wakeling, I.N, Mac�e, H.J. (1992), A robust PLS procedure. J.Chemom. 6. 189-198.

Wold, H. (1975), Soft Modeling by Latent Variables; The Non-linear Iterative PartialLeast Squares Approach. Perspectives in Probability and Statistics, , 1-2.

Page 156: Regresión por Mínimos Cuadrados Parciales PLS Aplicada a ... · condiciones falla entonces la regresión lineal múltiple ordinaria no es e caz. Por otro lado, la regresión lineal

142 BIBLIOGRAFÍA

Wold, H. (1985), Partial Least Squares. Encyclopedia of Statistical Sciences, 6, 581-591.

Wold, H. (2001), Personal Memories of the early PLS Development. Chemometrics andIntelligent Laboratory Sistems, 58, 109-130.

Wold, H. (1982), Estimation of Principal Components and Related Models by IterativeLeast Squares. In Krishnaiah, P(ed.), Multivariate Analysis, Academic Press. NewYork. 391-420.

Wold, S, Albano, C, DunnIII,J, Edlund, U, Esbensen, K, Geladi, P, Hellberg, S,Johansson, E, Lindberg,W (1984), Multivariate Data Analysis in Chemestry,in Chemometrics, Mathematics and Statistics in Chemestry. Reidel PublishingCompany. Dordrecht. 17-18.

Wu, H.C. (2007), The Karush-Kuhn-Tucker optimality conditions in an optimizationproblem with interval-valued objective function. European Journal of OperationalResearch. 176.46-59.

Wu, H.C. (2007), On interval-valued nonlinear programming problems. Journal ofMathematical Analysis and Applications. 5.299-316.

Wu, H.C. (2007), Wolfe duality for interval-valued optmization. Journal of MathematicalAnalysis and Applications. 138. 497-509.

Zhu, H., Chen, Y., Ibrahim, J., Li, Y., Hall, C., Lin, W. (2009), Intrinsic regression modelsfor positive-de�nite Matrices with applications to di�usion tensor imaging. Journalof american Statistical Association. 104. 1203-1212.