Mínimos cuadrados y optimización

23
M ´ ETODOS MATEM ´ ATICOS (Curso 2012-2013) Cuarto Curso de Ingeniero Industrial Departamento de Matem´atica Aplicada II. Universidad de Sevilla Lecci´ on 3: Problemas de M´ ınimos Cuadrados. Optimizaci´ on No Lineal PROBLEMAS SOBREDETERMINADOS: SOLUCI ´ ON DE M ´ INIMOS CUADRADOS. Introducci´ on. Hay muchas situaciones donde se plantea la obtenci´ on de un cierto modelo ma- tem´ atico lineal que ajuste a un conjunto de datos dados. Esto conduce usualmente a la resoluci´ on de un sistema de ecuaciones lineales con m´ as ecuaciones que inc´ognitas, o problema sobredeter- minado, que casi siempre resulta ser incompatible. Para dichos sistemas se introduce un concepto nuevo de soluci´ on (que coincide con el usual cuando el sistema es compatible), denominado so- luci´ on en el sentido de los m´ ınimos cuadrados, determinando vectores que minimicen la norma eucl´ ıdea del correspondiente vector residual. Problemas sobredeterminados. Cuando un sistema lineal tiene m´as ecuaciones que inc´ogni- tas es f´ acil que sea incompatible, esto es, que no posea soluci´ on. Dada una matriz A real de orden m × n y un vector b R m , si m>n se dice que el sistema Ax = b es sobredeterminado. En la pr´ actica es improbable que este sistema sea compatible. Por ello, introducimos un nuevo concepto de soluci´ on: se dice que ˜ x R n es una soluci´ on en el sentido de los m´ ınimos cuadrados del sistema Ax = b si se verifica que kb - A˜ xk≤kb - Axk , para todo x R n , o, equivalentemente, si ˜ x es un m´ ınimo de la funci´ on real de n variables, x R n 7f (x)= n X j =1 (b j - (Ax) j ) 2 . (1) Desde un punto de vista geom´ etrico, estamos buscando la mejor aproximaci´ on en norma eucl´ ıdea del vector b al subespacio vectorial col(A) generado por las columnas de A. El teorema de la mejor aproximaci´ on establece que la soluci´on de m´ ınimos cuadrados siempre existe y es justamente la proyecci´ on ortogonal de b sobre col(A). En particular, Si ˜ x es soluci´on de m´ ınimos cuadrados, entonces tenemos que b - A˜ x col(A) A T (b - A˜ x)=0 A T A˜ x = A T b. Por ´ ultimo, comentemos que si A no tiene rango m´ aximo siempre existen vectores x R n no nulos tales que Ax = 0 (observe que este sistema es compatible indeterminado). En este caso, 1

Transcript of Mínimos cuadrados y optimización

Page 1: Mínimos cuadrados y optimización

METODOS MATEMATICOS (Curso 2012-2013)Cuarto Curso de Ingeniero Industrial

Departamento de Matematica Aplicada II. Universidad de Sevilla

Leccion 3: Problemas de Mınimos Cuadrados.

Optimizacion No Lineal

PROBLEMAS SOBREDETERMINADOS: SOLUCION DE MINIMOSCUADRADOS.

Introduccion. Hay muchas situaciones donde se plantea la obtencion de un cierto modelo ma-tematico lineal que ajuste a un conjunto de datos dados. Esto conduce usualmente a la resolucionde un sistema de ecuaciones lineales con mas ecuaciones que incognitas, o problema sobredeter-minado, que casi siempre resulta ser incompatible. Para dichos sistemas se introduce un conceptonuevo de solucion (que coincide con el usual cuando el sistema es compatible), denominado so-lucion en el sentido de los mınimos cuadrados, determinando vectores que minimicen la normaeuclıdea del correspondiente vector residual.

Problemas sobredeterminados. Cuando un sistema lineal tiene mas ecuaciones que incogni-tas es facil que sea incompatible, esto es, que no posea solucion.

Dada una matriz A real de orden m× n y un vector b ∈ Rm, si m > n se dice que el sistemaAx = b es sobredeterminado. En la practica es improbable que este sistema sea compatible.Por ello, introducimos un nuevo concepto de solucion: se dice que x ∈ Rn es una solucion en elsentido de los mınimos cuadrados del sistema Ax = b si se verifica que

‖b− Ax‖ ≤ ‖b− Ax‖ , para todo x ∈ Rn,

o, equivalentemente, si x es un mınimo de la funcion real de n variables,

x ∈ Rn 7→ f(x) =n∑j=1

(bj − (Ax)j)2. (1)

Desde un punto de vista geometrico, estamos buscando la mejor aproximacion en normaeuclıdea del vector b al subespacio vectorial col(A) generado por las columnas de A. El teoremade la mejor aproximacion establece que la solucion de mınimos cuadrados siempre existe y esjustamente la proyeccion ortogonal de b sobre col(A).

En particular, Si x es solucion de mınimos cuadrados, entonces tenemos que

b− Ax ⊥ col(A)⇔ AT (b− Ax) = 0⇔ ATAx = AT b.

Por ultimo, comentemos que si A no tiene rango maximo siempre existen vectores x ∈ Rn nonulos tales que Ax = 0 (observe que este sistema es compatible indeterminado). En este caso,

1

Page 2: Mínimos cuadrados y optimización

si x es solucion de mınimos cuadrados tambien lo son x+ x, pues A(x+ x) = Ax. En cambio, siA es una matriz m× n, con m > n y rg(A) = n, la solucion de mınimos cuadrados sı es unica.

Resumimos todo lo anterior en el siguiente resultado:

Teorema 1. (Ecuaciones normales de Gauss). Sea A una matriz real m × n y b ∈ Rm. Lassiguientes afirmaciones son equivalentes:

x es una solucion en el sentido de los mınimos cuadrados del sistema Ax = b.

x es solucion del sistema ATAx = AT b (ecuaciones normales de Gauss).

b− Ax es ortogonal a col(A).

Ademas, si el rango de A es maximo, rg(A) = n, entonces la solucion de mınimos cuadrados esunica.

Nota 1. A las ecuaciones normales de Gauss tambien se llega sin necesidad de argumentosgeometricos. De hecho, la solucion de mınimos cuadrados x es un mınimo de la funcion fdefinida en (1) y por tanto, el gradiente de esta funcion debe anularse en x:

f(x) = ‖b− Ax‖2 = (b−Ax)T (b−Ax) = xTATAx−2xTAT b+bT b ⇒ ∇f(x) = 2(ATAx−AT b).

Las ecuaciones normales de Gauss estan peor condicionadas que otros sistemas que tam-bien permiten encontrar la solucion de mınimos cuadrados, por lo que no conviene usarlas enlos problemas de mınimos cuadrados. En realidad, las tecnicas eficientes para la resolucion delos problemas de mınimos cuadrados suelen basarse en transformar las ecuaciones normalesmediante ciertas factorizaciones matriciales que recordamos a continuacion.

Descomposicion QR de una matriz. Del mismo modo que el metodo de eliminacion de Gaussse traduce en la factorizacion LU de una matriz A, en la asignatura de Algebra de primer cursose mostro que cuando el metodo de ortogonalizacion de Gram-Schmidt se aplica a las columnasde una matriz A, se obtiene otro tipo de factorizacion para dicha matriz:

Teorema 2. (Descomposicion QR) Sea A una matriz real m × n, de rango n ≤ m. Entonces,podemos factorizar la matriz en la forma:

A = QR,

donde Q es una matriz m×m ortogonal (esto es, Q−1 = QT o equivalentemente, las columnasde Q son ortonormales), y R es una matriz m × n, de rango n, cuyas m − n ultimas filas sonnulas, y sus n primeras filas forman una matriz cuadrada triangular superior.

Si se conoce una descomposicion QR de la matriz A, entonces las soluciones en el sentido delos mınimos cuadrados de Ax = b se pueden calcular resolviendo (tambien en el sentido de losmınimos cuadrados) el sistema Rx = QT b. Ello es debido a que ATAx = AT b ⇒ RTQTQRx =RTQT b ⇒ RTRx = RTQT b.

El uso de la descomposicion QR para resolver por mınimos cuadrados el sistema Ax = bpresenta ventajas desde el punto de vista numerico: observe que el procedimiento llevado a cabo

2

Page 3: Mínimos cuadrados y optimización

involucra el producto por matrices ortogonales y este proceso conserva la norma matricial y elnumero de condicion.

No obstante, la obtencion de la factorizacion QR tal como se menciono en la asignatura deAlgebra (a traves del metodo de ortogonalizacion de Gram-Schmidt aplicado a las columnas dela matriz A) es un metodo inestable numericamente. A continuacion, presentamos un metodopara obtener dicha descomposicion que no presenta esta dificultad.

Metodo de Householder para la descomposicion QR. Un hiperplano V es un subespaciode Rm de dimension m − 1. Si una ecuacion implıcita de dicho hiperplano es vTx = 0 (paracierto vector no nulo v de Rm), entonces V = lin(v)⊥ o bien V ⊥ = lin(v).

Una simetrıa especular es una transformacion de Rm en sı mismo que a cada punto le hacecorresponder su simetrico respecto de un hiperplano V . Si V = lin(v)⊥, la simetrıa especular entorno a V es

x 7→(I − 2

vvT

vTv

)x.

La matriz Hv = I− 2vvT

vT vde la simetrıa especular se denomina matriz reflectora de Householder.

Esta matriz es simetrica y ortogonal. Ademas, dado un vector cualquiera x ∈ Rm, siempre esposible encontrar una matriz de Householder que lo transforma en uno proporcional al primervector coordenado e1 = [1, 0, . . . , 0]T :

Teorema 3. Sea x = [x1, . . . , xm]T ∈ Rm (m > 1), x 6= 0. Sea δ =

{sign(x1), si x1 6= 0

1, si x1 = 0

},

y definamos v = x + δ ‖x‖ e1. Entonces, la matriz de Householder Hv asociada a este vector,verifica:

Hv x =

−δ ‖x‖

0...0

.Pasemos a describir como se puede obtener la factorizacion QR de una matriz A m× n

(m ≥ n > 1) con rango rg(A) = n.Consideramos la primera columna de la matriz A:

b1 =

a11...am1

,Aplicando el teorema anterior, podemos determinar una matriz de Householder H1 (de ordenm) tal que la primera columna de H1A tenga las componentes nulas por debajo de la diagonal:

H1A = A(2) =

a(2)11 a

(2)12 . . . a

(2)1n

0 a(2)22 . . . a

(2)2n

......

...

0 a(2)m2 . . . a

(2)mn

.

3

Page 4: Mínimos cuadrados y optimización

Denotemos Q(1) = H1. Ahora nos fijamos en la segunda columna de la matriz A(2) a partir dela diagonal, en concreto en el vector

b2 =

a(2)22...

a(2)m2

.Volvemos a aplicar el teorema anterior y obtenemos una matriz de Householder H2 (de orden

m − 1) de modo que H2b2 tenga las componentes nulas por debajo de la primera. Por tanto sidefinimos

H2 =

[1 0T

0 H2

], tenemos que H2A

(2) = A(3) =

a(2)11 a

(2)12 a

(2)13 . . . a

(2)1n

0 a(3)22 a

(3)23 . . . a

(3)2n

0 0 a(3)33 . . . a

(3)3n

......

......

0 0 a(3)m3 . . . a

(3)mn

,

y denotamosQ(2) = H2.

Si continuamos el proceso sucesivamente, obtenemos el siguiente resultado:

Teorema 4. Si A es una matriz m × n con 1 < rg(A) = n ≤ m, el metodo anterior genera

una matriz m×m ortogonal Q =

{H1 . . . Hm−1, si m = nH1 . . . Hn, si m > n

, y una matriz m× n, R = A(m)

cuyas m− n ultimas filas son nulas y cuyas n primeras forman una matriz triangular superiorde rango n, y tales que

A = QR.

El coste computacional del metodo de Householder descrito anteriormente requiere 2m2n−n3

3flops, es decir, para matrices cuadradas es aproximadamente el doble que el de efectuar la

factorizacion LU de A con el metodo de eliminacion gaussiana.

MATRICES DE RANGO DEFICIENTE.

Introduccion. Anteriormente hemos tratado el caso de sistemas lineales Ax = b donde A tienemas filas que columnas, pero de rango maximo. Tratamos ahora el caso en que el rango no esmaximo. En este caso, la matriz A de coeficientes del sistema se dice que es de rango deficiente.

En el caso matrices de rango deficiente es posible tambien obtener la descomposicion QR.El siguiente resultado es analogo al que hemos visto anteriormente:

Teorema 5. Sea A una matriz real m× n, de rango r. Entonces, podemos factorizar la matrizen la forma:

A = QR,

4

Page 5: Mínimos cuadrados y optimización

donde Q es una matriz m × m cuyas columnas son ortogonales, y R es una matriz m × ntrapezoidal superior de rango r.

Ademas, eliminando en Q las columnas nulas, puede obtenerse una factorizacion A = Q1R1

tal que Q1 es una matriz m × r con columnas ortonormales y R1 es una matriz trapezoidalsuperior r × n (este ultimo tipo de factorizaciones QR se denominan factorizaciones QR nor-malizadas o reducidas).

Comentemos, por ultimo, que la descomposicion QR puede obtenerse mediante el metodode Householder.

Para matrices de rango deficiente es estandar aceptar como solucion la que se conoce comosolucion optima, que se define como la solucion x∗ en el sentido de mınimos cuadrados de normamınima, es decir, ‖x∗‖ ≤ ‖x‖ para toda solucion de mınimos cuadrados x de Ax = b.

El calculo efectivo de la solucion optima pasa por la descomposicion en valores singulares dela matriz A. Antes de ver como se calcula la solucion optima x∗, terminamos esta introduccioncon un resultado de caracterizacion de la misma:

Teorema 6. Sea A matriz m× n con rg(A) = r < n ≤ m y b ∈ Rn.

Si x es una solucion de mınimos cuadrados del problema Ax = b, entonces el conjunto desoluciones de mınimos cuadrados es

{y = x+ z|z ∈ Nul(A)}, donde Nul(A) = {z ∈ Rn|Az = 0}.

La solucion optima x∗ es la unica que satisface que zTx∗ = 0, para todo z ∈ Nul(A).

Descomposicion en valores singulares (SVD). Si A es una matriz m×n (m ≥ n) de rangor, la matriz ATA (que es simetrica y semidefinida positiva) tiene sus autovalores reales y nonegativos:

λ1 ≥ . . . ≥ λr > 0 = λr+1 = . . . = λn.

Consideremos la correspondiente base de autovectores asociados de la matriz ATA:

{v1, . . . , vn}, (es decir: ATAvj = λjvj, j = 1, . . . , n).

Esta base puede elegirse ortonormal (esto es: vTj vk = 0 si j 6= k, y ‖vj‖ = 1, j = 1, . . . , n).

Los valores singulares de la matriz A se definen como:

σj =√λj, j = 1, . . . , r.

Los vectores singulares derechos (o por la derecha) son v1, . . . , vn.

Los vectores singulares izquierdos o por la izquierda son

u1 =1

σ1Av1, . . . , ur =

1

σrAvr.

(note que solo incluimos los correspondientes a los autovalores no nulos). Puede compro-barse que {u1, ..., ur} es un sistema ortonormal en Rm. Dicho sistema puede ampliarsehasta una base ortonormal de Rm: {u1, . . . , ur, ur+1, . . . , um}.

5

Page 6: Mínimos cuadrados y optimización

Definimos ahora las matrices:

U = [u1, . . . , um]m×m, V = [v1, . . . , vn]n×n,

y la matriz:

Σ =

σ1 0 . . . 0 0 . . . 0

0 σ2. . .

......

......

. . . . . . 0 0 . . . 00 . . . 0 σr 0 . . . 00 . . . 0 0 0 . . . 0...

......

.... . .

...0 . . . 0 0 0 . . . 0

=

[Σ1 OO O

]m×n

.

Entonces, se tiene que AV = UΣ, y por tanto, obtenemos la siguiente factorizacion de la matrizA (conocida como descomposicion en valores singulares, abreviada SVD del ingles singular valuedecomposition):

A = UΣV T .

El siguiente teorema recoge la existencia y unicidad de la factorizacion SVD:

Teorema 7. Sea A una matriz m× n con m ≥ n, y de rango r ≤ n. Entonces, existen dosmatrices ortogonales U m×m y V n× n, y otra matriz Σ m× n tales que

A = UΣV T = U

[Σ1 OO O

]V T , donde Σ1 =

σ1 0 . . . 0

0 σ2. . .

......

. . . . . . 00 . . . 0 σr

,con σ1 ≥ . . . ≥ σr > 0. La matriz Σ esta determinada de forma unica. Los numeros σi sonnecesariamente los valores singulares de A (las raıces cuadradas de los autovalores no nulos dela matriz ATA).

Si tenemos la SVD para una matriz A m× n de rango r:

A = U

[Σ1 OO O

]V T , Σ1 = diag(σ1, . . . , σr),

se denomina matriz inversa generalizada de Moore-Penrose o pseudoinversa de A, a la matriz A+

n×m dada por

A+ = V

[Σ+ OO O

]UT , donde Σ+ = Σ−11 = diag(1/σ1, . . . , 1/σr).

Si la matriz A es cuadrada y no singular, se verifica que A+ = A−1, lo cual justifica el nombrede pseudoinversa. Por otro lado si A es m× n con rg(A) = n ≤ m, entonces A+ = (ATA)−1AT .Es decir, la pseudoinversa permite resolver las ecuaciones normales de Gauss, ATAx = AT b,cuando estas tienen solucion unica. En el caso de que la solucion no sea unica se tiene el siguienteresultado:

6

Page 7: Mínimos cuadrados y optimización

Teorema 8. Sean A matriz m × n con (m ≥ n), y b ∈ Rm. Entonces el vector x∗ ∈ Rn esla solucion optima del problema de mınimos cuadrados asociado al sistema Ax = b si y solo six∗ = A+b.

El metodo con el que hemos obtenido aquı la SVD no se debe emplear para su calculo efectivoen el ordenador. Hay otros procedimientos mas eficaces que no seran tratados en este curso. Nosbastara con saber que el costo de computacional es de

4m2n+ 8mn2 + 9n3 flops.

y que, en Matlab, se puede calcular con el comando svd.Son muchas las aplicaciones de la SVD. Ademas de las aplicaciones obvias (por ejemplo,

el calculo de ‖A‖ = σ1, o el calculo de bases ortonormales de Col(A) y Nul(A)), incluimos acontinuacion algunas de las mas importantes.

Rango aproximado de una matriz. El problema de calcular el rango de una matriz esun problema delicado desde el punto de vista numerico, ya que el condicionamiento de dichoproblema es muy malo. Este mal condicionamiento conduce a replantear la cuestion del rangoen terminos de los valores singulares de la matriz dada. Este cambio de enfoque se basa en que,si tenemos la SVD para una matriz A m× n de rango r, podemos escribir:

A = UΣV T = σ1u1vT1 + · · ·+ σrurv

Tr ,

es decir, la matriz de rango r puede expresarse como suma de r matrices de rango 1.El siguiente teorema muestra la distancia que hay entre la matriz A y las matrices de rango

p ≤ r:

Teorema 9. Si p ≤ r, definimos Ap := σ1u1vT1 + · · · + σpupv

Tp . Entonces, Ap es la matriz de

rango ≤ p mas cercana a A (es decir, ‖A− Ap‖ ≤ ‖A− B‖, para cualquier matriz B de rangop)

Ademas, ‖A− Ap‖ = σp+1.

Este resultado permite definir lo que se conoce como rango aproximado de una matriz A: elnumero de valores singulares mayores que una cierta magnitud prefijada.

Compresion de datos. Una aplicacion importante de la SVD es la de condensar informacionpara su almacenamiento, transmision o procesamiento. Esto es especialmente relevante en situa-ciones donde los tiempos de transmision son largos como es el caso de las comunicaciones vıasatelite.

Supongamos que una matriz A de dimensiones m × n representa una imagen digitalizadacompuesta por los correspondientes pixels o cuadrados en que se divide la imagen (aparte de unafotografıa discretizada, la matriz A podrıa representar, por ejemplo, un cuadro de temperaturasde una cierta superficie, etc).

El hecho crucial es que los valores singulares σj suelen decaer rapidamente con j, de maneraque si obtenemos la SVD de A = UΣV T = σ1u1v

T1 + · · · + σrurv

Tr , la estimacion A ≈ Ap es

7

Page 8: Mínimos cuadrados y optimización

bastante precisa desde un punto de vista grafico. La matriz Ap puede ser guardada, transmitidao procesada como

Ap ! [σ1;σ2; . . . ;σp;u1;u2; . . . ;up; v1; v2; . . . ; vp],

en forma de p(m+n+1) datos, en lugar de los mn iniciales (en la practica, este tipo de matricessolo tiene unos pocos valores singulares significativos: por ejemplo, para m = n = 1000, unaaproximacion de este tipo con p = 10 necesita 20010 datos (o sea, el 2 % de los datos inicialescon un ahorro del 98 %).

OPTIMIZACION NO LINEAL.

En las secciones anteriores se han resuelto dos problemas: determinar la solucion en el sen-tido de los mınimos cuadrados y obtener la solucion optima, que consisten en minimizar unadeterminada funcion de varias variables. En el primer caso se trataba de la norma del vectorresiduo y en el segundo caso se buscaba entre el conjunto de soluciones en el sentido de losmınimos cuadrados el vector de norma mınima. En esta seccion abordamos el problema masgeneral de minimizar una funcion de varias variables.

Un problema de optimizacion suele constar de dos componentes:

una funcion objetivo que se desea maximizar o minimizar, y

un conjunto de restricciones.

La funcion objetivo y las restricciones dependen de un conjunto de incognitas o variables paralas que se desea encontrar aquellos valores que optimicen la funcion objetivo y cumplan lasrestricciones.

No obstante, hay algunas excepciones en cuanto a la funcion objetivo. En primer lugar, enalgunos casos no se pretende optimizar nada sino solo encontrar un conjunto de valores quesatisfagan las restricciones del modelo; estos problemas se llaman de factibilidad. En segundolugar, es frecuente encontrarse con problemas en los que hay varias funciones a optimizar si-multaneamente y los valores que optimizan un objetivo no coinciden con los que optimizan otros.Este tipo de problema se encuadra en lo que se conoce como optimizacion multi-objetivo, quese encuentra fuera del alcance de esta asignatura.

En general, un problema de optimizacion no lineal tiene la formamınx f(x), x ∈ Rn,cj(x) ≤ 0, j ∈ D,cj(x) = 0, j ∈ I.

Sin embargo, los metodos que se desarrollan posteriormente se refieren unicamente a optimi-zacion sin restricciones, es decir, al caso en el que los conjuntos D e I son vacıos. La optimizacioncon restricciones no se tratara en este curso, si bien el conocimiento de los conceptos y metodosque a continuacion se desarrollan es util cuando se tratan de resolver problemas con restricciones.

En primer lugar, introduciremos conceptos y resultados elementales relativos a optimizacion.Para ello consideremos el problema de optimizacion:

8

Page 9: Mínimos cuadrados y optimización

mınx∈S⊂Rn

f(x).

Un punto x∗ ∈ S se dice que es un mınimo global si f(x) ≥ f(x∗), ∀x ∈ S, en tanto que se diceque es un mınimo local si ∃ε > 0, tal que f(x) ≥ f(x∗), ∀x ∈ S que verifique ||x − x∗|| < ε.De forma analoga se definen maximos locales y globales. La busqueda de extremos globalesconstituye la rama llamada optimizacion global.

Una de las propiedades que garantizan que todo mınimo local sea global es la convexidad. Engeneral se asume que el conjunto S donde se desea minimizar es convexo. Una funcion f : S → R,donde S ⊂ Rn es no vacıo y convexo, se dice que es convexa sobre S si:

f(λx+ (1− λ)y) ≤ λf(x) + (1− λ)f(y),

para cada x, y ∈ S y λ ∈ (0, 1). Se dice que f es estrictamente convexa si la desigualdad esestricta ∀x 6= y, ∀λ ∈ (0, 1), en cuyo caso un mınimo local es mınimo global unico. Una funciones concava si −f es convexa. Observese que, desde el punto de vista geometrico, la condicionde convexidad para una funcion significa que el segmento de recta que une dos puntos de lagrafica esta por encima de la propia grafica. Las funciones convexas son tales que sus conjuntosde nivel, es decir, los conjuntos {x ∈ S : f(x) ≤ a}, son convexos.

Las funciones convexas sobre conjuntos convexos tienen la propiedad de que los mınimoslocales son tambien mınimos globales. Si ademas la funcion es estrictamente convexa, enton-ces tiene a lo sumo un mınimo global. En el siguiente teorema se resumen los resultados masrelevantes.

Teorema.

1. Sea f : S ⊂ Rn → R, donde S es un conjunto convexo no vacıo.

Si f es diferenciable en S, entonces f es convexa si y solo si

f(y) ≥ f(x) + ∇f(x)T (y − x), ∀x, y ∈ S.

Si f ∈ C2(S), entonces f es convexa si y solo si la matriz hessiana de f , Hf (x) =

( ∂2f∂xi∂xj

) es semidefinida positiva ∀x ∈ S.

2. Condiciones necesarias: Sea f : S ⊂ Rn → R, donde S es abierto.

Si f es diferenciable y x∗ es un mınimo local, entonces ∇f(x∗) = 0.

Si f ∈ C2(S) y x∗ es un mınimo local, entonces Hf (x∗) es semidefinida positiva.

3. Condicion suficiente: Si f ∈ C2(S) donde S es un conjunto abierto, y x∗ ∈ S cumple que∇f(x∗) = 0 y Hf (x

∗) es definida positiva, entonces x∗ es un mınimo local.

El teorema anterior puede aplicarse al caso de maximos sin mas que cambiar f por −f .

9

Page 10: Mínimos cuadrados y optimización

METODOS DE DESCENSO DE MAYOR PENDIENTE Y DE NEWTON

En esta seccion consideramos el problema no restringido: mınx∈Rn f(x), y suponemos quetenemos garantizada la existencia de mınimo global. Por ejemplo, si f es continua y f(x)→ +∞para ||x|| → +∞ podemos garantizar dicha existencia: bastarıa con restringirnos a un conjuntocerrado y acotado (por ejemplo, {x ∈ Rn : f(x) ≤ f(x)}), y utilizar que toda funcion continuatiene un mınimo sobre un conjunto compacto.

Los algoritmos numericos usualmente consisten en generar, a partir de un punto inicial x(0),una sucesion de puntos x(1), x(2), . . . , x(k), x(k+1), . . ., tal que f(x(k+1)) < f(x(k)). En cada x(k),se elige una direccion d = dk, y se determina un paso tk de forma que x(k+1) = x(k) + tkdk.

El metodo del descenso mas rapido. En este metodo, la direccion dk que se elige es lade maximo decrecimiento de la funcion (que se produce, como ya se estudio en la asignatura deCalculo, en la direccion opuesta al gradiente de la funcion). Los metodos de descenso son, portanto, de la forma:

Paso 0 (Inicializacion). Se escogen el punto inicial x(0), la tolerancia ε > 0, y (posiblemente)el numero maximo de iteraciones. Se inicializa el contador de la sucesion: k = 0.

Paso 1 (Test de parada). Calculamos ∇f(x(k)); si ||∇f(x(k))|| ≤ ε, PARAR.

Paso 2 (Determinacion de la direccion). Elegimos la direccion de descenso mas rapido:

dk = −∇f(x(k)).

Paso 3 (Calculo del paso: busqueda lineal). Encontramos un valor de paso tk > 0 apropiado,que satisfaga

f(x(k) + tkdk) < f(x(k)).

Paso 4 (Iteracion). Hacemos x(k+1) = x(k) + tkdk, incrementamos k y volvemos al Paso 1.

Observemos que en el paso 1 se pueden utilizar otros criterios de parada como el numero maximode iteraciones o ||f(x(k+1) − f(x(k)|| < ε. Si en el Paso 3 se determina tk de forma que minimicela funcion q(t) = f(x(k) + tdk), se habla del metodo del descenso mas rapido con busqueda linealexacta. Sin embargo, este metodo, a pesar de gozar de propiedades teoricas de convergenciaen determinadas condiciones, suele ser muy lento en la practica, de hecho solo de convergencialineal. Realmente, descender por la direccion opuesta al gradiente impone pasos muy pequenos,con lo que la sucesion suele ser zigzagueante. El metodo se deberıa olvidar a no ser porque es labase de todos los metodos que se utilizan actualmente.

Busqueda lineal. Supongamos que se ha determinado una buena direccion de busqueda dy que queremos determinar el paso de avance. Consideremos, como hicimos anteriormente, lafuncion q : R→ R, q(t) := f(x+ td) y supongamos que q′(0) < 0.

El problema que ahora tenemos es encontrar el valor de t en el que la funcion q alcanza elmınimo. Este proceso da lugar a lo que se conoce como busqueda lineal exacta. No obstante,nuestro objetivo principal es minimizar f , y la minimizacion de q es un problema subsidiario:

10

Page 11: Mínimos cuadrados y optimización

aplicar un algoritmo de minimizacion para q en cada paso puede ser muy costoso en relacion alobjetivo planteado.

Para evitar este problema se pueden utilizar algoritmos de busqueda lineal imprecisa, en losque se establece un test con tres opciones: dado un valor de t > 0, el test decide si: (a) t essatisfactorio, (b) t es muy grande o, (c) t es muy pequeno.

Si el valor de t no es satisfactorio, se utiliza un metodo para calcular un nuevo valor de t(por ejemplo, mediante biseccion, utilizando un ajuste cubico de la funcion q, etc.).

Para el test se han desarrollado distintas reglas de busqueda, siendo la mas usada la denomi-nada regla de Wolfe: en primer lugar se escogen dos coeficientes 0 < m1 <

12< m2 < 1 (valores

comunes para m1 y m2 son 0.001 y 0.9, respectivamente) y:

(a) t es satisfactorio si q(t) ≤ q(0) +m1tq′(0) y q′(t) ≥ m2q

′(0).

(b) t es muy grande si q(t) > q(0) +m1tq′(0).

(c) t es muy pequeno si q(t) ≤ q(0) +m1tq′(0) y q′(t) < m2q

′(0).

Las condiciones anteriores implican que la funcion f no decrezca demasiado (con lo quex(k+1) no estara muy lejos de x(k)) y que la derivada se incremente bastante (con lo que x(k+1)

no estara muy cerca de x(k)).

El metodo de Newton. Si suponemos que la funcion a minimizar f ∈ C2(Rn), podemossustituirla por su aproximacion de segundo orden mediante el desarrollo de Taylor:

f(x(k) + d) ≈ f(x(k)) + dT ∇f(x(k)) +1

2dT Hf (x

(k)) d.

En el metodo de Newton, se toma x(k+1) = x(k) + dk, donde dk se obtiene imponiendo que elgradiente de la aproximacion de Taylor se anule, es decir:

∇f(x(k)) + Hf (x(k)) d = 0. (2)

Es inmediato comprobar que, si la matriz hessiana Hf es invertible en x(k), entonces la direccionde busqueda que utiliza el metodo de Newton es dk = − (Hf (x

(k)))−1∇f(x(k)).La ventaja del metodo de Newton es su convergencia cuadratica:Teorema. Sea f ∈ C3(Rn) y supongamos que Hf es invertible cerca de la solucion x∗.

Entonces, el metodo de Newton converge cuadraticamente (||x(k+1)− x∗|| ≤ β||x(k)− x∗||2, paraalgun β > 0) si se parte de un punto x(0) suficientemente cercano a x∗.

Observese que la convergencia del metodo de Newton no es global, en general diverge. Tam-bien requiere calcular el hessiano en cada iteracion, lo cual es costoso. Una vez calculado elhessiano hay que resolver un sistema de ecuaciones para obtener (Hf (x

(k)))−1∇f(x(k)). El calcu-lo del hessiano requiere la evaluacion de O(n2) derivadas parciales en el punto en cuestion, elgradiente la evaluacion de n derivadas y la resolucion de un sistema de n ecuaciones O(n3)operaciones. Finalmente, la sucesion generada por este metodo probablemente tendera al puntoestacionario mas cercano; si este es un maximo local, la propiedad de descenso f(x(k+1)) < f(x(k))no esta garantizada.

11

Page 12: Mínimos cuadrados y optimización

Mınimos cuadrados no lineales: Gauss-Newton. Muchos problemas de optimizacionconsisten en ajustar una determinada funcion a un conjunto de datos: se pretende encontraraquella funcion que minimice la suma de los cuadrados de los residuos (diferencia entre el valorteorico y el observado o experimental). En este apartado trataremos este tipo de problemas, elde minimizar funciones f : Rn → R de la forma:

f(x) =1

2

(F 21 (x) + · · ·+ F 2

m(x)).

Si definimos F : Rn → Rm : F (x) = (F1(x), . . . , Fm(x))T , entonces

∂f(x)

∂xj=

m∑i=1

Fi(x)∂Fi(x)

∂xj.

Ası:

∇f(x) =m∑i=1

∇Fi(x)Fi(x) = JF (x)T F (x).

Derivando de nuevo, obtenemos

∂2f(x)

∂xk∂xj=

m∑i=1

∂Fi(x)

∂xk

∂Fi(x)

∂xj+

m∑i=1

Fi(x)∂2Fi(x)

∂xk∂xj,

o matricialmente:

Hf (x) = JF (x)T JF (x) +m∑i=1

Fi(x)HFi(x),

donde JF (x) =(∂Fi(x)∂xj

)ij

denota a la matriz jacobiana de la funcion F.

Si las funciones Fi(x) son casi lineales, o bien la solucion en mınimos cuadrados proporcionaun buen ajuste y, por tanto, las Fi(x) son pequenas, entonces el segundo sumando se puededespreciar, con lo que nos resulta un metodo donde Hf (x) ≈ G(x) = JF (x)T JF (x). De estaforma, la ecuacion (2), en este caso particular, resulta:

JF (x(k))T JF (x(k)) dk = G(x(k)) dk = −JF (x(k))T F (x(k))

cuya direccion dk es la direccion del metodo de Gauss-Newton en el paso k-esimo. Observe queel metodo de Gauss-Newton esta bien definido siempre que G(x(k)) sea definida positiva.

El metodo de Gauss-Newton es aplicable a la resolucion de sistemas de ecuaciones no lineales:cualquier solucion del sistema

F1(x1, x2, . . . , xn) = 0F2(x1, x2, . . . , xn) = 0

. . .Fm(x1, x2, . . . , xn) = 0

es un mınimo global de la funcion

||F (x)||2 =m∑i=1

F 2i (x).

12

Page 13: Mínimos cuadrados y optimización

METODOS CUASI-NEWTON

Ya comentamos anteriormente que uno de los inconvenientes del metodo de Newton es el altocoste del calculo del hessiano en cada iteracion y la resolucion del correspondiente sistema lineal(2), que proporciona la direccion del metodo de Newton. Para solventar este inconveniente, unaposibilidad es sustituir la inversa del hessiano por una matriz a calcular en cada iteracion:

Wk ≈ (Hf (x))−1 .

Esto da lugar a una familia de metodos, denominados cuasi-Newton. En concreto, en estosmetodos se escoge una matriz inicial definida positiva W1. En la etapa k-esima, se calculadk = −Wk∇f(x(k)), para posteriormente calcular la nueva matriz Wk+1 recursivamente de laforma: Wk+1 = Wk + Bk. Las correcciones Bk se escogen de forma que Wk sea simetrica definidapositiva para todo k.

En lo que sigue denotaremos por sk := x(k+1) − x(k) e yk := ∇f(x(k+1)) − ∇f(x(k)). Lallamada ecuacion cuasi-Newton: Wk+1 yk = sk, se impone por analogıa con la que verifica elvalor medio de Hf (x) entre x(k) y x(k+1), es decir,

Hf (x) sk = Hf (x) (x(k+1) − x(k)) = ∇f(x(k+1))−∇f(x(k)) = yk,

forzando ası a que Wk+1 actue como (Hf (x))−1 en el subespacio de dimension 1 determinadopor yk.

El primer metodo cuasi-Newton fue el llamado de Davidon-Fletcher-Powell (DFP) que tienela forma:

Wk+1 = Wk +sk s

Tk

yTk sk− Wk yk y

Tk Wk

yTkWkyk.

Hoy en dıa sin embargo, es mas usado el metodo encontrado independientemente por Broy-den, Fletcher, Goldfarb y Shanno (BFGS):

Wk+1 = Wk −sk y

Tk Wk + Wk yk s

Tk

yTk sk+

[1 +

yTkWkykyTk sk

]sk s

Tk

yTk sk.

CUESTIONES

Ejercicio 1. Determinar la solucion de mınimos cuadrados, vıa las ecuaciones normales, de lossistemas sobredeterminados

x1 + x2 = 0−x1 + x2 = 1x1 + x3 = 1x1 + x2 = 1

,

3x1 − x2 = 0

4x1 + 2x2 = 2x2 = 1

.

Ejercicio 2. Probar que los autovalores de toda matriz ortogonal son de modulo unidad. De-mostrar que λ = −1 es siempre un autovalor de cualquier matriz de Householder. Interpretargeometricamente este hecho, para las matrices de orden dos.

13

Page 14: Mínimos cuadrados y optimización

Ejercicio 3. Utilizando transformaciones de Householder, obtener una factorizacion QR de lasmatrices

A =

[1 −11 0

], B =

0 1 1−1 1 1

0 1 0

, C =

0 1 10 0 11 2 1

.Ejercicio 4. Obtener la descomposicion en valores singulares de las matrices:

A =

1 1 11 1 11 1 11 1 1

, B =

1 0 0−1 0 0−1 1 0

, C =

0.0 −1.6 0.60.0 1.2 0.80.0 0.0 0.00.0 0.0 0.0

.Ejercicio 5. Aplicar el resultado del ejercicio anterior para encontrar la solucion optima delproblema de mınimos cuadrados Ax = b con b = [1, 2, 3, 4]T .

Ejercicio 6. Repetir los dos ejercicios anteriores con

A =

1 0 10 1 11 0 10 1 1

, b =

1234

.Ejercicio 7. Considere la matriz

A =

1 1−1 0

0 1

.

Calcule su descomposicion en valores singulares.

Calcule la solucion optima del sistema Ax = b con b = [ 1 2 3 ]T .

Sin realizar ningun calculo adicional, ¿cual es el rango y la norma de la matriz A?

Ejercicio 8. Probar que efectivamente A+b es la solucion optima del problema de mınimoscuadrados Ax = b.

Ejercicio 9. Mostrar que la pseudoinversa de una matriz A n× n verifica que

(AA+)T = AA+, (AA+)2 = AA+.

Interpretar el significado de las igualdades anteriores desde el punto de vista de la teorıa deaplicaciones lineales.

Ejercicio 10. Analizar la convexidad de la funcion

f(x, y) = 2(y − x2)2 − 10

sobre los siguientes conjuntos

14

Page 15: Mínimos cuadrados y optimización

1. S1 = [−1, 1]× [−1, 1],

2. un subconjunto convexo de S2 = {(x, y) ∈ R2 : x2 ≥ y}.

Ejercicio 11. Calcule analıticamente los puntos crıticos (donde el gradiente se anula) de lasfunciones:

f(x, y) = x4 − 2x2 + y2, g(x, y, z) = 2x2 + xy + y2 + yz + z2 − 6x− 7y − 8z + 9

y clasifique el comportamiento de f y g en ellos mediante el hessiano.

Ejercicio 12. Estimar el mınimo en R2 de la funcion cuadratica

f(x, y) = x2 − xy + y2 − 3y

mediante un paso del metodo de descenso de mayor pendiente con busqueda lineal exacta ypartiendo del origen. Determinar el error cometido en norma euclıdea.

Ejercicio 13. Obtener el punto resultante de aplicar busqueda lineal, partiendo del punto (0, 0)y con direccion (1,−1), a la funcion

f(x, y) = 5x2 + 5y2 − xy − 11x + 11y + 11.

¿Es dicho punto mınimo local de f en R2?

Ejercicio 14. Considere la funcion de dos variables

f(x, y) = (x− 2)4 + (x− 2y)2.

Estimar el mınimo de f mediante un paso del metodo de Newton partiendo del punto (0, 3).Calcular el error cometido en norma euclıdea.

Ejercicio 15. Realizar busqueda lineal exacta para la funcion f(x, y) = xy − 2x, partiendo de(0, 0) y siguiendo la bisectriz de los cuatro cuadrantes.

Ejercicio 16. Estimar el mınimo de la funcion f(x, y) = x2 + y2, mediante un paso del metodode Newton, partiendo de (1, 3).

Ejercicio 17. Estimar una solucion del sistema{x2 + y2 = 4

xy = 2

mediante un paso del metodo de Gauss-Newton sin busqueda lineal y partiendo de (1, 0).

15

Page 16: Mínimos cuadrados y optimización

PROBLEMAS

Problema 1. Se desea ajustar a un conjunto de datos bidimensionales, Z = {(xi, yi), i =1, 2, . . . , n}, curvas polinomicas y trigonometricas mediante el metodo de los mınimos cuadrados.

1. Disene una funcion en Matlab que ajuste la funcion y = a1sen(x) + a2cos(x) +a3sen(2x) + a4cos(2x), en el sentido de los mınimos cuadrados, al conjunto de puntosZ, es decir, que encuentre los valores de los parametros a1, a2, a3, a4 que resuelven el sis-tema sobredeterminado:

a1sen(x1) + a2cos(x1) + a3sen(2x1) + a4cos(2x1) = y1a1sen(x2) + a2cos(x2) + a3sen(2x2) + a4cos(2x2) = y2

· · ·a1sen(xn) + a2cos(xn) + a3sen(2xn) + a4cos(2xn) = yn

Los argumentos de entrada deben ser los vectores de abscisas, X = (x1, x2, . . . , xn)T , y deordenadas, Y = (y1, y2, . . . , yn)T , y los argumentos de salida deben ser el vector soluciona y la matriz A del sistema sobredeterminado.

2. Considere ahora el problema de ajustar un polinomio de grado N al mismo conjunto dedatos Z, es decir, se trata de encontrar un polinomio pN(x) = c0 + c1x + c2x

2 + · · · +cNx

N , cuyo vector de coeficientes cN = (c0, c1, c2, . . . , cN)t sea solucion en el sentido de losmınimos cuadrados del sistema AN cN = Y :

c0 + c1x1 + · · ·+ cNxN1 = y1

c0 + c1x2 + · · ·+ cNxN2 = y2

· · ·c0 + c1xn + · · ·+ cNx

Nn = yn

Los argumentos de entrada deben ser los vectores de abscisas, X = (x1, x2, . . . , xn)T , y deordenadas, Y = (y1, y2, . . . , yn)T , y el grado N del polinomio, y los argumentos de salidadeben ser la solucion cN y la matriz AN de coeficientes del sistema sobredeterminado.

3. Aplique las funciones de los apartados (1) y (2) (para N = 1, 2, 3, 4, 5) al siguiente conjuntode datos: {(0,−6), (π

4, 2), (π

2, 5), (3π

4,−1), (π,−2), (5π

4, 1), (3π

2, 3), (7π

4,−5), (2π,−6)}.

4. Compare los residuos, ||Aa?−Y || en el caso del ajuste trigonometrico y ||AN c?N−Y ||, N =1, 2, 3, 4, 5 en el polinomico, que resultan cuando se utilizan las funciones de los apartados(1) y (2), respectivamente (a∗ y c∗N son las correspondientes soluciones en el sentido de losmınimos cuadrados).

Problema 2. Considere la matriz

A =

1 2 3 45 6 7 89 10 11 12

13 14 15 1617 18 19 20

.

16

Page 17: Mínimos cuadrados y optimización

1. ¿Cual es el rango de A? Considere el vector b = [1, 1, 1, 1, 0]T . Estudie la compatibilidad delsistema Ax = b. Resuelva el sistema con la orden \ de Matlab. Resuelva las ecuacionesnormales de Gauss. ¿Que obtiene?

2. Construya una funcion de Matlab que devuelva la solucion optima en el sentido delos mınimos cuadrados. Los argumentos de entrada deben ser la matriz A y el vector b yla salida debe ser la solucion. Puede emplear la orden svd de Matlab para calcular ladescomposicion en valores singulares.

Calcule la norma de la solucion y comparela con las del apartado anterior. Explique elresultado.

3. Genere matrices aleatorias An de orden n y vectores aleatorios bn ∈ Rn con n = 40, 80, 160,320, 640 y calcule los tiempos de ejecucion para resolver los problemas Anx = bn,

con la orden \ de Matlab, y

con la descomposicion en valores singulares.

Escriba una tabla con los valores de n y los tiempos correspondientes, dibuje (de maneraaproximada) una grafica en escala logarıtmica y estime (tambien de manera aproximada)el orden de los dos metodos. ¿Le parece razonable que el comando \ de Matlab no calculela solucion optima por defecto? Justifique su respuesta.

Problema 3. En este problema se aborda la relacion entre la descomposicion en valores singu-lares y la compresion de imagenes digitales. Se recomienda consultar previamente la ayuda deMatlab sobre las ordenes image y colormap.

1. Localice y cargue el fichero binario clown.mat. Este fichero permite visualizar la fotografıade un payaso. ¿Serıa capaz de mostrar la foto solamente con tonalidades rosas? ¿y lograrque mire hacia la izquierda? Utilizando la paleta de colores gray, proponga razonadamentealguna operacion matricial que oscurezca la foto.

2. Disene una funcion en Matlab que muestre graficamente la aproximacion a los k valoressingulares mayores de una cierta imagen digital. Los argumentos de entrada deben ser lamatriz dada, el numero k y la matriz de la paleta de colores.

3. Ejecute la funcion anterior con la foto del payaso para diversos valores de k, usando comopaleta de colores gray. Proponga un valor de k lo mas pequeno posible de modo que laimagen aproximada del payaso reproduzca razonablemente la foto original. ¿Como elegirıadicho valor k con medios puramente analıticos?

4. Supongamos que queremos transmitir la foto anterior a un satelite y que la transmisionse hace pixel a pixel (esto supone usualmente 4 pixels por segundo). Determine el tiempoque tardarıa en enviarse la foto completa y la aproximacion a k0 valores singulares, conel valor k0 obtenido en el apartado anterior. Cuantifique el tanto por ciento de ahorro entiempo de transmision.

17

Page 18: Mínimos cuadrados y optimización

5. Suponga que se conoce la factorizacion SVD de una matriz que representa una foto digi-tal. ¿Como podrıa utilizar la factorizacion para distorsionar razonablemente la imagen?Verifique su hipotesis con la fotografıa del payaso.

Problema 4. Considere la funcion cuadratica f(x) = 12xTQx− bTx, siendo

Q =

1 1 1 11 2 3 41 3 6 101 4 10 20

, b =

18

189114151

.1. Demuestre analıticamente que el problema de minimizar la funcion f en todo R4 tiene

solucion unica y obtenga dicho mınimo mediante la resolucion del correspondiente sistemade ecuaciones lineales.

2. Compruebe analıticamente que para funciones cuadraticas definidas positivas

x ∈ Rn → 1

2xTQx − bTx ∈ R,

la formula para determinar la busqueda lineal exacta, partiendo de un vector w y usandocomo direccion (se supone que no nula) d = b − Qw, es

t =dTd

dTQd.

3. Disene una funcion en Matlab que implemente el metodo de descenso con busquedalineal exacta y tal que las iteraciones se paren cuando la tolerancia tomada como la nor-ma euclıdea de la diferencia de dos puntos consecutivos sea menor que un cierto valor.Los argumentos de entrada deben ser la matriz Q, el vector b, el vector inicial x(0) y latolerancia.

4. Utilizando la funcion anterior, partiendo del origen y con tolerancia 10−3, 10−4 estime elmınimo global de f . ¿Cuantas iteraciones fueron necesarias en ambos casos? ¿era previsibledicho numero?

5. En la expresion de f , cambie la matriz Q por la matriz Q − 0.5I, y repita el apartadoanterior para la nueva funcion con las mismas especificaciones que antes. ¿Por que elresultado ahora no es razonable?

Problema 5. Considere la funcion de Rosenbrock

f(x, y) = 100(x2 − y)2 + (1 − x)2.

1. Determine analıticamente los mınimos de la funcion anterior. ¿Es f convexa en todo elplano?

18

Page 19: Mínimos cuadrados y optimización

2. Utilizando las ordenes meshgrid y contour, obtenga un esquema de las curvas de nivelde la funcion anterior en el rectangulo [−2, 2] × [−1, 3]. ¿Por que cree que se consideraa esta funcion un buen test para medir la eficiencia de algoritmos de optimizacion sinrestricciones?

3. Partiendo del punto (−1.9, 2), aplique la orden fminsearch para estimar el mınimo def , primero sin imponer vector de opciones y despues exigiendo que la terminacion portolerancia en el vector sea 10−8. Repita el proceso pero partiendo ahora del punto (1.9, 2).

4. Disenar sendas funciones de Matlab para evaluar el gradiente y la matriz hessiana encada punto, aplicando formulas de derivacion aproximada:

f ′(x) ≈ f(x+ h)− f(x− h)

2h, f ′′(x) ≈ f(x+ h)− 2f(x) + f(x− h)

h2.

5. Disene una funcion que implemente el metodo de Newton en la que los argumentos deentrada sean la funcion, el punto inicial y la tolerancia y los de salida, la aproximacional mınimo y el numero de iteraciones. Aplique dicha funcion al calculo del mınimo de lafuncion de Rosenbrock.

EJERCICIOS DE EXAMENES DE CURSOS ANTERIORES

Segundo Parcial. Curso 2008-2009.Ejercicio 4. Considere la funcion

f(x, y, z) = (x y z)

4 1 01 2 10 1 2

xyz

− ( 4 0 −2) x

yz

+ 2 .

Determine y clasifique los extremos locales y globales. ¿Donde es convexa esta funcion?Efectue un paso del metodo del descenso mas rapido con busqueda lineal exacta partiendo

del origen y obtenga el error cometido.

Examen Final. Curso 2008-2009.Ejercicio 2. Considere la matriz:

A =

4 0 00 0 00 0 70 0 0

.Calcule su descomposicion en valores singulares.

Calcule la matriz pseudoinversa A+.

Calcule la solucion optima del sistema Ax = b con b = [1, 0, 0, 0]T .

19

Page 20: Mínimos cuadrados y optimización

Ejercicio 4. Utilizando matrices de Householder, obtenga una factorizacion QR de

A =

3 4 −40 0 −10 −4 4

.Ejercicio 7. Dada la funcion

f(x, y) = x2 + 2y2 − 2xy − 2x,

demuestre que tiene un unico mınimo global y halle el punto en el que se alcanza. Aproximeeste punto mediante un paso del metodo del descenso mas rapido con busqueda lineal exacta,partiendo del punto (−1, 1).

Examen de Septiembre. Curso 2008-2009.Ejercicio 2. Utilizando matrices de Householder, obtenga una factorizacion QR de

A =

0 1 10 0 11 2 1

.Utilıcela para resolver el sistema Ax = b, siendo b = [0, 1, −1]T .

Ejercicio 4. Se sabe que la funcion

f(x, y) = x3 + kxy + y2 − x

tiene un mınimo local en el punto (x, y) = (1, 1).

1. Determine el valor de k. Justifique que es un mınimo calculando la matriz hessiana.

2. Realice un paso del metodo de descenso de mayor pendiente con busqueda lineal exacta,partiendo del punto (x0, y0) = (0,−1). Compare los valores de f(x, y) en los tres puntos:(x, y), (x0, y0) y el hallado (x1, y1).

3. Determine la direccion de busqueda para la cual, realizando un unico paso con busquedalineal exacta, partiendo del punto (x0, y0) = (0,−1), obtenemos el valor mınimo exacto.¿Cual es el valor del paso?

Primer Parcial. Curso 2009-2010.Ejercicio 2.(a) Calcule la factorizacion QR de la matriz

A =

1 0 02 1 1−2 −2 2

.empleando transformaciones de Householder.

20

Page 21: Mínimos cuadrados y optimización

(b) Calcule una matriz de Householder que transforme el vector x =

201

en el vector y = 02−1

.

Ejercicio 3. Calcule todas las soluciones en el sentido de los mınimos cuadrados del sistema

A =

x1 − x2 = 42x1 − 2x2 = 3−x1 + x2 = −2

Determine la solucion optima y compruebe el resultado hallando la matriz pseudoinversa.

Ejercicio 4. Sea la funcion

f(x, y) = x3 + y2 − 6xy + 9x+ 2y.

(1) Calcule y clasifique sus puntos crıticos.

(2) Determine un semiplano en el que la funcion anterior sea convexa.

(3) Efectue un paso del metodo del descenso mas rapido con busqueda lineal exacta partiendodel punto (0, 3

2).

Examen Final. Curso 2009-2010.Ejercicio 2. Sean la matriz y el vector

A =

1 −1 20 3 −30 −4 4

, b =

012

.(1) Encuentre las ecuaciones normales de Gauss del sistema de ecuaciones Ax = b y resuelvalas.

(2) Calcule las soluciones en el sentido de los mınimos cuadrados del sistema Ax = b utilizandoel metodo de Householder.

Ejercicio 3. Sean la matriz y el vector

A =

1 11 11 11 1

, b =

3201

.(1) Calcule A+, la matriz pseudoinversa de A.

(2) Obtenga la solucion optima del sistema Ax = b.

21

Page 22: Mínimos cuadrados y optimización

Ejercicio 4. Considere la funcion

f(x, y, x) = x3 + y3 + z3 − 3x− 3y − 3z.

(1) Demuestre que esta funcion es convexa en el conjunto{(x, y, z) ∈ R3 : x ≥ 0, y ≥ 0, z ≥ 0

}.

(2) Obtener todos sus puntos crıticos, y demostrar que solo uno de ellos es un mınimo local.

(3) Dar un paso del metodo de descenso partiendo del origen, con busqueda lineal exacta.

Examen de Septiembre. Curso 2009-2010.Ejercicio 2. Considere la funcion

f(x, y) = x2 + y2 − log(x+ y), con x+ y > 0.

(1) Estudiar si la funcion es convexa.

(2) Obtener los mınimos locales.

(3) Efectuar un paso del metodo de descenso mas rapido con busqueda lineal exacta, partiendode (x0, y0) = (0, 1). Determinar el error absoluto de la aproximacion obtenida.

Primer Parcial. Curso 2010-2011.

Ejercicio 3. Considere la matriz y el vector siguientes

A =

4 3 5−3 4 00 0 30 0 4

, b =

0034

.Empleando transformaciones de Householder, obtenga la factorizacion QR de A.

Resuelva el sistema Ax = b en el sentido de los mınimos cuadrados usando la factorizacionanterior.

Ejercicio 4. Considere el sistema {x2 + y2 = 1,x− y = 0.

Calcule sus soluciones.

Efectue un paso del metodo de Gauss-Newton, partiendo del punto (x0, y0) = (1, 1).

Determine el error absoluto que se comete en (x1, y1).

22

Page 23: Mínimos cuadrados y optimización

Examen Final. Curso 2010-2011.Ejercicio 3. Considere la matriz y el vector siguientes:

A =

1 −1 −12 0 1−2 7 1

, b =

04−7

.Utilizando matrices de Householder, encuentre la factorizacion A = QR.

A la vista de dicha factorizacion, deduzca que el sistema es compatible determinado.

Resuelvalo mediante la factorizacion QR.

Ejercicio 4.

1. Analice la convexidad de la funcion:

f(x, y) = 2(y − x2)2 + 4x2,

en el cuadrado (−2, 2) × (−2, 2) y en cualquier conjunto convexo contenido en {(x, y) ∈R2 : x2 ≥ y}.

2. Efectue un paso del metodo de Newton partiendo de x(0) = [1, 1]T .

3. Calcule el error absoluto que se comete en dicho punto.

Examen de Septiembre. Curso 2010-2011.Ejercicio 1.Considere la matriz de Householder que transforma x = [1, 2, 2]T en y = [−3, 0, 0]T . Calcule sufactorizacion QR.Ejercicio 2.Considere la funcion

f(x, y) = 2x2 + 2y2 − xy.

Demuestre que la funcion f tiene un mınimo global unico y calcule el punto en el que se alcanza.Aproxime este punto realizando un paso del metodo de descenso mas rapido con busqueda linealexacta partiendo del punto (1, 1). ¿Que obtiene? ¿Por que?

23