Apuntes (Curso-09-10)

97
APUNTES DE OPTIMIZACI ´ ON Marco Antonio L´ opez Cerd´ a Francisco Javier Arag´ on Artacho Departamento de Estad´ ıstica e Investigaci´ on Operativa Universidad de Alicante Mayo 2009

Transcript of Apuntes (Curso-09-10)

Page 1: Apuntes (Curso-09-10)

APUNTES DE

OPTIMIZACION

Marco Antonio Lopez Cerda

Francisco Javier Aragon Artacho

Departamento de Estadıstica e Investigacion Operativa

Universidad de Alicante

Mayo 2009

Page 2: Apuntes (Curso-09-10)

Los autores quieren manifestar su agradecimiento a los Profs. Lola Canovas y Juan Parra,

de la Universidad Miguel Hernandez, por sus aportaciones en la elaboracion de este material

docente. Particularmente por la esmerada redaccion de buena parte del Capıtulo 13.

Page 3: Apuntes (Curso-09-10)

Indice

1. Optimizacion sin restricciones 1

1.1. Condiciones de optimalidad para el problema irrestringido . . . . . . . . . . . . . 1

2. Metodos de busqueda lineal 4

2.1. Familia de metodos del gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3. Tamano de paso 6

3.1. Condiciones de Wolfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3.2. Condiciones de Goldstein y “backtracking” . . . . . . . . . . . . . . . . . . . . . 10

4. Convergencia de los metodos de busqueda lineal 11

4.1. Metodos del gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

5. Tasa de convergencia 14

6. Analisis del modelo cuadratico 19

6.1. Metodo del descenso mas rapido . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

6.2. Metodos del gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

6.3. Caso general: funciones no cuadraticas . . . . . . . . . . . . . . . . . . . . . . . . 24

7. Resultados sobre la tasa de convergencia 24

7.1. Convergencia superlineal de los metodos quasi-Newton . . . . . . . . . . . . . . . 24

8. El metodo de Newton y sus variaciones 27

8.1. Convergencia local . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

8.2. Convergencia global . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

8.2.1. Metodos de las regiones de confianza (’trust region’ methods) . . . . . . . 30

9. Problemas de Mınimos-Cuadrados 31

10. Metodos de direcciones conjugadas 33

10.1. El metodo del gradiente conjugado . . . . . . . . . . . . . . . . . . . . . . . . . . 35

11. Metodos Quasi-Newton 38

11.1. Comparacion de los metodos Quasi-Newton con otros metodos . . . . . . . . . . . 42

12. Metodos que no usan derivadas 42

12.1. Metodo de descenso por coordenadas . . . . . . . . . . . . . . . . . . . . . . . . 42

12.2. El metodo simplex de Nelder y Mead . . . . . . . . . . . . . . . . . . . . . . . . 43

13. Optimizacion con restricciones 46

13.1. Restricciones en forma de igualdad . . . . . . . . . . . . . . . . . . . . . . . . . . 46

13.2. Restricciones en forma de desigualdad . . . . . . . . . . . . . . . . . . . . . . . . 53

13.3. Problemas de PNL con igualdades y desigualdades. . . . . . . . . . . . . . . . . . 68

13.3.1. Apendice A: Las condiciones de Fritz-John . . . . . . . . . . . . . . . . . 70

Page 4: Apuntes (Curso-09-10)

13.3.2. Apendice B: El teorema de la funcion implıcita. Aplicacion en la obtencion

de condiciones de optimalidad . . . . . . . . . . . . . . . . . . . . . . . . 71

13.3.3. Demostracion del Theorem 58 (iii) . . . . . . . . . . . . . . . . . . . . . . 71

13.3.4. Apendice C: Complementos diversos . . . . . . . . . . . . . . . . . . . . 73

13.3.5. Apendice D: Condiciones de segundo orden . . . . . . . . . . . . . . . . . 75

13.3.6. Interpretacion de los multiplicadores de KKT . . . . . . . . . . . . . . . . 79

14. Metodos de penalizacion 83

14.1. Metodos que utilizan funciones de penalizacion exteriores . . . . . . . . . . . . . 84

15. Apendice 90

15.1. Numero de condicion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

Bibliografıa 92

Page 5: Apuntes (Curso-09-10)

1. Optimizacion sin restricciones

Sea el problema de optimizacion

(P) ≡ ( f ,X) := mın f (x)s.a x ∈ X ⊂ R

n

siendo f : X → R, f ∈ C 2(X). Si X ≡ Rn se dice que (P) es un problema de optimizacion sin

restricciones.

1.1. Condiciones de optimalidad para el problema irrestringido

Teorema 1. Sea x∗ un mınimo local de f : Rn → R, y asumamos que f es diferenciable en x∗.

Entonces

∇ f (x∗) = 0n (Condicion necesaria de 1er orden).

Si, ademas, f es dos veces diferenciable en x∗, se cumple tambien que

∇2 f (x∗) � 0 (Condicion necesaria de 2o orden),

es decir, ∇2 f (x∗) es una matriz semidefinida positiva.

Demostracion. Fijemos p ∈ Rn, p 6= 0n. Entonces

0 ≤ lımα↓0

f (x∗ +α p)− f (x∗)α

= f ′(x∗; p) = ∇ f (x∗)T p,

donde f ′(x∗; p) representa la derivada direccional de la funcion f en el punto x∗ y en la direccion

p. La desigualdad viene dada por ser x∗ mınimo local de f . Obviamente, ∇ f (x∗)T p ≥ 0,∀p 6= 0n,

implica ∇ f (x∗) = 0n.

Si f es dos veces diferenciable en x∗

f (x∗ +α p)− f (x∗) = α∇ f (x∗)T p+α2

2pT ∇2 f (x∗)p+o(α2).

Teniendo en cuenta que ∇ f (x∗) = 0n, y dada la optimalidad local de x∗, deducimos que si α es

suficientemente pequeno

0 ≤ f (x∗ +α p)− f (x∗)α2

=1

2pT ∇2 f (x∗)p+

o(α2)

α2.

Tomando lımites cuando α → 0, y dado que lımα→0o(α2)

α2 = 0, deducimos pT ∇2 f (x∗)p ≥ 0, es

decir ∇2 f (x∗) es semidefinida positiva.

Proposicion 2. Supongamos que f es una funcion convexa y diferenciable en Rn. Entonces x∗ es

un mınimo global de f si, y solo si, ∇ f (x∗) = 0n, en otras palabras, la condicion necesaria de

optimalidad de 1er orden es tambien suficiente para funciones convexas diferenciables.

Observacion 3. Recuerdese que para funciones convexas, todo mınimo local es global.

1

Page 6: Apuntes (Curso-09-10)

Demostracion. Solo hay que probar que ∇ f (x∗) = 0n es tambien condicion suficiente para que x∗

sea un mınimo global de f .Al ser f es convexa y diferenciable en R

n, sabemos del curso de Analisis Convexo que

f (x) ≥ f (x∗)+∇ f (x∗)T (x− x∗), ∀x ∈ X .

Obviamente, si ∇ f (x∗) = 0n se verificara f (x) ≥ f (x∗), ∀x ∈ X .

En ausencia de convexidad establecemos la siguiente condicion suficiente de optimalidad:

Teorema 4. Sea f : Rn → R, f ∈ C 2(W ), siendo W abierto de R

n. Supongamos que x∗ ∈ W y

∇ f (x∗) = 0n. Entonces se tiene:

(i) Si ∇2 f (x∗) ≻ 0, es decir si ∇2 f (x∗) es una matriz definida positiva, x∗ es un mınimo local

estricto (irrestingido) de la funcion f y existen escalares γ > 0 y ε > 0 tales que

f (x) ≥ f (x∗)+ γ ‖x− x∗‖2 , ∀x ∈ B(x∗;ε). (1)

(ii) Si ∇2 f (x∗) tiene valores propios de distintos signos, x∗ es un punto de silla.

Demostracion. (i) Al ser f ∈ C 2(W ), ∇2 f (x∗) sera simetrica, y sus valores propios seran todos

numeros reales. Como ∇2 f (x∗) es, por hipotesis, definida positiva, sus valores propios seran todos

positivos, y representaremos por λ1 el mas pequeno de dichos valores propios. Si u1,u2, . . . ,un

son vectores propios ortonormales asociados a los valores propios λ1 ≤ λ2 ≤ ... ≤ λn, todo vector

p ∈ Rn podra expresarse de la siguiente forma:

p =n

∑i=1

ρiui.

Por lo tanto

∇2 f (x∗)p =n

∑i=1

ρi∇2 f (x∗)ui =

n

∑i=1

ρiλiui,

y

pT ∇2 f (x∗)p =

{n

∑i=1

ρiuTi

}{n

∑j=1

ρ jλ ju j

}=

n

∑i=1

ρ2i λi ‖ui‖2 =

n

∑i=1

ρ2i λi ≥ λ1‖p‖2 .

Utilizando esta acotacion, la condicion de estacionariedad ∇ f (x∗) = 0n y el desarrollo de Taylor

de segundo orden, se obtiene para todo p:

f (x∗ + p)− f (x∗) = ∇ f (x∗)T p+1

2pT ∇2 f (x∗)p+o(‖p‖2)

≥ λ1

2‖p‖2 +o(‖p‖2) =

(λ1

2+

o(‖p‖2)

‖p‖2

)‖p‖2 .

Hemos comprobado, pues, que (1) es satisfecha para cualquier ε > 0 y γ > 0 tales que

λ1

2+

o(‖p‖2)

‖p‖2≥ γ, ∀p tal que ‖p‖ < ε.

Podrıa tomarse, por ejemplo, γ = λ14

.

2

Page 7: Apuntes (Curso-09-10)

(ii) Si ∇2 f (x∗) tiene valores propios de distintos signos, sera λ1 < 0 y λn > 0. Si u1 es un vector

propio de norma uno asociado a λ1 se verificara

f (x∗ +αu1)− f (x∗) = α∇ f (x∗)T u1 +1

2α2uT

1 ∇2 f (x∗)u1 +o(α2)

=λ1

2α2 +o(α2) =

(λ1

2+

o(α2)

α2

)α2.

Existira pues α0 > 0 tal que

f (x∗ +αu1)− f (x∗) =

(λ1

2+

o(α2)

α2

)α2 < 0, ∀α ∈]0,α0[.

Si un es un vector propio de norma uno asociado a λn, un razonamiento paralelo conduce a la

conclusion de que existe µ0 > 0 tal que

f (x∗ + µun)− f (x∗) =

(λn

2+

o(µ2)

µ2

)µ2 > 0, ∀µ ∈]0,µ0[.

Por tanto, x∗ es un punto de silla.

Proposicion 5. Sea f : R2 → R, f ∈ C 2(W ), siendo W abierto de R

2. Supongamos que x∗ ∈W y

∇ f (x∗) = 0n. Sean

∇2 f (x∗) =

(A B

B C

)y ∆ := det∇2 f (x∗) = AC−B2.

Entonces se tiene:

(i) Si ∆ < 0, x∗ es un punto de silla.(ii) Si ∆ > 0 y A > 0, x∗ es un mınimo local estricto.

(iii) Si ∆ > 0 y A < 0, x∗ es un maximo local estricto.

Demostracion. La ecuacion caracterıstica

det(∇2 f (x∗)−λ I) = 0,

que hay que resolver para calcular los valores propios es la ecuacion de segundo grado

λ 2 − (A+C)λ +∆ = 0.

Sus raıces, λ1 y λ2, estan relacionados con sus coeficientes del siguiente modo

λ1 +λ2 = A+C, λ1λ2 = ∆.

(i) Si ∆ < 0, los autovalores tienen signos opuestos y por el teorema anterior, x∗ es un punto de

silla.(ii) e (iii) Si ∆ > 0, los autovalores tiene el mismo signo. En este caso

AC > B2 ≥ 0,

con lo que A y C tienen el mismo signo, el mismo que λ1 y λ2 al ser λ1 +λ2 = A+C. Esto prueba

(ii) e (iii).

3

Page 8: Apuntes (Curso-09-10)

OPTIMIZACION: ALGORITMOS

En un problema de optimizacion sin restricciones, se pretende minimizar una funcion objetivo

f : Rn → R (que supondremos generalmente suave) que depende de n ≥ 1 variables reales, cuyos

valores no estan restringidos.

Un algoritmo debe generar, a partir de un punto inicial x0, una sucesion de puntos x1,x2, . . . Para

decidir como pasar de una iteracion xk a la siguiente los algoritmos utilizan informacion sobre f en

xk (y quizas tambien sobre las anteriores iteraciones x0, . . . ,xk−1). Normalmente esta informacion

no la obtenemos “gratuitamente”, por lo que preferiremos algoritmos que no hagan uso de esta

informacion innecesariamente.

2. Metodos de busqueda lineal

El algoritmo elige una direccion pk y busca a partir del punto xk una nueva iteracion en esta

direccion con un valor de la funcion menor, avanzando αk en la direccion pk. La distancia que nos

movemos a lo largo de pk puede encontrarse resolviendo aproximadamente el siguiente problema:

mınα>0

f (xk +α pk). (2)

El coste de resolver exactamente (2) serıa elevado e innecesario. En su vez, los algoritmos gene-

ran un numero limitado de longitudes de paso de prueba hasta encontrar una que se aproxime al

mınimo de (2). La iteracion vendrıa dada por

xk+1 = xk +αk pk, (3)

donde pk es la direccion de busqueda y αk es el tamano del paso. La eficiencia del metodo depen-

dera de ambas elecciones.

x�pk

pk+1

xk

xk+1

xk+2

f(x)=c0

f(x)=c1 <c0

f(x)=c2 <c1

Figura 1: Algoritmo de busqueda lineal para minimizar una funcion f .

La mayorıa de los metodos de busqueda lineal exigen que pk sea una direccion de descenso:

4

Page 9: Apuntes (Curso-09-10)

Definicion 6. Se dice que pk es una direccion de descenso para la funcion f en xk si

f ′(xk; pk) = ∇ f (xk)T pk < 0. (4)

Las direcciones de descenso nos garantizan un decrecimiento del valor de f cuando se parte de

xk en la direccion pk: para α > 0 suficientemente pequeno se tiene

f (xk+1) = f (xk +α pk) = f (xk)+α∇ f (xk)T pk +O(α2) < f (xk). (5)

Para simplificar, denotaremos ∇ f (xk) ≡ ∇ fk.

La direccion unitaria de decrecimiento mas rapido sera la solucion del problema

mın‖p‖=1

pT ∇ fk. (6)

Como pT ∇ fk = ‖p‖‖∇ fk‖cosθ , donde θ es el angulo entre p y ∇ fk, tenemos que (6) es minimi-

zado cuando cosθ toma su valor mınimo −1 en θ = 180◦, es decir, cuando

p = − ∇ fk

‖∇ fk‖. (7)

Esta direccion es la que se utiliza en el llamado metodo del descenso mas rapido. Debido a (5),

cualquier direccion que forme un angulo menor de 90◦ con −∇ fk sera una direccion de descenso.

2.1. Familia de metodos del gradiente

Se llama ası al conjunto de metodos cuya direccion de busqueda tiene la forma

pk = −B−1k ∇ fk, (8)

donde Bk es una matriz simetrica no singular. Observese que si Bk es definida positiva, se trata de

un metodo de descenso, ya que si ∇ fk 6= 0,

f ′(xk; pk) = ∇ f (xk)T pk = −∇ f (xk)

T B−1k ∇ fk pk < 0.

Los algoritmos mas importantes son:

Bk = I, en el metodo de descenso mas rapido (7);

Bk = ∇2 fk, en el metodo de Newton;

Bk ≈ ∇2 fk, en los metodos quasi-Newton.

La idea del metodo de Newton es minimizar en cada iteracion la aproximacion de segundo

orden de f (xk + p):

f (xk + p) ≈ fk + pT ∇ fk +1

2pT ∇2 fk p =: mk(p). (9)

Suponiendo por el momento que ∇2 fk es definida positiva, al buscar el vector p que minimiza

mk(p) obtenemos la direccion de Newton. Efectivamente, igualando a cero la derivada de mk(p),encontramos su forma explıcita:

pk = −(∇2 fk)−1∇ fk. (10)

5

Page 10: Apuntes (Curso-09-10)

En el metodo de Newton puro, la longitud de paso se toma constante αk = 1. Observese que este

metodo encuentra el mınimo en un solo paso cuando f es una forma cuadratica definida positiva.

La mayorıa de las implementaciones del metodo de Newton utilizan la longitud de paso α = 1

cuando es posible y solo ajustan su tamano en caso de no producirse una reduccion satisfactoria en

el valor de f . Cuando ∇2 fk no es definida positiva, la direccion de Newton (10) podrıa no existir

o no ser una direccion de descenso. En este caso, los metodos de busqueda lineales modifican la

direccion pk para convertirla en una direccion de descenso.

3. Tamano de paso

Al calcular la longitud de paso αk debemos equilibrar dos objetivos. Por un lado nos gustarıa

elegir αk de manera que f se reduzca sustancialmente, pero al mismo tiempo, no queremos dedicar

un tiempo excesivo en su eleccion. La eleccion ideal serıa un mınimo de la funcion univariante φ(·)definida por

φ(α) := f (xk +α pk), α > 0, (11)

pero, en general, es muy costoso computacionalmente la identificacion de dicho(s) valor(es). Inclu-

so, encontrar un mınimo local de φ con una moderada precision requiere generalmente demasiadas

evaluaciones de f y posiblemente de su gradiente ∇ f . Estrategias mas practicas realizan busque-

das lineales inexactas para identificar un αk que consiga una adecuada reduccion de f con un coste

mınimo.

Los algoritmos tıpicos de busqueda lineal prueban una serie de valores candidatos para αk,

aceptando uno de estos valores cuando ciertas condiciones son satisfechas. La busqueda lineal se

realiza en dos fases: en una primera se determina un intervalo conteniendo longitudes de paso

deseables, y una fase de biseccion o interpolacion computa despues una “buena” longitud de paso

en dicho intervalo. A continuacion analizaremos diferentes criterios de parada para los algoritmos

de busqueda lineal, y probaremos que las longitudes de paso efectivas no necesitan estar cerca de

los mınimos de la funcion φ(α).Una condicion sencilla que podemos imponer a αk es que proporcione una reduccion en f , i.e.,

que f (xk + αk pk) < f (xk). Sin embargo, en la Figura 2 podemos ver que este requerimiento no

es suficiente: el mınimo (global) de f (x) = x2 − 1 es f ∗ = −1, pero la sucesion de valores de la

funcion f (xk) = 1/k, para k = 1,2, . . ., es estrictamente decreciente pero converge a cero y no a

−1.

x0 x1x2 x3x4 x5

f(x)=x2�1 x

f(x)

Figura 2: f (xk) = 1/k converge a 0 y no al mınimo −1.

6

Page 11: Apuntes (Curso-09-10)

El problema es que el procedimiento aplicado no garantiza una “reduccion suficiente” en la

funcion f , concepto que discutiremos a continuacion.

3.1. Condiciones de Wolfe

Primero de todo αk debe garantizar un decrecimiento suficiente de f , estipulado en los siguien-

tes terminos:

f (xk +α pk) ≤ f (xk)+ c1α∇ f Tk pk, (12)

para cierta constante c1 ∈ ]0,1[ . La desigualdad (12) es tambien conocida como condicion de Ar-

mijo. En terminos de la funcion φ definida en (11), esta condicion es equivalente a

φ(α) ≤ φ(0)+ c1αφ ′(0).

La funcion lineal l(α) = φ(0)+c1αφ ′(0) tiene pendiente negativa c1∇ f Tk pk, pero se encuentra por

encima de la grafica de φ(α) para valores pequenos de α , como consecuencia de que c1 ∈ ]0,1[ .La condicion de decrecimiento suficiente establece que α es aceptable solo si φ(α) ≤ l(α). En la

practica, c1 es elegido bastante pequeno, del orden de 10−4.

Figura 3: Condicion de decrecimiento suficiente.

Esta primera regla evita comportamientos como el mostrado en la Figura 2, pero sin embargo

es satisfecha por valores muy pequenos de α . Si estos fueran adoptados como valores de αk, el

algoritmo no proporcionarıa un progreso razonable.

Para excluir etapas excesivamente cortas, se introduce la condicion de curvatura, que requiere

que αk satisfaga

∇ f (xk +αk pk)T pk ≥ c2∇ f T

k pk, (13)

para alguna constante c2 ∈ ]c1,1[ . En terminos de la funcion φ es (13) equivalente a

φ ′(αk) ≥ c2φ ′(0),

es decir, la condicion de curvatura asegura que la pendiente de la curva φ en αk es mayor que

c2 veces la pendiente de φ en 0. Esto tiene sentido ya que si la pendiente φ ′(α) es fuertemente

7

Page 12: Apuntes (Curso-09-10)

negativa, tenemos una indicacion de que podemos reducir significativamente f moviendonos aun

mas a lo largo de la direccion elegida. La condicion de curvatura viene ilustrada en la Figura 4.

Valores tıpicos de c2 son 0,9 cuando pk es obtenida por los metodos de Newton o quasi-Newton, y

de 0,1 cuando pk se calcula mediante el metodo del gradiente conjugado.

Figura 4: Condicion de curvatura.

Las condiciones de decrecimiento suficiente y de curvatura se conocen conjuntamente como

condiciones de Wolfe:

f (xk +αk pk) ≤ f (xk)+ c1αk∇ f Tk pk, (14a)

∇ f (xk +αk pk)T pk ≥ c2∇ f T

k pk, (14b)

donde 0 < c1 < c2 < 1. Una longitud de paso puede satisfacer las condiciones de Wolfe sin estar

particularmente proximo a un mınimo de φ , como mostramos en la Figura 5.

Figura 5: Longitudes de paso que satisfacen las condiciones de Wolfe.

8

Page 13: Apuntes (Curso-09-10)

Sin embargo, podemos modificar la condicion de curvatura para forzar que αk este al menos

en un ancho entorno de un mınimo local o punto estacionario de φ . Ası, las llamadas condiciones

fuertes de Wolfe requieren que αk satisfaga:

f (xk +αk pk) ≤ f (xk)+ c1αk∇ f Tk pk, (15a)

|∇ f (xk +αk pk)T pk| ≤ c2|∇ f T

k pk|, (15b)

donde 0 < c1 < c2 < 1. La unica diferencia con las condiciones de Wolfe (14) es que no permitimos

tampoco que la derivada φ ′(αk) sea demasiado positiva. De esta forma excluimos puntos que esten

lejos de los puntos estacionarios de φ .

No es difıcil probar que existen longitudes de paso que satisfacen las condiciones de Wolfe

para toda funcion f que sea suave y acotada inferiormente.

Proposicion 7. Supongamos que f : Rn →R es continuamente diferenciable. Sea pk una direccion

de descenso en xk, y asumamos que f esta acotada inferiormente a lo largo de la semirrecta

{xk + α pk | α > 0}. Entonces, si 0 < c1 < c2 < 1, existiran intervalos de longitudes de paso

satisfaciendo las condiciones de Wolfe (14) y las condiciones fuertes de Wolfe (15).

Demostracion. Como φ(α) = f (xk + α pk) esta acotada inferiormente para α > 0, y puesto que

0 < c1 < 1, la recta

l(α) = f (xk)+αc1∇ f Tk pk

debe intersecar la grafica de φ por lo menos una vez. Sea α ′ > 0 el valor mas pequeno de α para

el que se produce esta interseccion, esto es

φ(α ′) = l(α ′)

o lo que es lo mismo,

f (xk +α ′pk) = f (xk)+α ′c1∇ f Tk pk. (16)

Obviamente, la condicion de descenso suficiente (14a) se cumple para cualquier longitud de paso

α menor o igual que α ′.Por el teorema del valor medio, existira un α ′′ ∈ ]0,α ′[ tal que

φ(α ′)−φ(0) = φ ′(α ′′)α ′,

es decir,

f (xk +α ′pk)− f (xk) = α ′∇ f (xk +α ′′pk)T pk. (17)

Combinando (16) y (17), obtenemos

∇ f (xk +α ′′pk)T pk = c1∇ f T

k pk > c2∇ f Tk pk, (18)

puesto que c1 < c2 y ∇ f Tk pk < 0. Por tanto α ′′ satisface las condiciones de Wolfe (14), y ambas

desigualdades se verifican estrictamente. Por ser f suave (de clase C 1), existira un intervalo al-

rededor de α ′′ para el cual las condiciones de Wolfe se cumplen. Ademas, puesto que el termino

de la izquierda de (18) es negativo, las condiciones fuertes de Wolfe (15) se cumplen en el mismo

intervalo.

9

Page 14: Apuntes (Curso-09-10)

3.2. Condiciones de Goldstein y “backtracking”

Al igual que las condiciones de Wolfe (14), las condiciones de Goldstein tambien aseguran que

el tamano de paso α alcanza un decrecimiento suficiente, evitando a su vez que α sea demasiado

pequeno. Se definen mediante el siguiente par de desigualdades:

f (xk)+(1− c)αk∇ f Tk pk ≤ f (xk +αk pk) ≤ f (xk)+ cαk∇ f T

k pk, (19)

donde 0 < c < 1/2. La segunda desigualdad es simplemente la condicion de decrecimiento sufi-

ciente (12), mientras que la primera desigualdad se introduce para controlar el tamano de paso por

abajo (ver Figura 6).

Figura 6: Condiciones de Goldstein.

Una desventaja de las condiciones de Goldstein comparadas con las condiciones de Wolfe

es que la primera desigualdad en (19) puede excluir todos los mınimos de φ . Sin embargo, las

condiciones de Goldstein y las de Wolfe tienen mucho en comun, y sus resultados de convergencia

son bastante similares. Las condiciones de Goldstein suelen usarse a menudo en metodos de tipo

Newton, mientras que su comportamiento no es demasiado bueno en los metodos quasi-Newton,

donde las condiciones de Wolfe son comunmente utilizadas.

Hemos visto que la condicion de decrecimiento suficiente (14a) sola no basta para asegurar

que el algoritmo haga un progreso “razonable” a lo largo de la direccion dada. No obstante, si el

algoritmo de busqueda lineal elige sus tamanos de paso candidatos apropiadamente, empleando el

llamado procedimiento de “backtracking”, podemos prescindir de la condicion (14b) y usar solo la

condicion de decrecimiento suficiente. En su forma mas basica, dada unas constantes c,ρ ∈ ]0,1[ ,el procedimiento de “backtracking” parte de un punto inicial α = α > 0 en el cual se comprueba

si se verifica (14a). En caso contrario se toma α = ρα y se repite el proceso hasta que se cumpla

esa condicion:

10

Page 15: Apuntes (Curso-09-10)

Algoritmmo 1 (Backtracking).

Elegir α > 0, ρ,c ∈ ]0,1[. Tomar α = α.while f (xk +α pk) > f (xk)+ cα∇ f T

k pk:

α = ραreturn αk = α

Una longitud de paso aceptable sera encontrada tras un numero finito de intentos, ya que a

partir de un momento α sera suficientemente pequeno (ver Figura 3). Con el procedimiento de

“backtracking” nos aseguramos de que o bien la longitud de paso sea un valor fijo en todos los

pasos (α inicial), o bien que satisfaga la condicion de decrecimiento suficiente pero que no sea

“demasiado” pequeno. Normalmente se toma la longitud de paso inicial α = 1 en los metodos

de tipo Newton, donde esta estrategia es bastante utilizada. Para los metodos quasi-Newton y del

gradiente conjugado suele ser menos apropiado.

4. Convergencia de los metodos de busqueda lineal

Para obtener convergencia global de un algoritmo, debemos no solo elegir bien las longitudes

de paso, sino tambien las direcciones de busqueda pk. En esta seccion nos centraremos en los

requerimientos de las direcciones de busqueda, fijandonos en una propiedad clave: el angulo θk

entre pk y la direccion de descenso mas rapido −∇ fk, definido por

cosθk =−∇ f T

k pk

‖∇ fk‖‖pk‖. (20)

El siguiente teorema tiene importantes consecuencias. Demuestra, por ejemplo, que el metodo

de descenso mas rapido es globalmente convergente. Para otros algoritmos nos describe cuanto

puede desviarse pk de la direccion de descenso mas rapido para seguir garantizandose la conver-

gencia global.

Teorema 8 (Zoutendijk). Consideremos un algoritmo iterativo lineal de la forma xk+1 = xk +αk pk,

donde pk es una direccion de descenso y αk satisface las condiciones de Wolfe (14). Supongamos

que f esta acotada inferiormente sobre Rn y que f ∈ C 1(U), donde U es un abierto que contiene

al conjunto inferior L := {x ∈ Rn | f (x) ≤ f (x0)}, siendo x0 el punto inicial de la iteracion.

Asumamos tambien que ∇ f (·) es Lipschitz continua sobre U; i.e., existe λ > 0 tal que

‖∇ f (x)−∇ f (y)‖ ≤ λ‖x− y‖, ∀x,y ∈U.

Entonces, se cumple∞

∑k=0

(cos2 θk)‖∇ f (xk)‖2 < ∞. (21)

Demostracion. Por la segunda condicion de Wolfe (14b) y ser xk+1 = xk +αk pk, tenemos que

(∇ fk+1 −∇ fk)T pk ≥ (c2 −1)∇ f T

k pk.

Aplicando la condicion de Lipschitz,

(∇ fk+1 −∇ fk)T pk ≤ ‖∇ fk+1 −∇ fk‖‖pk‖ ≤ λαk‖pk‖2.

11

Page 16: Apuntes (Curso-09-10)

Combinando estas dos relaciones, obtenemos

αk ≥(

c2 −1

λ

)∇ f T

k pk

‖pk‖2.

Sustituyendo esta desigualdad en la primera condicion de Wolfe (14a),

fk+1 ≤ fk − (−αk)c1∇ f Tk pk ≤ fk − c1

(c2 −1

λ

)(∇ f T

k pk)2

‖pk‖2.

Usando la definicion (20), podemos escribir esta relacion como

fk+1 ≤ fk − ccos2 θk‖∇ fk‖2,

donde c = c1(1− c2)/λ . Sumando esta expresion para todos los ındices menores o iguales que k:

fk+1 ≤ f0 − ck

∑j=0

cos2 θ j‖∇ f j‖2. (22)

Como f esta acotada inferiormente, tenemos que f0 − fk+1 es menor que cierta constante positiva,

para todo k. Tomando lımites en (22), deducimos (21).

Resultados similares pueden obtenerse cuando se usan las condiciones de Goldstein (19) o las

condiciones fuertes de Wolfe (15) en lugar de las condiciones de Wolfe.

Observese que las hipotesis del teorema anterior no son demasiado restrictivas. Si la funcion

f no estuviera acotada inferiormente, el problema de optimizacion no se considerarıa “bien defi-

nido”. La hipotesis de suavidad (continuidad Lipschitz del gradiente) viene implicada por muchas

de las condiciones de convergencia local de los algoritmos mas representativos.

Ejercicio 9. Sea f : Rn → R, con f ∈ C 2(U). Si la matriz hessiana ∇2 f esta acotada sobre U,

conjunto abierto que supondremos adicionalmente convexo, demostrar que ∇ f es Lipschitz conti-

nua en U.

Solucion: Para todo x,y ∈U se tiene que

∇ f (y)−∇ f (x) =∫ 1

0∇2 f (x+ t(y− x))(y− x)dt.

Tomando normas, obtenemos

‖∇ f (y)−∇ f (x)‖ ≤∫ 1

0‖∇2 f (x+ t(y− x))(y− x)‖dt ≤

∫ 1

0‖∇2 f (x+ t(y− x))‖‖y− x‖dt.

Como ∇2 f (·) esta acotada en U, existe una constante λ > 0 tal que ‖∇ f (z)‖ ≤ λ , ∀z ∈U. Al ser

U convexo, si t ∈ [0,1], se tiene que x + t(y− x) ∈ U, por lo que ‖∇2 f (x + t(y− x))‖ ≤ λ . Ası,

deducimos que

‖∇ f (y)−∇ f (x)‖ ≤∫ 1

0λ‖x− y‖dt = λ‖x− y‖.

12

Page 17: Apuntes (Curso-09-10)

Observacion 10. En las hipotesis del Teorema 8 solo exigimos que ∇ f sea Lipschitz continua en

U, no pedimos que lo sea en todo el espacio. Por ejemplo, para la funcion f (x) = x4, se tiene que

|∇ f (x)−∇ f (y)| = 4|x3 − y3| = 4|x2 + xy+ y2| |x− y|.

La expresion |x2 + xy + y2| no esta acotada sobre la recta real; sin embargo sı lo esta sobre el

conjunto U, ver Figura 7.

x0

f(x)=x4

U L=[�|x0 |,|x0 |]

Figura 7: ∇ f es Lipschitz continua en U sin serlo en todo el espacio.

La propiedad (21), llamada condicion de Zoutendijk, implica que

cos2 θk‖∇ f (xk)‖2 → 0. (23)

Este lımite puede usarse para derivar resultados de convergencia global para los algoritmos de

busqueda lineal. Si nuestro metodo de eleccion de pk asegura que el angulo θk esta acotado supe-

riormente, y que esta cota θ es menor de 90◦, existira una contante positiva δ tal que

cosθk ≥ cosθ = δ > 0, para todo k. (24)

Se sigue entonces de (23) que

lımk→∞

‖∇ f (xk)‖ = 0. (25)

En otras palabras, podemos asegurar que ∇ f (xk) → 0n siempre que las direcciones de busqueda

se mantengan “uniformemente” apartadas de la ortogonalidad con el gradiente. En particular, el

metodo de descenso mas rapido (en el que θk = 0 para todo k) cumple trivialmente esta condicion,

y produce una sucesion de puntos xk tales que ∇ f (xk) convergen a 0n, siempre que las busquedas

lineales satisfagan las condiciones de Wolfe (14) (o las de Goldstein (19)).

La condicion (25) se conoce como convergencia global, y el Teorema de Zoutendijk es un

resultado de convergencia global, en cuanto que la validez del resultado no depende de donde

se ubique el punto de partida x0. No obstante, es importante observar que el resultado no nos

garantiza que el metodo converja a un mınimo, sino a un punto estacionario. Solo introduciendo

requerimientos adicionales en las direcciones de busqueda pk podrıamos fortalecer el resultado

para obtener la convergencia a un mınimo local.

13

Page 18: Apuntes (Curso-09-10)

Observese que, si L = {x ∈ Rn | f (x) ≤ f (x0)} es acotado, como {xk} ⊂ L , existira una

subsucesion convergente a un punto x∗ ∈L . Para abreviar notacion, supondremos que es la propia

sucesion {xk} la que converge a x∗. Como f ∈ C1(U) y L ⊂U ,

∇ f (x∗) = ∇ f ( lımk→∞

xk) = lımk→∞

∇ f (xk) = 0n,

y x∗ sera un punto estacionario.

4.1. Metodos del gradiente

Consideremos ahora metodos del gradiente del tipo

pk = −B−1k ∇ fk, (26)

donde Bk son matrices simetricas definidas positivas con un numero de condicion1 uniformemente

acotado, es decir, existe una constante M > 0 tal que

cond(Bk) = ‖Bk‖‖B−1k ‖ ≤ M, para todo k.

En este caso, vamos a ver que

cosθk ≥1

M, ∀k, (27)

por lo que ∇ fk → 0. En efecto, si λ1(Bk) y λn(Bk) son el menor y el mayor valor propio de Bk

respectivamente, se tiene que

cosθk = − ∇ f Tk pk

‖∇ fk‖‖pk‖=

∇ f Tk B−1

k∇ fk

‖∇ fk‖‖B−1k ∇ fk‖

≥‖∇ fk‖2 1

λn(Bk)

‖∇ fk‖‖B−1k ∇ fk‖

≥‖∇ fk‖ 1

λn(Bk)

‖B−1k ‖‖∇ fk‖

=1

λn(Bk)λ1(Bk)

=1

cond(Bk)≥ 1

M.

En la primera desigualdad hemos usado el hecho de que para toda matriz A simetrica, se tiene que2

λ1(A)‖z‖2 ≤ zT Az ≤ λn(A)‖z‖2.

5. Tasa de convergencia

El mero hecho de que una sucesion {xk} converja a un punto estacionario x∗ no servirıa de nada

en la practica a menos que los puntos xk estuvieran relativamente cerca de x∗ tras “relativamente

pocas” iteraciones. Ası, el estudio de la tasa de convergencia es el criterio predominante a la hora

de seleccionar un algoritmo con respecto de otros para la resolucion de un problema.

Hay diferentes criterios a la hora de cuantificar la tasa de convergencia de un algoritmo.

Podrıamos estudiar la complejidad computacional del algoritmo; bien estimando el numero de

operaciones elementales necesarias para encontrar una solucion exacta o con una tolerancia de

ε > 0, o bien analizando el numero de evaluaciones de la funcion (y posiblemente del gradiente)

del algoritmo. El problema de este metodo es que en su analisis se considera el peor caso posible, y

1Ver Seccion 15.12Para demostrarlo, representar z en funcion de una base ortonormal de vectores propios de A.

14

Page 19: Apuntes (Curso-09-10)

se ha demostrado que en la practica, algoritmos “malos” en cuanto a complejidad tenıan un mejor

comportamiento que otros calificados como “mejores”. Esto ocurre porque los casos en los que

estos primeros algoritmos se comportaban mal, son improbables en modelos reales.

Vamos a centrarnos pues en el analisis local del algoritmo. Sus principales caracterısticas son

las siguientes:

Nos restringiremos a sucesiones {xk} que convergen a un unico punto lımite x∗.

La tasa de convergencia es evaluada usando una funcion de error e : Rn →R+ tal que e(x∗) =

0. Elecciones tıpicas son:

• e(x) = ‖x− x∗‖ (distancia Euclıdea);

• e(x) = | f (x)− f (x∗)| (diferencia en el coste).

Queremos ver lo “rapido” que {xk} converge a x∗, o lo “rapido” que lo hace { f (xk)} a f (x∗).Puede ocurrir que nos aproximemos rapido al valor de la funcion f (x∗) sin que lo hagamos

al punto x∗, como podemos ver en la Figura 8.

x�xk

f(x�)f(xk )

Figura 8: xk esta lejos de x∗ pese a estar f (xk) cerca de f (x∗).

Nuestro analisis es asintotico; esto es, atendemos a la tasa de convergencia de la cola de la

sucesion de errores {e(xk)}.

Definicion 11. Diremos que {e(xk)} converge linealmente si existe una constante β ∈ ]0,1[ tal que

lımsupk→∞

e(xk+1)

e(xk)≤ β . (28)

Cuando esta ultima desigualdad es valida para todo β ∈ ]0,1[ , es decir, si

lımk→∞

e(xk+1)

e(xk)= 0,

diremos que {e(xk)} converge superlinealmente. Si la sucesion {e(xk)} converge pero la desigual-

dad (28) no se verifica para ningun β ∈ ]0,1[ , diremos que {e(xk)} converge sublinealmente.

15

Page 20: Apuntes (Curso-09-10)

Para refinar la nocion de convergencia superlineal, establecemos la siguiente definicion:

Definicion 12. Se dice que {e(xk)} converge superlinealmente con orden p, con p > 1, cuando

lımsupk→∞

e(xk+1)

e(xk)p< ∞. (29)

El caso p = 2 se conoce como convergencia cuadratica.

Observacion 13. Una sucesion que converge sublinealmente es considerada en la practica como

no convergente: la convergencia puede ser tan lenta que un algoritmo con esta tasa no debe ser

utilizado.

Ejercicio 14. Probar que la convergencia lineal implica convergencia geometrica, i.e., existen

unas constantes q > 0 y β ′ ∈ ]0,1[ tales que

e(xk) ≤ q(β ′)k, ∀k. (30)

Demostrar que en general el recıproco no es cierto.

Solucion: Efectivamente, dado β ∈ ]0,1[ verificando (28), si tomamos β ′ ∈ ]β ,1[ , existe k0 tal que

e(xk+1)

e(xk)≤ β ′, para todo k ≥ k0.

Despejando se obtiene

e(xk0+p) ≤ (β ′)pe(xk0), ∀p.

Sea q ≥ max{e(xk)/(β ′)k, k = 1,2, . . . ,k0}. Se verificara, entonces,

e(xk) ≤ q(β ′)k, k = 1,2, . . . ,k0,

y reemplazando en la desigualdad anterior

e(xk0+p) ≤ (β ′)pe(xk0) ≤ q(β ′)k0+p, ∀p,

y por consiguiente se verifica (30).

La implicacion contraria no es cierta: la convergencia geometrica no implica convergencia

lineal. Como ejemplo, sea e(x2p) = β 3p+1, e(x2p+1) = β 2p+1, con β ∈ ]0,1[ . Se tiene que e(xk) ≤β k, pero

lımsupk→∞

e(xk+1)

e(xk)= lım

p→∞

e(x2p+1)

e(x2p)= lım

p→∞

β 2p+1

β 3p+1= lım

p→∞

1

β p= ∞,

y por tanto {e(xk)} no converge linealmente.

La relacion e(xk+1) ≤ β ′e(xk), ∀k ≥ k0, significa que, asintoticamente, el error se reduce en

cada iteracion por un factor que es, por lo menos, β ′ ∈ ]β ,1[ . Es por ello que se denomina conver-

gencia lineal, ver Figura 9.

16

Page 21: Apuntes (Curso-09-10)

e(xk )e(xk+1)e(xk+2)…

y=��x

e(xk+1)

e(xk+2)e(xk+3)

Figura 9: Convergencia lineal.

De acuerdo con la definicion de lımsup es evidente que (29) es equivalente a

e(xk+1) = O(e(xk)p),

es decir, existe q > 0 tal que e(xk+1) ≤ qe(xk)p, ∀k. De ello se deduce la interpretacion geometrica

que se muestra a continuacion en la Figura 10.

e(xk )e(xk+1)…

y=qxp

e(xk+1)

e(xk+2)

Figura 10: Convergencia superlineal de orden p > 1.

Es facil probar que la convergencia superlineal de orden p implica convergencia superlineal:

supongamos que

lımsupk→∞

e(xk+1)

e(xk)p< M,

para cierto M > 0. Entonces existe un k0 tal que

e(xk+1)

e(xk)p≤ M, para todo k ≥ k0,

17

Page 22: Apuntes (Curso-09-10)

o, equivalentemente,e(xk+1)

e(xk)≤ Me(xk)

p−1, para todo k ≥ k0.

Tomando supremos a ambos lados, tenemos que

supk≥n

e(xk+1)

e(xk)≤ sup

k≥n

Me(xk)p−1,

para todo n ≥ k0. Como p > 1 y e(xk) converge a cero, tomando lımite cuando n → ∞ en la

expresion anterior obtenemos finalmente que

lımsupk→∞

e(xk+1)

e(xk)= lım

n→∞supk≥n

e(xk+1)

e(xk)≤ lım

n→∞supk≥n

Me(xk)p−1 = lım

k→∞Me(xk)

p−1 = 0,

por lo que lımk→∞ e(xk+1)/e(xk) = 0.

Ejercicio 15. Hallar la tasa de convergencia de las siguientes sucesiones de errores:

1. e(xk) =1

k;

2. e(xk) = (0,5)2k;

3. e(xk) =1

k!.

Solucion:

1. La tasa de convergencia es sublineal, puesto que

lımsupk→∞

e(xk+1)

e(xk)= lım

k→∞

k

k +1= 1.

La sucesion no converge geometricamente. De ser ası, existirıa q > 0 y β ∈ ]0,1[ tales que

e(xk) ≤ qβ k,∀k. Por lo que1

q≤ kβ k, ∀k. (31)

Pero aplicando L’Hopital, deducimos que

lımx→∞

x

β−x= lım

x→∞

1

(− logβ )β−x= − 1

logβlımx→∞

β x = 0,

obteniendo una contradiccion con (31).

2. La tasa de convergencia es cuadratica:

lımsupk→∞

e(xk+1)

e(xk)2= lım

k→∞

(0,5)2k+1

[(0,5)2k

]2 = 1.

3. La tasa de convergencia es superlineal, ya que

lımsupk→∞

e(xk+1)

e(xk)= lım

k→∞

k!

(k +1)!= lım

k→∞

1

k +1= 0.

Sin embargo, no converge cuadraticamente:

lımsupk→∞

e(xk+1)

e(xk)2= lım

k→∞

(k!)2

(k +1)!= lım

k→∞

k!

k +1= ∞.

18

Page 23: Apuntes (Curso-09-10)

6. Analisis del modelo cuadratico

Podemos aprender mucho acerca de la tasa de convergencia de los metodos del gradiente cuan-

do estudiamos el caso ideal: cuando la funcion de coste es cuadratica. Si la funcion no es cuadratica

pero es dos veces continuamente diferenciable y x∗ es un mınimo local no singular, por el teorema

de Taylor, f podra ser aproximada de forma precisa cerca de x∗ mediante la funcion cuadratica

f (x∗)+1

2(x− x∗)T ∇2 f (x∗)(x− x∗),

por lo que “esperaremos” que los resultados asintoticos de convergencia obtenidos para el caso

cuadratico tengan resultados analogos para el caso general. Esta conjetura puede de hecho ser

demostrada y ha sido corroborada mediante una abundante experimentacion numerica.

Supongamos pues que f es una funcion cuadratica con una matriz hessiana Q (simetrica) defi-

nida positiva. Podemos suponer, sin perdida de generalidad3, que f alcanza su mınimo en x∗ = 0 y

que f (x∗) = 0. Ası tenemos

f (x) =1

2xT Qx, ∇ f (x) = Qx, ∇2 f (x) = Q. (32)

6.1. Metodo del descenso mas rapido

Para el modelo cuadratico (32), el metodo de descenso mas rapido toma la forma

xk+1 = xk −αk∇ f (xk) = (I −αkQ)xk.

Por tanto,

‖xk+1‖2 = xTk (I −αkQ)2xk ≤

(max. valor propio de (I −αkQ)2

)‖xk‖2.

Los valores propios de (I −αQ)2 son (1−αkλi)2, donde λ1, . . . ,λn son los valores propios de Q.

Si denotamos por m y M el valores propio mas pequeno y mas grande, respectivamente, tendremos

que

max. valor propio de (I −αkQ)2 = max{(1−αkm)2,(1−αkM)2}.Se sigue pues que, para xk 6= 0n,

‖xk+1‖‖xk‖

≤ max{|1−αkm|, |1−αkM|}. (33)

El valor de αk que minimiza esta cota es

α∗ =2

M +m,

segun se desprende de la Figura 11:

3Si f (x) = 12xT Qx− bT x + c, el mınimo x∗ vendra dado por Qx∗ = b. Entonces, haciendo el cambio z = x− x∗,

g(z) := 12zT Qz = 1

2(x− x∗)︸ ︷︷ ︸

z

T Q(x− x∗)︸ ︷︷ ︸z

=1

2xT Qx− (x∗)T Qx︸ ︷︷ ︸

f (x)

+1

2(x∗)T Qx∗− c︸ ︷︷ ︸

− f (x∗)

= f (x)− f (x∗).

19

Page 24: Apuntes (Curso-09-10)

1m

1

M

2

M+m2

M

1

M�mM+m

|1��M| |1��m|

max|1�m|,|1�M|��

longitudes de paso quegarantizan la convergencia

Figura 11: La cota se minimiza cuando 1−αm = αM−1, i.e., en α∗ = 2/(M +m).

En este caso,

‖xk+1‖‖xk‖

≤ M−m

M +m=

Mm−1

Mm

+1=

cond(Q)−1

cond(Q)+1. (34)

Esta es la mejor cota a la tasa de convergencia para el metodo de descenso mas rapido con tamano

de paso constante. Observese que, gracias a (33), la convergencia esta garantizada para cualquier

longitud de paso αk tal que

max{|1−αkm|, |1−αkM|} < 1,

esto es, para todo αk ∈ ]0,2/M[ (ver Figura 11).

Existe otro resultado interesante relativo a la tasa de convergencia del metodo del descenso mas

rapido cuando αk es elegido mediante una busqueda lineal exacta. Este resultado cuantifica la tasa

a la que desciende la funcion de coste:

f (xk+1)

f (xk)≤(

M−m

M +m

)2

=

(cond(Q)−1

cond(Q)+1

)2

. (35)

Observacion 16. A partir de (34) y (35) podemos ver que el metodo de descenso mas rapido puede

converger muy despacio cuando el numero de condicionamiento de Q es grande. Si cond(Q) ≈ 1,

la convergencia sera buena. En el mejor de los casos, cuando cond(Q) = 1, llegamos al optimo en

una etapa. Observese que, al ser (34) y (35) menor que 1, la tasa de convergencia sera lineal.

Para demostrar (35) haremos uso del siguiente resultado:

Lema 17 (Desigualdad de Kantorovich). Sea Q una matriz n× n simetrica y definida positiva.

Entonces, para todo y 6= 0n, se tiene

(yT y)2

(yT Qy)(yT Q−1y)≥ 4Mm

(M +m)2, (36)

donde M y m son el mayor y el menor valor propio de Q, respectivamente.

Demostracion. Sean λ1, . . . ,λn los valores propios de Q, y asumamos que

0 < m = λ1 ≤ λ2 ≤ . . . ≤ λn = M.

20

Page 25: Apuntes (Curso-09-10)

Sea S una matriz formada por los n vectores (columna) ortonormales asociados a λ1, . . . ,λn. En-

tonces, ST QS es una matriz diagonal, con λ1, . . . ,λn en la diagonal. Por consiguiente, podemos

suponer sin perdida de generalidad4 que Q es una matriz diagonal, con elementos de la diagonal

λ1, . . . ,λn. Ası, para todo y = (y1, . . . ,yn)T 6= 0n,

(yT y)2

(yT Qy)(yT Q−1y)=

(∑n

i=1 y2i

)2

(∑n

i=1 λiy2i

)(∑n

i=1y2

i

λi

) .

Consideremos la funcion convexa φ(λ ) = 1/λ y sea ξ = (ξ1, . . . ,ξn)T , donde

ξ j :=y2

j

∑ni=1 y2

i

, j = 1, . . . ,n.

Entonces tenemos que

(yT y)2

(yT Qy)(yT Q−1y)=

1(∑n

i=1 λiξi

)(∑n

i=1 φ(λi)ξi

) . (37)

Sea

λ :=n

∑i=1

λiξi, λφ :=n

∑i=1

φ(λi)ξi.

Como ξi ≥ 0 y ∑ni=1 ξi = 1, tendremos que λ1 ≤ λ ≤ λn. Supongamos que λ1 6= λn (en caso con-

trario (37) es igual a 1 y se verifica (36) con igualdad). Cada λi se puede representar como una

combinacion convexa de λ1 y λn:

λi =λi −λn

λ1 −λn

λ1 +λ1 −λi

λ1 −λn

λn.

Por la convexidad de φ se tiene que

φ(λi) ≤λi −λn

λ1 −λnφ(λ1)+

λ1 −λi

λ1 −λnφ(λn).

Por tanto,

λφ ≤n

∑i=1

(λi −λn

λ1 −λn

φ(λ1)+λ1 −λi

λ1 −λn

φ(λn)

)ξi =

n

∑i=1

λ1 +λn −λi

λ1λn

ξi =λ1 +λn −λ

λ1λn

,

y de (37) se sigue que

(yT y)2

(yT Qy)(yT Q−1y)=

1

λλφ≥ λ1λn

λ (λ1 +λn −λ )

≥ λ1λn

maxλ∈[λ1,λn]{λ (λ1 +λn −λ )} =4λ1λn

(λ1 +λn)2,

lo que concluye la demostracion.

4Haciendo una transformacion en el sistema de coordenadas que reemplace y por Sx.

21

Page 26: Apuntes (Curso-09-10)

Proposicion 18. Sea f (x) = 12xT Qx, con Q simetrica y definida positiva. Consideremos el metodo

del descenso mas rapido

xk+1 = xk −αk∇ f (xk),

donde αk es elegido por busqueda lineal exacta, satisfaciendo pues

f (xk −αk∇ f (xk)) = mınα≥0

f (xk −α∇ f (xk)). (38)

Entonces,

f (xk+1) ≤(

M−m

M +m

)2

f (xk), ∀k, (39)

donde M y m son el mayor y el menor valor propio de Q, respectivamente.

Demostracion. Denotemos

gk := ∇ f (xk) = Qxk.

El resultado se verifica de forma obvia si gk = 0n (ya que xk+1 = xk = 0n), por lo que supondremos

gk 6= 0n. Comencemos calculando el tamano de paso que minimiza (38):

d

dαf (xk −αgk) = −gT

k Q(xk −αgk) = −gTk gk +αgT

k Qgk.

Igualando esta derivada a cero, obtenemos:

αk =gT

k gk

gTk Qgk

.

Entonces,

f (xk+1) =1

2(xk −αkgk)

T Q(xk −αkgk) =1

2(xT

k Qxk −2αkgTk

gk︷︸︸︷Qxk +α2

k gTk Qgk)

=1

2

(xT

k Qxk −(gT

k gk)2

gkQgk

).

En base al hecho de que

f (xk) =1

2xT

k Qxk =1

2gT

k Q−1gk,

se deduce, aplicando el Lema 17,

f (xk+1) =

(1− (gT

k gk)2

(gkQgk)(gkQ−1gk)

)f (xk)

≤(

1− 4Mm

(M +m)2

)f (xk) =

(M−m

M +m

)2

f (xk),

y la prueba esta completa.

Es posible ver que las cotas (34) y (39) son “ajustadas”, en el sentido de que se alcanza la

igualdad para ciertos puntos iniciales (ejemplo5: f (x) = 12 ∑n

i=1 λix2i , donde 0 < λ1 ≤ . . . ≤ λn,

tomando x0 = (λ−11 ,0, . . . ,0,λ−1

n )T ).

5Cualquier funcion cuadratica definida positiva puede expresarse en esta forma. Los detalles de este ejemplo apa-

recen en [4, pag. 68].

22

Page 27: Apuntes (Curso-09-10)

6.2. Metodos del gradiente

Consideremos el siguiente metodo:

xk+1 = xk −αkB−1k ∇ f (xk), (40)

donde Bk es simetrica y definida positiva. Vamos a ver que es posible hacer un cambio de variables

para transformar este tipo de algoritmos en el del descenso mas rapido.

Realizamos un cambio de variable x = Sy, donde6

S = (B−1k )1/2.

En el espacio de las variables y, el problema puede escribirse como

Min h(y) ≡ f (Sy)s.a y ∈ R

n.

El metodo del descenso mas rapido aplicado a este problema toma la forma

yk+1 = yk −αk∇h(yk). (41)

Multiplicando por S, obtenemos

Syk+1 = Syk −αkS∇h(yk).

Como ∇h(yk) = S∇ f (xk) y S2 = B−1k , se tiene que

xk+1 = xk −αkB−1k ∇ f (xk).

Ası pues, el metodo del gradiente (40) no es otra cosa que el metodo del descenso mas rapido (41)

en el espacio de las variables y.

Apliquemos, en consecuencia, los resultados obtenidos para el metodo del descenso mas rapido

a la iteracion reescalada (41). Obtenemos:

‖yk+1‖‖yk‖

≤ max{|1−αkmk|, |1−αkMk|}, (42)

y

f (xk+1)

f (xk)=

h(yk+1)

h(yk)≤(

Mk −mk

Mk +mk

)2

, (43)

donde mk y Mk son el menor y el mayor valor propio de ∇2h(y), respectivamente, cuyo valor viene

dado por

∇2h(y) = S∇2 f (x)S = B−1/2

k QB−1/2

k .

Usando la relacion yk = S−1xk = B1/2

kxk, se deduce de (42)

xTk+1Bkxk+1

xTk Bkxk

≤ max{(1−αkmk)2,(1−αkMk)

2}.

6Si A es una matriz simetrica semidefinida positiva, con valores propios λ1, . . . ,λn y una base de vectores propios

ortonormales asociada u1, . . . ,un, entonces A1/2 := ∑ni=1 λ

1/2i uiu

Ti es una matriz simetrica (e invertible si lo es A) que

verifica A1/2A1/2 = A.

23

Page 28: Apuntes (Curso-09-10)

El tamano de paso que minimiza esta cota es

2

Mk +mk

. (44)

El punto importante a tener en cuenta es que si Mk/mk es mucho mas grande que la unidad, la tasa

de convergencia puede ser muy lenta, incluso si un tamano de paso optimo es considerado.

Observacion 19. Si Bk es una “buena aproximacion” de ∇2 f (x) = Q, se tendra que

∇2h(y) = B−1/2

k QB−1/2

k ≈ B−1/2

k BkB−1/2

k = B−1/2

k (B1/2

k B1/2

k )B−1/2

k = I.

En este caso, cabe esperar que mk ≈ 1 ≈ Mk. Ademas, el tamano de paso αk = 1 es “casi” optimo,

de acuerdo con (44).

6.3. Caso general: funciones no cuadraticas

Es posible demostrar resultados de convergencia similares a los probados para el modelo

cuadratico, cuando la funcion f es dos veces continuamente diferenciable. La demostracion de

estos involucra la repeticion de las pruebas realizadas para los modelos cuadraticos, aunque los

detalles son mas complicados.

En general, no esperamos que la tasa de convergencia mejore si realizamos una busqueda

inexacta del tamano de paso, por lo que la Proposicion 18 nos muestra que el metodo de descenso

mas rapido puede tener una tasa de convergencia “inaceptablemente” lenta, incluso cuando la ma-

triz hessiana esta “razonablemente” bien condicionada. Por ejemplo, si cond(Q) = 800, f (x0) = 1

y f (x∗) = 0, debido a (35), el valor de la funcion podrıa ser superior a 0,08 tras 500 iteraciones del

metodo de descenso mas rapido.

7. Resultados sobre la tasa de convergencia

7.1. Convergencia superlineal de los metodos quasi-Newton

La proposicion siguiente prueba que puede obtenerse convergencia superlineal cuando la direc-

cion pk aproxima a la direccion de Newton −(∇2 f (x∗))−1∇ f (xk) y el metodo de “backtracking”

es aplicado.

Proposicion 20 (Convergencia superlineal de los metodos quasi-Newton).

Sea f dos veces continuamente diferenciable. Consideremos una sucesion {xk} generada por el

metodo de busqueda lineal xk+1 = xk +αk pk, y supongamos que

xk → x∗, ∇ f (x∗) = 0n y ∇2 f (x∗) es definida positiva. (45)

Asumamos tambien que ∇ f (xk) 6= 0n, ∀k, y que

lımk→∞

‖pk +(∇2 f (x∗))−1∇ f (xk)‖‖∇ f (xk)‖

= 0. (46)

Entonces, si αk es elegido por el metodo de “backtracking” con α = 1 y c < 1/2, tendremos

lımk→∞

‖xk+1 − x∗‖‖xk − x∗‖ = 0. (47)

Ademas, existe un entero k0 ≥ 0 tal que αk = 1, ∀k ≥ k0.

24

Page 29: Apuntes (Curso-09-10)

Demostracion. Probaremos, en primer lugar, que existe un k0 ≥ 0 tal que

f (xk + pk)− f (xk) ≤ c∇ f (xk)T pk, ∀k ≥ k0; (48)

i.e., el valor α = 1 “pasa” el test de la regla de Armijo. Por el teorema de Taylor, tenemos

f (xk + pk)− f (xk) = ∇ f (xk)T pk +

1

2pT

k ∇2 f (xk)pk,

donde xk ∈ [xk,xk + pk]. Por lo tanto, sera suficiente probar que, para k suficientemente grande, se

tiene

∇ f (xk)T pk +

1

2pT

k ∇2 f (xk)pk ≤ c∇ f (xk)T pk. (49)

Definiendo

gk :=∇ fk

‖∇ fk‖y pk :=

pk

‖∇ fk‖,

la ecuacion (49) toma la forma

(1− c)gTk pk +

1

2pT

k ∇2 f (xk)pk ≤ 0. (50)

De la ecuacion (46) se deduce

pk +(∇2 f (x∗))−1gk → 0n. (51)

Como ‖gk‖ = 1,∀k, es evidente que {pk} es una sucesion acotada:

‖pk +(∇2 f (x∗))−1gk‖ ≥ ‖pk‖−‖(∇2 f (x∗))−1gk‖ ≥ ‖pk‖−‖(∇2 f (x∗))−1‖‖gk‖.

Al ser ∇ f continua, ∇ f (xk) → ∇ f (x∗) = 0n, por lo que debera ser pk → 0n. De ahı se deduce

xk + pk → x∗, y por lo tanto, xk → x∗, lo que a su vez conlleva ∇2 f (xk) → ∇2 f (x∗), pues f ∈ C2.

Sea bk := pk +(∇2 f (x∗))−1gk. Entonces (51) implica bk → 0n. Teniendo en cuenta que pk =−(∇2 f (x∗))−1gk +bk, escribimos (50) como

−(1− c)gTk

(− (∇2 f (x∗))−1gk +bk

)≥ 1

2pT

k

(∇2 f (xk)−∇2 f (x∗)

)pk

+1

2

(− gT

k (∇2 f (x∗))−1 +bTk

)∇2 f (x∗)

(− (∇2 f (x∗))−1gk +bk

),

o, equivalentemente,

(1

2− c

)gT

k (∇2 f (x∗))−1gk ≥(1− c)gTk bk +

1

2pT

k

(∇2 f (xk)−∇2 f (x∗)

)pk

− gTk bk +

1

2bT

k ∇2 f (x∗)bk.

Llamemos γk a la parte derecha de la anterior desigualdad, esto es,

γk := −cgTk bk +

1

2pT

k

(∇2 f (xk)−∇2 f (x∗)

)pk +

1

2bT

k ∇2 f (x∗)bk.

Ası, llegamos a que la desigualdad (49) es equivalente a

(1

2− c

)gT

k (∇2 f (x∗))−1gk ≥ γk. (52)

25

Page 30: Apuntes (Curso-09-10)

Como ∇2 f (xk) → ∇2 f (x∗), se tendra pues que γk → 0. Por otra parte, al ser (∇2 f (x∗))−1 definida

positiva, se tiene que

gTk (∇2 f (x∗))−1gk ≥

1

M‖gk‖2 =

1

M,

donde M es el mayor valor propio de ∇2 f (x∗), y por consiguiente, se verifica (52) para k suficien-

temente grande, pues c < 1/2 y γk → 0. Esto concluye la demostracion de (48).

Para completar la prueba observamos que, a partir de (46), se tiene que

pk +(∇2 f (x∗))−1∇ f (xk) = ‖∇ f (xk)‖qk, (53)

donde qk → 0n. A partir del teorema de Taylor (aplicado a ∇ f ) se tiene

∇ f (xk) = ∇ f (x∗)︸ ︷︷ ︸0n

+∇2 f (x∗)(xk − x∗)+o(‖xk − x∗‖), (54)

y de ahı,

‖∇ f (xk)‖ ≤ ‖∇2 f (x∗)‖‖xk − x∗‖+o(‖xk − x∗‖) =

(‖∇2 f (x∗)‖+

o(‖xk − x∗‖)‖xk − x∗‖

)‖xk − x∗‖,

es decir,

∇ f (xk) = O(‖xk − x∗‖).A partir de (54) tambien obtenemos

(∇2 f (x∗))−1∇ f (xk) = xk − x∗ +o(‖xk − x∗‖).

Usando estas dos ultimas relaciones en (53), resulta

pk + xk − x∗ = O(‖xk − x∗‖)qk +o(‖xk − x∗‖) = o(‖xk − x∗‖),

pues qk → 0n. Por otra parte, hemos demostrado al principio que para k suficientemente grande,

xk+1 = xk + pk, y ası

xk+1 − x∗ = o(‖xk − x∗‖),lo que implica (47) y concluye la demostracion.

En particular vemos que el metodo de Newton combinado con el algoritmo “backtracking”

con α = 1, converge superlinealmente cuando converge a un mınimo local x∗ tal que ∇ f (x∗) es

definida positiva.

Si pk es una direccion de busqueda quasi-Newton del tipo pk = −B−1k ∇ fk, entonces (46) es

equivalente a

0 = lımk→∞

∥∥((∇2 f (x∗))−1 −B−1k

)∇ fk

∥∥‖∇ fk‖

= lımk→∞

∥∥∥∥((∇2 f (x∗))−1 −B−1

k

) ∇ fk

‖∇ fk‖

∥∥∥∥ .

Ejercicio 21. Demostrar que si x∗ es un mınimo local no singular (i.e., ∇ f (x∗) = 0n y ∇2 f (x∗) es

definida positiva) y f ∈ C 2, entonces ∇ f (x) 6= 0n en un entorno de x∗.

26

Page 31: Apuntes (Curso-09-10)

Solucion: Veamos primero que, por continuidad de ∇2 f , existira un entorno U abierto convexo de

x∗ tal que ∇2 f (x) es definida positiva ∀x ∈U. Efectivamente,

pT ∇2 f (x)p = pT ∇2 f (x∗)p+ pT(

∇2 f (x)−∇2 f (x∗))

p ≥(

λ1 −‖∇2 f (x)−∇2 f (x∗)‖)‖p‖2,

donde λ1 es el menor valor propio de ∇2 f (x∗). Por continuidad de ∇2 f , existira un entorno con-

vexo U de x∗ tal que ‖∇2 f (x)−∇2 f (x∗)‖ < λ1, ∀x ∈U, y por tanto ∇2 f (x) sera definida positiva

∀x ∈U.

Supongamos, por reduccion al absurdo, que existe un x ∈U \{x∗} tal que ∇ f (x) = 0n. Como

∇ f (x)−∇ f (x∗) =

∫ 1

0∇2 f (x∗ + t(x− x∗))(x− x∗)dt,

multiplicando por (x− x∗)T , obtenemos

0 = (x− x∗)T 0n =

∫ 1

0(x− x∗)T

︸ ︷︷ ︸6=0n

∇2 f (x∗ + t(x− x∗))︸ ︷︷ ︸definida positiva:

U convexo, x∗,x∈U

(x− x∗)dt > 0,

llegando ası a una contradiccion.

8. El metodo de Newton y sus variaciones

El metodo de Newton, en su forma pura, genera las sucesivas iteraciones mediante la formula

xk+1 = xk −(

∇2 f (xk))−1

∇ f (xk), (55)

asumiendo que la llamada direccion de Newton

dNk := −

(∇2 f (xk)

)−1

∇ f (xk), (56)

este definida y sea de ‘descenso’, es decir, ∇ f (xk)T dNk < 0.

El analisis del metodo de Newton tiene dos facetas:

1. Convergencia local, del metodo ‘puro’ cuando x0 esta suficientemente proximo a un mınimo

local no singular.

2. Convergencia global, que analiza las modificaciones que son necesarias para asegurar la con-

vergencia del algoritmo a algun mınimo local independiente de la ubicacion del punto de

arranque x0.

Comenzaremos por afirmar que cuando el numero de variables n es grande, el computo de(∇2 f (xk)

)−1es de elevado coste.

27

Page 32: Apuntes (Curso-09-10)

8.1. Convergencia local

Discutiremos las propiedades de la tasa de convergencia local del metodo de Newton, en su

forma pura.

Si x esta suficientemente proximo a un punto x∗ tal que ∇2 f (x∗) es definida positiva, el hessiano

∇2 f (x) tambien sera definido positivo. Entonces, el metodo de Newton puro estara bien definido

en esta region, y convergera cuadraticamente.

Teorema 22. Supongamos que ∇2 f es Lipschitz continua en la bola cerrada B(x∗;β ), siendo x∗ un

punto en el que se satisfacen las condiciones suficientes de optimalidad. Consideremos la iteracion

xk+1 = xk + dkN , donde dk = dN

k ha sido definida en (56). Entonces, se cumplen las siguientes

propiedades:

1) Si el punto inicial x0 esta suficientemente proximo a x∗, la sucesion de puntos generada por

el algoritmo{

xk}∞

k=0converge a x∗ con tasa de convergencia es cuadratica.

2) La sucesion {‖∇ fk‖}∞k=0 converge cuadraticamente a cero.

Demostracion. 1) A partir de la definicion de dNk y de la condicion de optimalidad de 1er orden

∇ f (x∗) = 0n, tendremos:

xk +dNk − x∗ = xk − x∗− (∇2 fk)

−1∇ fk (57)

=(∇2 fk

)−1{(

∇2 fk

)(xk − x∗

)− (∇ fk −∇ f∗)

},

donde ∇2 fk ≡ ∇2 f (xk), ∇ fk ≡ ∇ f (xk), y ∇ f∗ ≡ ∇ f (x∗).Puesto que

∇ fk −∇ f∗ =∫ 1

0∇2 f

(x∗ + t

(xk − x∗

))(xk − x∗

)dt,

se tiene ∥∥∥(∇2 fk

)(xk − x∗

)− (∇ fk −∇ f∗)

∥∥∥ (58)

=

∥∥∥∥∫ 1

0

[∇2 fk −∇2 f

(x∗ + t

(xk − x∗

))](xk − x∗

)dt

∥∥∥∥

≤∫ 1

0

∥∥∥∇2 fk −∇2 f(

x∗ + t(

xk − x∗))∥∥∥

∥∥∥xk − x∗∥∥∥ dt

≤∥∥∥xk − x∗

∥∥∥2∫ 1

0L(1− t) dt =

1

2L

∥∥∥xk − x∗∥∥∥

2

,

si xk ∈ B(x∗;β ) y donde L es la constante de Lipschitz para ∇2 f (x) en dicho entorno de x∗.

Puesto que[∇2 f (x)

]−1es continua; podemos tomar β suficientemente pequeno para garantizar

∥∥∥[∇2 f (x)

]−1∥∥∥≤ 2

∥∥∥[∇2 f (x∗)

]−1∥∥∥ (59)

para todo x ∈ B(x∗;β ).Si xk ∈ B(x∗;β ), y sustituyendo en (57) y (58) se obtiene:

∥∥∥xk+1 − x∗∥∥∥ =

∥∥∥xk +dNk − x∗

∥∥∥ (60)

≤ L

∥∥∥[∇2 f (x∗)

]−1∥∥∥∥∥∥xk − x∗

∥∥∥2

= L

∥∥∥xk − x∗∥∥∥

2

28

Page 33: Apuntes (Curso-09-10)

donde L := L

∥∥∥[∇2 f (x∗)

]−1∥∥∥.

Tomemos β suficientemente pequeno para que, ademas de (59) se cumpla que β L < 1. Enton-

ces∥∥∥xk+1 − x∗

∥∥∥ ≤ L

∥∥∥xk − x∗∥∥∥∥∥∥xk − x∗

∥∥∥

≤ β L

∥∥∥xk − x∗∥∥∥≤

∥∥∥xk − x∗∥∥∥≤ β ,

donde la antepenultima desigualdad se deduce de que xk ∈ B(x∗;β ).Por lo tanto, si x0 ∈ B(x∗;β ), se tendra

{xk}∞

k=0∈ B(x∗;β ), y ademas

∥∥∥xk+1 − x∗∥∥∥ ≤ β L

∥∥∥xk − x∗∥∥∥

≤ (β L)k+1∥∥x0 − x∗

∥∥ ,

de donde se desprende que xk → x∗. De (60) se deuce la convergencia cuadratica.

2) Teniendo en cuenta las relaciones xk+1 − xk = dNk , y ∇ fk +(∇2 fk)d

Nk = 0n, obtenemos:

∥∥∥∇ f (xk+1)∥∥∥ =

∥∥∥∇ f (xk+1)−∇ f (xk)−∇2 f (xk)dNk

∥∥∥

=

∥∥∥∥∫ 1

0∇2 f (xk + tdN

k )(xk+1 − xk)dt −∇2 f (xk)dNk

∥∥∥∥

≤∫ 1

0

∥∥∥∇2 f (xk + tdNk )−∇2 f (xk)

∥∥∥∥∥dN

k

∥∥ dt

≤ 1

2L∥∥dN

k

∥∥2

≤ 1

2L

∥∥∥∇2 f (xk)−1∥∥∥

2∥∥∥∇ f (xk)∥∥∥

2

≤ 2L∥∥∇2 f (x∗)−1

∥∥2∥∥∥∇ f (xk)

∥∥∥2

,

donde la penultima desigualdad la obtenemos por la formula (59). Y con esto hemos probado que

las normas de los gradientes convergen cuadraticamente a cero.

8.2. Convergencia global

Las limitaciones del metodo puro de Newton surgen de los siguientes hechos:

1. La convergencia en las primeras iteraciones puede ser lenta.

2. Puede fallar la convergencia a un mınimo local porque:

El hessiano sea singular (¡si ∇2 f (xk) es singular, dNk no esta definida!).

El tamano de paso tk = 1 es ’demasiado grande’ (¡la aproximacion cuadratica es ’me-

nos’ satisfactoria si nos alejamos en exceso de xk!)

29

Page 34: Apuntes (Curso-09-10)

Se trata de modificar el metodo de Newton puro con el proposito de ’forzar’ la convergencia

global, pero manteniendo la ’buena tasa’ de convergencia local. Una posibilidad simple consiste

en reemplazar la direccion de Newton por la direccion del descenso mas rapido, cuando la primera

no esta definida o no es de descenso.

Generalmente, ninguna de las variantes del metodo de Newton puro puede garantizar conver-

gencia rapida en las primeras iteraciones, pero hay procedimientos que pueden usar informacion

de 2o orden de forma efectiva, incluso cuando el hessiano no es definido positivo. Estos esquemas

se basan en modificaciones de la diagonal del hessiano, de forma que la direccion de busqueda dk

se obtiene resolviendo el sistema

(∇2 f (xk)+∆k

)dk = −∇ f (xk),

cuando la direccion de Newton, dNk , no esta definida o no es de descenso. ∆k es una matriz diagonal

que se elige de tal forma que ∇2 f (xk)+∆k sea definida positiva. A continuacion describimos una

de las posibilidades mas caracterısticas.

8.2.1. Metodos de las regiones de confianza (’trust region’ methods)

Recordemos que el metodo de Newton puro se basa en la minimizacion sobre d, de la aproxi-

macion cuadratica a f alrededor de xk, dada por:

fk(d) := f (xk)+∇ f (xk)T d +1

2dT ∇2 f (xk)d.

Sabemos que fk(d) es una ’buena’ aproximacion de f (xk +d) cuando d esta en un ’pequeno’

entorno de 0n. El problema estriba en que la minimizacion irrestringida de fk(d) puede conducirnos

a un nuevo punto, xk+1 = xk +dk con dk ∈ argmin{ fk(d) : d ∈ Rn} que este lejos de dicho entorno.

Cobra, pues, sentido considerar una etapa de Newton restringida, dk, obtenida minimizando

fk(d) sobre un entorno ’conveniente’ de 0n, llamado region de confianza:

dk ∈ argmin{ fk(d) : ‖d‖ ≤ γk}donde γk es un escalar positivo. Aplicando las condiciones de KKT, tras formular la restriccion

‖d‖ ≤ γk como 12dT Id ≤ 1

2γ2

k , puede probarse que la etapa restringida de Newton, dk, tambien

tiene que satisfacer un sistema de la forma

(∇2 f (xk)+δkI

)d = −∇ f (xk),

donde I es la matriz identidad, y δk es un escalar no-negativo. De esta forma se evidencia que

el presente metodo de determinacion de dk corresponde a la estrategia de utilizar una correccion

’diagonal’ del hessiano.

Una importante observacion que procede efectuar aquı es que incluso cuando ∇2 f (xk) no es

definida positiva, la direccion restringida de Newton dk mejorara el coste, siempre que ∇ f (xk) 6= 0n

y γk sea suficientemente pequena. Para comprobar tal afirmacion, observemos que para todo d tal

que ‖d‖ ≤ γk

f (xk +d) = fk(d)+o(γ2k ),

30

Page 35: Apuntes (Curso-09-10)

de forma que

f (xk +dk) = fk(dk)+o(γ2

k ) = f (xk)+ mın‖d‖≤γk

{∇ f (xk)T d +

1

2dT ∇2 f (xk)d

}+o(γ2

k )

Ası pues, denotando

dk := − ∇ f (xk)∥∥∇ f (xk)∥∥γk,

se tendra:

f (xk+1) = f (xk +dk)

≤ f (xk)+∇ f (xk)T dk +1

2dT

k ∇2 f (xk)dk +o(γ2k ) =

f (xk)+ γk

(−∥∥∥∇ f (xk)

∥∥∥+γk

2∥∥ f (xk)

∥∥2∇ f (xk)T ∇2 f (xk)∇ f (xk)+o(γk)

).

Se aprecia que para γk suficientemente pequeno, el termino −∥∥∇ f (xk)

∥∥ domina a los otros dos

terminos en la expresion contenida entre parentesis, mostrando que f (xk+1) < f (xk).La eleccion del valor inicial de γk es crucial en este esquema: si es elegido demasiado grande,

quizas se necesitaran numerosas reducciones de γk hasta que una mejora de la funcion objetivo sea

lograda; si, por el contrario, el valor inicial de γk es demasiado pequeno, la tasa de convergencia

puede ser muy pobre.

9. Problemas de Mınimos-Cuadrados

El problema del que nos vamos a ocupar es el siguiente

(P) mın

{f (x) :=

1

2‖g(x)‖2 =

1

2

m

∑i=1

gi(x)2; s.a. x ∈ R

n

}, (61)

donde g = (g1, . . . ,gm)T : Rn → R

m, y gi ∈ C 1, i = 1,2, ...,m.

Si nustro objetivo es resolver la ecuacion vectorial (o sistema de ecuaciones) g(x) = 0m, es

evidente que x∗ es una solucion del tal sistema si y solo si x∗ minimiza 12‖g(x)‖2

, y el valor optimo

es cero.

Otras muchas aplicaciones pueden encontrarse en campos tan diversos como el ajuste de cur-

vas, las redes neuronales, la clasificacion de patrones, etc. (ver Bert95, pags 93-97).

Describiremos el metodo mas comunmente usado para resolver el problema (61), conocido

como metodo de Gauss-Newton. Dado un punto xk, la forma pura del metodo de Gauss-Newton se

basa en linealizar la funcion g(.) alrededor del punto xk, es decir, considerar la funcion lineal

ℓk(x) := g(xk)+∇g(xk)T (x− xk),

y minimizar, acto seguido, la norma de la funcion lineal ℓk(x). De esta forma

xk+1 = argmin

{1

2‖ℓk(x)‖2

: x ∈ Rn

}=

argmin

{1

2

{ ∥∥g(xk)∥∥2

+2g(xk)T ∇g(xk)T (x− xk)+(x− xk)T ∇g(xk)∇g(xk)T (x− xk)

}: x ∈ R

n

}.

31

Page 36: Apuntes (Curso-09-10)

Asumiendo que la matriz, cuadrada de dimensiones n× n, ∇g(xk)∇g(xk)T sea invertible, el

anterior problema de minimizacion conduce a:

xk+1 = xk −(

∇g(xk)∇g(xk)T)−1

∇g(xk)g(xk). (62)

Notese que si g es una funcion lineal, tenemos ‖g(x)‖2 = ‖ℓk(x)‖2y el metodo converge en

una simple iteracion. Observese tambien que la direccion utilizada en (62)

−(

∇g(xk)∇g(xk)T)−1

∇g(xk)g(xk),

es de descenso, puesto que ∇g(xk)g(xk)7 es el gradiente, en xk, de la funcion de coste 12‖g(x)‖2

, y la

matriz(∇g(xk)∇g(xk)T

)−1es definida positiva (bajo la hipotesis formulada de que sea invertible).

Para asegurar que se produzca el ’descenso’, en el caso de que la matriz ∇g(xk)∇g(xk)T sea

singular (tambien para ’reforzar’ la convergencia cuando dicha matriz esta proxima a ser singular!),

el metodo implementado frecuentemente realiza la iteracion

xk+1 = xk − tk

(∇g(xk)∇g(xk)T +∆k

)−1

∇g(xk)g(xk),

donde tk es elegido mediante alguna de las reglas de determinacion del tamano de salto, y ∆k es

una matriz diagonal tal que

∇g(xk)∇g(xk)T +∆k

es definida positiva. En el conocido metodo de Levenberg-Marquardt ∆k es un multiplo positivo de

la matriz identidad.

El metodo de Gauss-Newton guarda estrecha relacion con el metodo de Newton. De hecho, el

hessiano de la funcion objetivo es

∇g(xk)∇g(xk)T +m

∑i=1

gi(xk)∇2gi(x

k),

por lo que (62) equivaldrıa a una iteracion del metodo de Newton puro, pero omitiendo el termino

de segundo ordenm

∑i=1

gi(xk)∇2gi(x

k). (63)

Ası pues, en el metodo de Gauss-Newton ahorramos el computo de este termino, al precio de

algun deterioro en la tasa de convergencia. Por tanto, si el termino (63) es relativamente pequeno,

cerca de un mınimo, la tasa de convergencia del metodo de Gauss-Newton es bastante satisfactoria.

Esto sera particularmente cierto en aquellos casos en que g es practicamente lineal, y tambien

cuando las componentes gi(x) son pequenas, cerca de la solucion.

En el caso en que m = n, y tratamos de resolver el sistema g(x) = 0n, el termino omitido (63)

es nulo en la solucion. En este caso, asumiendo que ∇g(xk) es invertible, se cumple

(∇g(xk)∇g(xk)T

)−1

∇g(xk)g(xk) =(

∇g(xk)T)−1

g(xk),

y la forma pura del metodo puro de Gauss-Newton (62) toma la forma:

xk+1 = xk −(

∇g(xk)T)−1

g(xk),

que coincide con el metodo de Newton para resolver g(x) = 0n.

7∇g(xk)g(xk) = ∑mi=1 gi(x

k)∇gi(xk)

32

Page 37: Apuntes (Curso-09-10)

10. Metodos de direcciones conjugadas

El proposito de esta familia de metodos es mejorar la tasa de convergencia del metodo de des-

censo mas rapido, sin incurrir en la sobrecarga computacional del metodo de Newton.

Originalmente se desarrollaron para resolver el problema cuadratico

mın

{f (x) =

1

2xT Qx−bT x

}

s.a. x ∈ Rn, (64)

donde Q es una matriz simetrica y definida positiva, o bien para resolver el sistema lineal

Qx = b.

Los metodos de direcciones conjugadas resuelven estos problemas en un maximo de n itera-

ciones. Tambien se aplican a problemas de optimizacion en un entorno de un mınimo local x∗ tal

que ∇2 f (x∗) ≻ 0 (Bert95, pag. 118).

Definicion 23. Dada una matriz n×n simetrica y definida positiva Q, decimos que el conjunto de

vectores no-nulos d0,d1, . . . ,dk representan direcciones Q-conjugadas si

(di)T Qd j = 0, ∀i, j, tal que i 6= j.

Lema 24. Si d0,d1, . . . ,dk son Q-conjugadas seran linealmente independientes.

Demostracion. Supongamos (sin perdida de generalidad) que:

d0 = t1d1 + . . .+ tkdk.

Entonces

(d0)T Qd0 =k

∑i=1

ti(di)T Qd0 = 0,

ya que dTi Qd0 = 0, y esto contradice el hecho de que Q ≻ 0.

Para un conjunto (maximal) de direcciones Q-conjugadas, d0, d1, ...,dn−1, el metodo de direc-

ciones conjugadas destinado a resolver el problema (64), viene dado por

xk+1 = xk + tkdk, k = 0,1, . . . ,n−1,

donde x0 es un punto inicial arbitrario, y tk se obtiene mediante una busqueda lineal exacta, es decir

f (xk + tkdk) = mın{

f (xk + tdk) : t ∈ R

}. (65)

Proposicion 25. Para cada k se verifica

xk+1 = argmin{ f (x) : x ∈ Mk} , (66)

donde

Mk := x0 + span{d0, d1, ...,dk}.En particular, xn minimiza f sobre R

n, puesto que Mn−1 = Rn.

33

Page 38: Apuntes (Curso-09-10)

Demostracion. Por (65) se tiene

d f (xi + tdi)

dt|t=ti = ∇ f (xi+1)T di = 0,

y, para i = 0,1, ...,k−1,

∇ f (xk+1)T di =(

Qxk+1 −b)T

di =

(xi+1 +

k

∑j=i+1

t jdj

)T

Qdi −bT di

= (xi+1)T Qdi −bT di =(Qxi+1 −b

)Tdi = ∇ f (xi+1)T di,

donde hemos tenido en cuenta que di y d j, j = i+1, ...,k, son Q-conjugadas. Combinando las dos

ultimas igualdades resulta

∇ f (xk+1)T di = 0, i = 0,1, . . . ,k. (67)

De esta forma∂ f (x0 + γ0d0 + . . .+ γkdk)

∂γi

∣∣∣∣γ j=t j, j=0,1,...,k

= 0, i = 0, . . . ,k,

y se obtiene la conclusion deseada.

Dado un conjunto de vectores linealmente independientes {v0,v1, ...,vk}, nos planteamos ahora

la tarea de construir un conjunto de direcciones Q-conjugadas {d0,d1, ...,dk} tal que

span{d0,d1, ...,dk} = span{v0,v1, ...,vk}. (68)

Para ello recurriremos a una variante del metodo Gram-Schmidt. Aplicaremos un mecanismo

recursivo, comenzando con

d0 = v0. (69)

Supongamos que, para algun i < k, disponemos ya de direcciones Q-conjugadas d0,d1, ...,di

tales que

span{d0,d1, ...,di} = span{v0,v1, ...,vi}. (70)

Definiremos ahora

di+1 := vi+1 +i

∑m=0

ci+1,mdm, (71)

eligiendo los coeficientes ci+1,m, m = 0,1, ..., i, de forma que se garantice que di+1 es Q-conjugada

a d0,d1, ...,di. Esto sucedera si, para cada j = 0,1, ..., i, se cumple

0 = (di+1)T Qd j = (vi+1)T Qd j +i

∑m=0

ci+1,m(dm)T Qd j

= (vi+1)T Qd j + ci+1, j(dj)T Qd j,

de donde

ci+1, j = −(vi+1)T Qd j

(d j)T Qd j, j = 0,1, ..., i. (72)

Observese que el denominador (d j)T Qd j es positivo, puesto que las direcciones d0,d1, ...,di

son (por hipotesis de induccion) Q-conjugadas y, por tanto, no-nulas.

34

Page 39: Apuntes (Curso-09-10)

Notese tambien que di+1 6= 0n puesto que si fuese di+1 = 0n tendrıamos por (71) y (70)

vi+1 ∈ span{d0,d1, ...,di} = span{v0,v1, ...,vi},

entrando en contradiccion con la independencia lineal de los vectores v0,v1, ...,vk.Finalmente, por (71),

vi+1 ∈ span{d0,d1, ...,di,di+1},mientras que

di+1 ∈ span{d0,d1, ...,di}+ span{vi+1}= span{v0,v1, ...,vi}+ span{vi+1}= span{v0,v1, ...,vi,vi+1}.

Ası pues (70), se cumple tambien cuando i se incrementa a i+1.

Tambien merece la pena estudiar el caso en que los vectores v0,v1, ...,vi son linealmente in-

dependientes, pero el vector vi+1 depende linealmente de ellos. En este caso, el procedimiento

anterior (71), y las formulas (72) siguen siendo validas, pero el nuevo vector di+1 sera nulo. De

hecho, a partir de (70) y (71), se tiene

di+1 ∈ span{v0,v1, ...,vi,vi+1}= span{v0,v1, ...,vi},

y

di+1 =i

∑m=0

γmdm. (73)

Premultiplicando (73) por (d j)T Q, j = 0,1, ..., i, resulta γm = 0, m = 0,1, ..., i, y di+1 = 0n.Podemos usar esta propiedad para construir un conjunto de direcciones Q-conjugadas que ge-

neran el mismo espacio que los vectores v0,v1, ...,vk, los cuales a priori no tienen porque ser

linealmente independientes. Cada vez que mediante (71) y (72) se genera una ’nueva’ direccion

di+1 que es nula, sera descartada, y se incorporara vi+2.

10.1. El metodo del gradiente conjugado

Se aplica el metodo de Gram-Schmidt, recientemente descrito, a los vectores

vk = −gk ≡−∇ f (xk) = −(Qxk −b), k = 0,1, ...,n−1.

Ası pues, el metodo del gradiente conjugado progresa mediante iteraciones

xk+1 = xk + tkdk,

donde tk se obtiene mediante minimizacion de f sobre la recta {xk + tdk : t ∈ R}, y dk es obtenida

aplicando (71) a −gk y a las direcciones d0,d1, ...,dk−1 previamente determinadas, con coeficientes

dados por (72):

dk = −gk +k−1

∑j=0

(gk)T Qd j

(d j)T Qd jd j. (74)

35

Page 40: Apuntes (Curso-09-10)

Observese que d0 = −g0, y el metodo termina cuando llega a un punto xk tal que gk = 0n.

Logicamente, el metodo tambien se detiene cuando dk = 0n, pero veremos que esto solo puede

acontecer cuando gk = 0n.La propiedad clave del metodo del gradiente conjugado estriba en que la formula (74) puede

ser simplificada de forma considerable. En particular todos salvo uno de los coeficientes de (74) se

anulan, y ello como consecuencia de (67), ecuacion que establece que el gradiente gk es ortogonal

a d0,d1, ...,dk−1. De hecho tenemos la siguiente proposicion:

Proposicion 26. Las direcciones de busqueda utilizadas en el metodo del gradiente conjugado son

d0 = −g0,

dk = −gk +βkdk−1, k = 1,2, ...,n−1,

con

βk :=(gk)

T gk

(gk−1)T gk−1

. (75)

Ademas, el metodo termina en una solucion optima en un maximo de n etapas.

Demostracion. Usuaremos la induccion para comprobar que los gradientes gk generados hasta la

terminacion son linealmente independientes. El resultado es obvio k = 0. Supongamos, pues, que el

metodo no ha terminado despues de k etapas, y que g0,g1, ...,gk−1 son linealmente independientes.

Entonces, y puesto que se trata de un metodo de direcciones conjugadas,

span{d0,d1, ...,dk−1} = span{g0,g1, ...,gk−1}.

Hay dos posibilidades:

i) gk = 0n, en cuyo caso el metodo termina.

ii) gk 6= 0n, en cuyo caso, por (67),

gk ⊥ span{d0,d1, ...,dk−1}⇒ gk ⊥ span{g0,g1, ...,gk−1}, (76)

y ello conlleva que gk sea linealmente independiente de g0,g1, ...,gk−1.

Puesto que como maximo n gradientes linealmente independientes podran ser generados, se

sigue que el gradiente sera 0n despues de n iteraciones, y el metodo termina obteniendo el mınimo

(global) de f .

Veamos ahora que (74) se simplifica en los terminos indicados. Sea j tal que g j 6= 0n. Se

verifica, entonces,

g j+1 −g j = Q(x j+1 − x j) = t jQd j. (77)

Observese que t j 6= 0, porque si fuese t j = 0 se tendrıa g j+1 = g j, lo que implicarıa (en virtud de

(76)) que g j = 0n (¡descartado por hipotesis!). Ası pues,

(gi)T Qd j =

1

t j(gi)

T (g j+1−g j) =

{0, si j = 0,1, ..., i−2,1

ti−1(gi)

T gi, si j = i−1,

y tambien

(d j)T Qd j =1

t j

(d j)T (g j+1 −g j).

36

Page 41: Apuntes (Curso-09-10)

Sustituyendo en (74) se obtiene

dk = −gk +βkdk−1, (78)

con

βk =

1tk−1

(gk)T gk

1tk−1

(dk−1)T (gk −gk−1)(79)

=(gk)

T gk

(dk−1)T (gk −gk−1). (80)

A partir de (78) se deduce

dk−1 = −gk−1 +βk−1dk−2.

Usando esta ecuacion, la ortogonalidad de gk y gk−1, y de dk−2 y gk −gk−1 (por (76)), el denomi-

nador de (80) se reduce a (gk−1)T gk−1, como pretendıamos probar.

Observese que la ortogonalidad de gk y gk−1 permite escribir la formula (75) como:

βk :=gT

k (gk −gk−1)

gTk−1

gk−1

. (81)

Mientras que (75) y (81) son equivalentes en el caso cuadratico, en el caso no-cuadratico exis-

ten diferencias notables entre ambas formulas.

Aplicacion a problemas no-cuadraticos El metodo del gradiente conjugado puede ser aplicado

al problema no-cuadratico

mın { f (x), s.a. x ∈ Rn},

en cuyo caso procede de la siguiente forma:

xk+1 = xk + tkdk,

donde tk es obtenido mediante una busqueda lineal exacta

f(

xk + tkdk)

= mın{ f(

xk + tdk)

, t ∈ R}, (82)

y

dk := −∇ f (xk)+βkdk−1. (83)

La forma mas comun de calcular βk es a traves de la formula

βk =∇ f (xk)T

(∇ f (xk)−∇ f (xk−1)

)

∇ f (xk−1)T ∇ f (xk−1).

(Comparese esta formula con (81)).

La direccion dk suministrada por (83) es de descenso:

∇ f (xk)T dk = −∥∥∥∇ f (xk)

∥∥∥2

+βk∇ f (xk)T dk−1 = −∥∥∥∇ f (xk)

∥∥∥2

,

37

Page 42: Apuntes (Curso-09-10)

donde la primera igualdad se deduce de (83) y la segunda de (82).

El metodo del gradiente conjugado es a menudo empleado en problemas en que el numero

de variables n es grande, y es frecuente que el metodo de repente comience a generar de repente

direcciones de busqueda ineficientes. Por esta razon, es importante operar en ciclos de etapas que

usen direcciones conjugadas”, con una primera iteracion en el ciclo realizada mediante el metodo

de descenso mas rapido. Un par de posibles polıticas para el ’reinicio’ es:

1. Reiniciar (un nuevo ciclo) con una etapa del metodo del descenso mas rapido despues de

exactamente n iteraciones.

2. Reiniciar con la correspondiente etapa del metodo del descenso mas rapido bien si se han

realizado n iteraciones desde el reinicio ultimo o si

∣∣∣∇ f (xk)T ∇ f (xk−1)∣∣∣> γ

∥∥∥∇ f (xk−1)∥∥∥

2

, (84)

donde γ es un escalar fijo con 0 < γ < 1. La relacion anterior es un test de ’perdida de con-

jugacion’, puesto que si las direcciones generadas fuesen conjugadas entonces tendrıamos

∇ f (xk)T ∇ f (xk−1) = 0.

11. Metodos Quasi-Newton

Son metodos del gradiente de la forma xk+1 = xk + tkdk, con

dk := −Dk∇ f (xk), (85)

donde Dk es una matriz simetrica y definida positiva que se ajusta en cada iteracion de modo que dk

se aproxime progresivamente a la direccion de Newton. Por su parte, Dk se aproxima a (∇2 f )−1.

Tıpicamente, su convergencia es rapida, y evitan los calculos relativos a las segundas derivadas

que conlleva el metodo de Newton. Requieren el almacenamiento de la matriz Dk, y de los demas

elementos que intervienen en la obtencion de Dk+1 a partir de Dk.

Una idea fundamental en los metodos Quasi-Newton es que cada dos puntos consecutivos, xk

y xk+1, junto con sus gradientes, ∇ f (xk) y ∇ f (xk+1), proporcionan informacion sobre la curvatura

de f , a traves de la relacion aproximada

qk ≈ ∇2 f (xk+1)pk, (86)

donde

pk := xk+1 − xk,

y

qk := ∇ f (xk+1)−∇ f (xk).

Observese que si f es cuadratica, ∇2 f es constante, y (86) es una identidad.

En los metodos Quasi-Newton mas populares, la matriz Dk+1 es obtenida a partir de Dk, y de

los vectores pk y qk, a traves de la ecuacion

Dk+1 := Dk +pk(pk)T

(pk)T qk− Dkqk(qk)T Dk

(qk)T Dkqk+ξkτkvk(vk)T , (87)

38

Page 43: Apuntes (Curso-09-10)

donde

vk : =pk

(pk)T qT− Dkqk

τk

, (88)

τk : = (qk)T Dkqk, (89)

los escalares ξk satisfacen, ∀k,

0 ≤ ξk ≤ 1,

y D0 es una matriz simetrica definida positiva arbitraria.

Los escalares ξk parametrizan el metodo. Si ξk = 0 para todo k, obtendremos el metodo de

Davidon-Fletcher-Powell (DFP), que es historicamente el primer metodo Quasi-Newton. Si ξk =1 para todo k, se obtiene el metodo de Broyden-Fletcher-Goldfarb-Shanno (BFGS), el cual se

considera el mejor metodo Quasi-Newton conocido hasta el presente (de proposito general).

Probaremos, a continuacion, que bajo una condicion debil, las matrices Dk generadas por (87)

son definidas positivas. Ello garantiza que la direccion de busqueda dk dada por (85) es de descen-

so.

Proposicion 27. Si Dk es definida positiva, y tk > 0 es elegida de tal modo que

∇ f (xk)T dk < ∇ f (xk+1)T dk, (90)

entonces Dk+1, dada por (87), tambien es definida positiva.

Observacion 28. En particular, si tk es determinada mediante una minimizacion sobre la recta

{xk + tdk : t ∈ R}, tendremos que ∇ f (xk+1)T dk = 0 y (90) se cumple trivialmente.

Demostracion. Observemos, en primera instancia, que (90) implica tk 6= 0 y qk 6= 0n. Ası pues,

(pk)T qk = tk(dk)T(

∇ f (xk+1)−∇ f (xk))

> 0. (91)

Esta desigualdad la obtenemos por (90) y por el hecho de que tk > 0.

Concluimos que ’todos’ los denominadores en (87), (88) y (89) son no-nulos (de hecho son

positivos), y Dk+1 esta ’bien definida’. Ahora para cualquier z 6= 0n, se obtiene

zT Dk+1z = zT Dkz+(zT pk)2

(pk)T qk−((qk)T Dkz

)2

(qk)T Dkqk+ξkτk((v

k)T z)2. (92)

Usando la notacion

a := D12

k , b := D12

k qk,

(92) se expresa como

zT Dk+1z =‖a‖2‖b‖2 − (aT b)2

‖b‖2+

(zT pk)2

(pk)T qk+ξkτk((v

k)T z)2. (93)

A partir de (89) y de (91), junto con la desigualdad de Cauchy-Schwarz, deducimos que todos los

terminos en el segundo miembro de (93) son no-negativos. Para probar que zT Dk+1z es, de hecho,

positivo mostraremos que no se pueden satisfacer simultaneamente

‖a‖2 ‖b‖2 = (aT b)2 y zT pk = 0.

39

Page 44: Apuntes (Curso-09-10)

De hecho, si ‖a‖2 ‖b‖2 = (aT b)2, se tendra a = λb o, equivalentemente,

z = λqk.

Puesto que z 6= 0n, se sigue que λ 6= 0, de forma que si zT pk = 0 tiene que cumplirse (qk)T pk = 0,

lo que es imposible en virtud de (90).

Proposicion 29. Sean {xk}, {dk}, y {Dk} sucesiones generadas por el algoritmo Quasi-Newton

(85), (87) a (89), aplicado a minimizar la funcion

f (x) =1

2xT Qx−bT x,

donde Q es simetrica y definida positiva, con tk elegido de manera que

f (xk + tkdk) = mın{ f (xk + tdk) : t > 0}. (94)

Asumamos que ninguno de los puntos x0,x1, ...,xn−1 es un mınimo. Entonces se tiene que:

(i) Los vectores d0,d1, ...,dn−1 son Q-conjugados;

(ii) Dn = Q−1.

Demostracion. Probaremos que, para todo k,

(di)T Qd j = 0, 0 ≤ i < j ≤ k, (95)

Dk+1Qpi = pi, 0 ≤ i ≤ k. (96)

(95) establece (i), mientras que probaremos que (96) conduce a (ii). De hecho, y puesto que hemos

asumido que para i < n ninguno de los puntos xi es optimo, y di es una direccion de descenso

(por (85) y la proposicion anterior), tenemos que pi 6= 0n. Puesto que pi = tidiy d0,d1, . . . ,dn−1

son Q-conjugados, se sigue que p0, p1, . . . , pn−1 son linealmente independientes y, ası pues, (96)

implica que DnQ es igual a la matriz identidad.

Probaremos en primer lugar, que

Dk+1Qpk = pk, ∀k. (97)

A partir de la ecuacion Qpk = qk, y la formula (87), se obtiene

Dk+1Qpk = Dk+1qk

= Dkqk +pk(pk)T qk

(pk)T qk− Dkqk(qk)T Dkqk

(qk)T Dkqk+ξkτkvk(vk)T qk

= pk +ξkτkvk(vk)T qk.

A partir de (88) y (89) se deduce

(vk)T qk =

(pk)T qk

(pk)T qk− (qk)T Dkqk

τk

= 1−1 = 0,

y resulta

Dk+1Qpk = pk

40

Page 45: Apuntes (Curso-09-10)

A continuacion probaremos por induccion, y de forma simultanea (95) y (96). Para k = 0, (96) se

cumple en virtud de (97). De otro lado:

(d1)T Qd0 = −∇ f (x1)T D1Qd0

= − 1

t0∇ f (x1)T (D1Qp0) = − 1

t0∇ f (x1)T p0 = ∇ f (x1)T d0 = 0.

Asumiremos que (95) y (96) se cumplen para k, y comprobaremos que tambien son validas para

k +1. Se tiene, para i < k,

∇ f (xk+1) = ∇ f (xi+1)+Q(pi+1 + . . .+ pk). (98)

Veamos que pi es ortogonal a cada vector presente en el miembro de la derecha en (98). De hecho

pi es ortogonal a Qpi+1, . . . ,Qpk dado que los vectores p0, . . . , pk son Q-conjugados (pi = tidi), y

es ortogonal a ∇ f (xi+1) porque ti se determina mediante una minimizacion (94). Ası pues, de (98)

se deduce

pi∇ f (xk+1) = 0, 0 ≤ i < k. (99)

A partir de esta igualdad, y de (96) (junto con la hipotesis de induccion):

(pi)T QDk+1∇ f (xk+1) = (pi)T ∇ f (xk+1) = 0, 0 ≤ i ≤ k, (100)

donde la primera igualdad la obtenemos por (96), y la segunda por (99) (el caso i = k, es conse-

cuencia de (94)), y puesto que pi = tidi, y dk+1 = −Dk+1∇ f (xk+1), obtenemos de (100)

−ti(di)T Qdk+1 = 0, 0 ≤ i ≤ k, donde ti 6= 0, (101)

y esto prueba (95) para k +1.

A partir de la hipotesis de induccion relativa a (96) y por (101), tenemos para todo i tal que

0 ≤ i ≤ k:

(qk+1)T Dk+1Qpi = (qk+1)T pi = (pk+1)T Qpi = tk+1tidk+1Qdi = 0. (102)

De (87):

Dk+2qi = Dk+1qi +pk+1(pk+1)T qi

(pk+1)T qk+1− Dk+1qk+1(qk+1)T Dk+1qi

(qk+1)T Dk+1qk+1

+ξk+1τk+1vk+1(vk+1)T qi.

Puesto que (pk+1)T qi = (pk+1)T Qpi = 0, el segundo termino en el miembro de la derecha de la

expresion anterior es cero. Similarmente:

(qk+1)T Dk+1qi = (qk+1)T Dk+1Qpi = (qk+1)T pi = (pk+1)T Qpi = 0,

(donde la antepenultima igualdad se obtiene por la formula (96)) y el tercer termino en el segundo

miembro de la expresion que estamos analizando tambien es cero.

Finalmente,

(vk+1)T qi =(pk+1)T qi

(pk+1)T qk+1− (qk+1)T Dk+1qi

τk+1

= 0−0 = 0.

Ası pues

Dk+2Qpi = Dk+2qi = Dk+1qi = Dk+1Qpi = pi, 0 ≤ i ≤ k.

Por (97),

Dk+2Qpk+1 = pk+1,

y queda verificado que (96)se cumple para k +1.

41

Page 46: Apuntes (Curso-09-10)

11.1. Comparacion de los metodos Quasi-Newton con otros metodos

La principal ventaja de los metodos Quasi-Newton estriba en que si las busquedas lineales se

realizan con ’relativa’ precision, estos algoritmos, no solo ’tienden’ a generar direcciones conjuga-

das, sino que estas direcciones ’tienden’ a la del metodo de Newton, disfrutando de una rapida tasa

de convergencia en las inmediaciones de un mınimo local no-singular. Ello ademas, no depende

de la matriz inicial D0, con lo que no es usualmente necesario el intercalar etapas de ’reinicio’ que

recurran al metodo de descenso mas rapido.

Si las evaluaciones multiples de la funcion objetivo y del gradiente a realizar durante las busquedas

lineales son computacionalmente costosos, las ventajas computacionales del metodo del gradiente

conjugado vendrıan compensadas por la rapidez de convergencia de los metodos Quasi-Newton.

12. Metodos que no usan derivadas

Los metodos del gradiente que hemos visto con anterioridad requieren al menos el calculo

del gradiente ∇ f (xk) y posiblemente el hessiano ∇2 f (xk) en cada punto generado xk. En muchos

problemas, o bien estas derivadas no estan disponibles en forma explıcita, o bien vienen dadas

por expresiones muy complicadas. En estos casos, podrıamos utilizar una aproximacion de las

derivadas mediante diferencias finitas y aplicar el correspondiente metodo del gradiente usando

estas aproximaciones. En esta seccion vamos a presentar otros metodos que no utilizan derivadas.

12.1. Metodo de descenso por coordenadas

En el metodo de descenso por coordenadas la funcion objetivo es minimizada a lo largo de una

direccion coordenada en cada iteracion. El orden en que las direcciones coordenadas son elegidas

puede variar en el curso del algoritmo. Ası, el metodo utiliza alguna de las direcciones coordenadas

e1,e2, . . . ,en (o sus direcciones contrarias −ei) como direccion de busqueda. En el caso de que el

orden sea cıclico, tras n iteraciones, el metodo vuelve a tomar e1 como direccion de busqueda. Otra

variante es el metodo de doble barrido de Aitken (tambien llamado “back-and-forth”), que utiliza

las direcciones coordenadas en el siguiente orden

e1,e2, . . . ,en−1,en,en−1, . . . ,e2,e1,e2, . . .

Estos metodos cıclicos tienen la ventaja de no requerir ninguna informacion acerca de ∇ f para

determinar las direcciones de descenso.

Si el gradiente de f esta disponible, tiene sentido elegir la direccion coordenada en base a ∇ fk.

Una tecnica popular es el llamado metodo de Gauss-Southwell, donde en cada etapa es elegida

como direccion de busqueda la direccion coordenada correspondiente a la componenente mayor

(en valor absoluto) del gradiente de f .

42

Page 47: Apuntes (Curso-09-10)

Figura 12: Metodo de descenso por coordenadas.

A pesar de parecer un metodo simple e intuitivo, puede ser bastante ineficiente. La experiencia

practica demuestra que tıpicamente se requieren n iteraciones del metodo de descenso por coor-

denadas para igualar una iteracion del metodo de descenso mas rapido. De hecho, el metodo de

descenso de coordenadas con busqueda lineal exacta puede iterar infinitamente sin aproximarse

nunca a un punto donde el gradiente de la funcion objetivo tienda a cero. Esta dificultad provie-

ne del hecho de que el gradiente ∇ fk puede volverse cada vez mas perpendicular a la direccion

coordenada, y ası, cosθk puede aproximarse suficientemente rapido a cero de manera que la con-

dicion de Zoutendijk (21) es satisfecha aunque ∇ fk no se aproxime a cero. Sin embargo, este

metodo puede ser practico en diversas situaciones ya que no requiere el calculo del gradiente ∇ fk,

y ademas, la velocidad de convergencia puede ser bastante aceptable si las variables no estan “muy

interaccionadas” (es decir, si la matriz hessiana es casi diagonal).

12.2. El metodo simplex de Nelder y Mead

El metodo simplex8 de Nelder y Mead es un algoritmo de busqueda directa, que se diferencia

bastante de los algoritmos de busqueda lineal que hemos visto anteriormente. En una iteracion

de este metodo, se parte de un simplex, que es la envoltura convexa de n +1 puntos x0,x1, . . . ,xn

afınmente independientes9.Sean xmin y xmax el “mejor” y el “peor” de los vertices del simplex, es

decir, aquellos vertices que satisfacen

f (xmin) = mıni=0,1,...,n

f (xi) y f (xmax) = maxi=0,1,...,n

f (xi).

Sea x el centroide (o baricentro) de la cara del simplex formada por todos los vertices que no

son xmax, es decir,

x :=1

n

(−xmax +

n

∑i=0

xi

).

8Para evitar la confusion con el metodo simplex de programacion lineal es tambien llamado el algoritmo politopo.9Equivalentemente, x1 − x0, . . . ,xn − x0 son linealmente independientes.

43

Page 48: Apuntes (Curso-09-10)

La iteracion reemplaza el “peor” vertice xmax por uno “mejor”. Para ello se computa el punto

reflejado

xre f := 2x− xmax,

que esta en la recta determinada por xmax y x, siendo simetrico a xmax respecto de x. Dependiendo

del valor de la funcion objetivo en xre f , en relacion con el valor de la funcion objetivo en los

restantes puntos del simplex (excluido xmax), un nuevo vertice xnew es obtenido, y un nuevo simplex

es formado reemplazando xmax por xnew, conservando los otros n vertices.

Algoritmmo 2 (Iteracion del metodo simplex de Nelder y Mead).

xre f = 2x− xmax

if f (xmin) > f (xre f ) :

xexp = 2xre f − x

if f (xexp) < f (xre f ) :

xnew = xexp

else:

xnew = xre f

Caso 1: xre f tiene coste mınimo

(intento de expansion)

elif f (xmin) ≤ f (xre f ) < max{ f (xi) | xi 6= xmax} :

xnew = xre f

}Caso 2: xre f tiene coste intermedio

(uso de la reflexion)

else:

if f (xmax) ≤ f (xre f ) :

xnew = 12(xmax + x)

else:

xnew = 12(xre f + x)

Caso 3: xre f tiene coste maximo

(contraccion)

Formar el nuevo simplex reemplazando xmax por xnew.

xminxmax

xi x

xref

xexp1

2(xref+ x)

1

2(xmax+ x)

Figura 13: Elecciones posibles para el nuevo punto xnew en el algoritmo simplex.

Una cuestion importante consiste en saber cuando una solucion “adecuada” ha sido encontrada.

Nelder y Mead sugirieron utilizar la desviacion estandar de los valores de la funcion:

test =

√1

n

n

∑i=0

( f (xi)−M)2, donde M =1

n+1

n

∑i=0

f (xi).

44

Page 49: Apuntes (Curso-09-10)

El algoritmo se detendrıa cuando el valor test fuera menor que cierto valor de tolerancia preasig-

nado. Esta regla de parada resulta ser razonable en aplicaciones estadısticas, donde este metodo

aun es utilizado. Otra posibilidad consistirıa en detener el algoritmo cuando el valor de la funcion

en todos los puntos del simplex sea el mismo, es decir, cuando f (xmin) = f (xmax) (o cuando su

diferencia sea menor que cierto valor de tolerancia).

Cuando f no es convexa es posible que f (xnew) > f (xmax), no experimentandose una “mejora”

de la funcion objetivo en la correspondiente etapa. En este caso una modificacion posible consistirıa

en contraer el simplex hacia el mejor vertice xmin, reemplazando los vertices originales xi por

xi =1

2(xi + xmin), i = 0,1, . . . ,n.

Este metodo con la modificacion descrita, funciona razonablemente bien en la practica para pro-

blemas de dimension pequena (hasta 10), aunque no garantiza unas propiedades de convergencia

teoricamente deseables (un contraejemplo para la convergencia con n = 2 y f estrictamente con-

vexa es dado por McKinnon, ver [16]).

En la Figura 14 podemos ver el resultado de aplicar el metodo simplex a dos funciones utiliza-

das habitualmente en los tests de algoritmos.

-5 -4 -3 -2 -1 -0 1 2 3 4 5

-5

-4

-3

-2

-1

-0

1

2

3

4

5

-1 -0.75 -0.5 -0.25 -0 0.25 0.5 0.75 1

-0

0.5

1

1.5

Figura 14: Metodo simplex de Nelder y Mead aplicado a las funciones clasicas de Himmelblau

f (x,y) = (x2 +y−11)2 +(x+y2−7)2 (izq.) y Rosenbrock f (x,y) = 100(y−x2)2 +(1−x)2 (der.).

Formas mas generales de del Algoritmo 2 toman combinaciones convexas arbitrarias para

obtener los puntos calculados por el metodo: xre f = x + λ (x− xmax), xexp = xre f + γ(xre f − x),xnew = θxmax +(1−θ)x, o xnew = θxre f +(1−θ)x para ciertas constantes λ ,γ > 0 y θ ∈ (0,1).Otra modificacion posible consiste en reiniciar el simplex actual tras realizarse varias etapas de

expansion (Caso 1, cuando xnew = xexp), para ası evitar una deformacion grande del simplex. En

este caso, los dos mejores puntos son retenidos, y la distancia entre ellos determina la longitud del

lado del nuevo simplex regular. Dado un punto x0, es facil obtener un simplex regular de longitud

δ > 0 con vertice en x0. Basta tomar

α :=δ

n√

2(n−1+

√n+1), β :=

δ

n√

2(−1+

√n+1),

45

Page 50: Apuntes (Curso-09-10)

y definir

xi := x0 +(β , . . . ,β ,α,β , . . . ,β )T , i = 1, . . . ,n.⇑

componenente i

Normalmente, el metodo parte de un simplex regular generado a partir de un punto inicial introdu-

cido, aplicando a continuacion el Algoritmo 2.

13. Optimizacion con restricciones

13.1. Restricciones en forma de igualdad

Consideremos el problema de optimizacion (P) en el que las variables estan sometidas a res-

tricciones en forma de igualdad

(P) := mın f (x) (103)

s.a. hi(x) = 0, i = 1, . . . ,m,

donde f : Rn →R, hi : R

n →R, i = 1,2, . . . ,m (o, equivalentemente, h = (h1, . . . ,hm)T : Rn →R

m).

Representaremos por F el conjunto de soluciones factibles, i.e.

F := {x ∈ Rn : h(x) = 0m}.

Sea x∗ un mınimo local de (P). Supondremos, de ahora en adelante, que todas las funciones

involucradas ( f y hi, i = 1, . . . ,m) son C 1(W ), donde W es un abierto que contiene a x∗.

Llamaremos matriz gradiente de h a la matriz n×m

∇h(x) := [∇h1(x) ... ∇hm(x)] ,

mientras que la matriz jacobiana es la matriz m×n

Jh(x) := ∇h(x)T =

∇h1(x)T

...

∇hm(x)T

.

Teorema 30. (Condicion necesaria de optimalidad). Sea x∗ un mınimo local del problema (P)introducido en (103), y asumamos que los gradientes de las restricciones, ∇h1(x

∗), . . . ,∇hm(x∗),son linealmente independientes10. Entonces existe un unico vector λ ∗ = (λ ∗

1 , . . . ,λ ∗m)T , llamado

vector de multiplicadores de Lagrange, tal que:

∇ f (x∗)+m

∑i=1

λ ∗i ∇hi(x

∗) = ∇ f (x∗)+∇h(x)λ ∗ = 0n. (104)

Si ademas f y h son funciones C 2(W ), se cumplira tambien

yT

(∇2 f (x∗)+

m

∑i=1

λ ∗i ∇hi(x

∗)

)y ≥ 0, ∀y ∈V (x∗) (105)

10Ello obliga a que m ≤ n. Se dice entonces que x∗ es un punto regular.

46

Page 51: Apuntes (Curso-09-10)

donde

V (x∗) : ={

y ∈ Rn : ∇hi(x

∗)T y = 0, i = 1, . . . ,m}

= {y ∈ Rn : Jh(x

∗)y = 0} .

Este teorema se conoce como teorema del los multiplicadores de Lagrange y los escalares

λ ∗1 ,λ ∗

2 , ...,λ ∗m se denominan multiplicadores de Lagrange. De hecho, el sistema de ecuaciones

(104) es la base del llamado metodo de los multiplicadores de Lagrange, establecido por este autor

en 1788, en su libro Mecanique Analytique11. Las dos pruebas mas populares se basan, respectiva-

mente, en el teorema de la funcion implıcita o en la consideracion de una funcion de penalizacion.

A continuacion daremos la segunda de estas pruebas.

Demostracion. a) Introduzcamos, para cada k = 1,2, . . . , la funcion Ψk : Rn → R definida como

Ψk(x) := f (x)+k

2‖h(x)‖2 +

α

2‖x− x∗‖2 ,

donde α > 0 es arbitrario.

Sea ε > 0 tal que f (x∗)≤ f (x) para todo x∈F∩B(x∗;ε), con B(x∗;ε) := {x ∈ Rn : ‖x− x∗‖ ≤ ε},

y sea

xk ∈ argminx∈B(x∗;ε) Ψk(x).

Este punto xk existira siempre puesto que estamos minimizando una funcion continua Ψk en el

compacto B(x∗;ε). Tenemos

Ψk(xk) = f (xk)+k

2‖h(xk)‖2 +

α

2‖xk − x∗‖2 ≤ Ψk(x

∗) = f (x∗). (106)

b) Como {xk} ⊂ B(x∗;ε), existira un punto de acumulacion de esta sucesion, x∗; es decir,

existira una subsucesion {xkr} que converge a x∗ ∈ B(x∗;ε). Veamos que

h(x) = lımr→∞

h(xkr) = 0m,

i.e. x∗ ∈ F. Si no fuera ası, tendrıamos

lımr→∞

‖h(xkr)‖ = ‖h(x)‖ > 0,

y tomando lımites en (106) obtendrıamos una contradiccion puesto que

lımr→∞

{f (xkr

)+α

2‖xkr

− x∗‖2}

= f (x)+α

2‖x− x∗‖2 ,

mientras que

lımr→∞

kr

2‖h(xkr

)‖2 = +∞,

es decir, llegamos a la contradiccion

lımr→∞

{f (xkr

)+kr

2‖h(xkr

)‖2 +α

2‖xkr

− x∗‖2

}= +∞ ≤ f (x∗).

11Presentado en su dıa como una herramienta clave para encontrar el estado de equilibrio estable de un sistema

mecanico.

47

Page 52: Apuntes (Curso-09-10)

c) Puesto que a partir de (106) se deduce

f (xkr)+

α

2‖xkr

− x∗‖2 ≤ f (x∗),

tomando lımites para r → ∞ resulta

f (x)+α

2‖x− x∗‖2 ≤ f (x∗).

Como f (x∗)≤ f (x∗), al ser x∗ ∈ B(x∗;ε)∩F , obtenemos ‖x∗− x∗‖ = 0, esto es x∗ = x∗. Como

x∗ es el unico punto de acumulacion de {xk}, resulta que

lımk→∞

xk = x∗.

d) La convergencia de xk a x∗ entrana que para k grande, xk es un punto interior de B(x∗;ε), y

xk es un mınimo local irrestringido de Ψk(·). A partir de la condicion necesaria de optimalidad de

primer orden se deduce

0n = ∇Ψk(xk) = ∇ f (xk)+ k∇h(xk)h(xk)+α (xk − x∗) . (107)

Puesto que ∇h(x∗) tiene rango m, ∇h(xk) tambien tendra rango m si k es suficientemente grande

(porque hi ∈ C 1(W), i = 1,2, ...,m) de manera que

∇h(xk)T ∇h(xk)

es una matrix m×m invertible. Ası pues, premultiplicando (107) por

(∇h(xk)

T ∇h(xk))−1

∇h(xk)T ,

resultara

kh(xk) = −(∇h(xk)

T ∇h(xk))−1

∇h(xk)T {∇ f (xk)+α(xk − x∗)} .

Tomando lımites para k → ∞, vemos que la sucesion de vectores {kh(xk)} converge a

λ ∗ := −(∇h(x∗)T ∇h(x∗)

)−1∇h(x∗)T ∇ f (x∗).

Tomando lımites, tambien para k → ∞ en (107) resulta

0n = ∇ f (x∗)+∇h(x∗)λ ∗,

lo que prueba (104).

e) Utilizando, ahora, la condicion necesaria de optimalidad de segundo orden, vemos que, para

k suficientemente grande, la matriz hessiana12

∇2Ψk(xk) = ∇2 f (xk)+ k∇h(xk)∇h(xk)T +

km

∑i=1

hi(xk)∇2hi(xk)+αI.

12Sabemos que∂Ψk(x)

∂x j= ∂ f (x)

∂x j+ k ∑m

p=1 hp(x)∂hp(x)

∂x j+ α(x j − x∗j)

Por lo tanto:∂ 2Ψk(x)∂xi∂x j

= ∂ 2 f (x)∂xi∂x j

+ k[∑m

p=1∂hp(x)

∂xi

∂hp(x)∂x j

+ ∑mp=1 hp(x)

∂ 2hp(x)∂xi∂x j

]+ αδi j

(δi j =

{1, si i = j

0, si i 6= j

})

Por lo tanto:

∇2Ψk(x) = ∇2 f (x)+ k ∑mp=1 hp(x)∇

2hp(x)+ k (∇h1(x) . . .∇hm(x))(∇h1(x)

T . . .∇hm(x)T)T

48

Page 53: Apuntes (Curso-09-10)

es semidefinida positiva, cualquiera que sea α > 0.

Fijemos y ∈ V (x∗) (esto es, ∇h(x∗)T y = 0m). Recordando que, para k suficientemente grande,

la matriz ∇h(xk)T ∇h(xk) sera invertible, una comprobacion elemental nos permite observar que

yk := y−∇h(xk)[∇h(xk)

T ∇h(xk)]−1

∇h(xk)T y ∈V (xk). (108)

Puesto que ∇h(xk)T yk = 0m y que la matriz ∇2Ψk(xk) es semidefinida positiva, obtenemos

0 ≤ yTk ∇2Ψk(xk)yk = yT

k

(∇2 f (xk)+ k

m

∑i=1

hi(xk)∇2hi(xk)

)yk +α ‖yk‖2 . (109)

Puesto que ∇h(x∗)T y = 0m y xk → x∗, de (108) se deduce yk → y.

De (109) tomando lımites y del hecho de que khi(xk) → λ ∗i cuando k → ∞, se desprende:

0 ≤ yT

(∇2 f (x∗)+

m

∑i=1

λ ∗i ∇2hi(x

∗)

)y+α ‖y‖2 .

Dado que α puede ser tomado arbitrariamente proximo a cero, obtenemos

0 ≤ yT

(∇2 f (x∗)+

m

∑i=1

λ ∗i ∇2hi(x

∗)

)y.

Como y es un elemento generico de V (x∗), el teorema esta probado.

El ejemplo siguiente ilustra la situacion en la que el punto x∗ no es regular, es decir, aquella

situacion en que los gradientes ∇h1(x∗), . . . ,∇hm(x∗) son linealmente dependientes.

Consideremos el problema en R2

(P) := mın f (x) = x1 + x2 (110)

s.a.h1(x) = (x1 −1)2 + x2

2 −1 = 0

h2(x) = (x1 −2)2 + x22 −4 = 0

Se advierte que en el mınimo local (y global) x∗ = (0,0)Tel gradiente de la funcion objetivo,

∇ f (x∗)= (1,1)Tno puede ser expresado como una combinacion lineal de los gradientes ∇h1(x

∗) =(−2,0)T

y ∇h2(x∗) = (−4,0)T

. Ası pues, la condicion necesaria de 1er orden (104) no puede

satisfacerse, cualesquiera que sean λ ∗1 y λ ∗

2 .

La dificultad radica en que el subespacio de las variaciones posibles de primer orden: V (x∗) ={y ∈ R

2 : y1 = 0}

tiene dimension superior a la del conjunto de direcciones factibles verdaderas{y ∈ R

2 : y = 0n

}.

En muchas ocasiones es conveniente escribir las condiciones de optimalidad en terminos de la

funcion lagrangiana L : Rn+m → R, definida por

L(x,λ ) := f (x)+m

∑i=1

λihi(x). (111)

Entonces, si x∗ es un mınimo local del problema (P), las condiciones necesarias de optimalidad

(104) y (105) junto con la condicion de ‘factibilidad’ h(x∗) = 0m, se expresan compactamente

∇xL(x∗,λ ∗) = 0n, ∇λ L(x∗,λ ∗) = 0m, (112)

yT ∇2xxL(x∗,λ ∗)y ≥ 0, ∀y ∈V (x∗). (113)

49

Page 54: Apuntes (Curso-09-10)

Tal y como la experiencia en el caso irrestringido indica, una solucion del sistema (de n + m

ecuaciones, con n+m incognitas) (112) podrıa incluso corresponder a un maximo.

Consideremos el problema

(P) := mın1

2(x2

1 + x22 + x2

3) (114)

s.a. x1 + x2 + x3 = 3.

Las condiciones necesarias de optimalidad de primer orden (112) conducen al siguiente sistema

x∗1 +λ ∗ = 0,

x∗2 +λ ∗ = 0,

x∗3 +λ ∗ = 0,

x1 + x2 + x3 = 3.

Este es un sistema de cuatro ecuaciones con cuatro incognitas (n + m = 3 + 1 = 4), con una

unica solucion

x∗1 = x∗2 = x∗3 = 1, λ ∗ = −1.

El gradiente de h es (1,1,1)Ten cualquier punto factible, y todo punto factible sera regular.

Ası pues, x∗ = (1,1,1)Tes el unico candidato a optimo local. Ademas, puesto que ∇2

xxL(x∗,λ ∗)es la matriz identidad, la condicion necesaria de segundo orden es trivialmente satisfecha. Por lo

tanto, ciertamente, x∗ = (1,1,1)Tqueda acreditado como unico candidato a mınimo local.

Para tomar una decision definitiva acerca de si x∗ es ciertamente un mınimo local, necesi-

tamos de las condiciones suficientes de optimalidad, aunque en este caso concreto tambien se

puede apelar a un sencillo argumento ‘variacional’, por el que resulta inmediato comprobar que

x∗ = (1,1,1)T es un mınimo local de la funcion f sobre {x : h(x) = 0} (y por lo tanto es, tambien

mınimo global, por convexidad de f ).

Sea z = (z1,z2,z3)T

tal que h(x∗ + z) = 0 (es decir, z es un vector de variaciones que preserva

la factibilidad). Tiene, pues, que verificarse

(x∗1 + z1)+(x∗2 + z2)+(x∗3 + z3) = 3 ⇒ z1 + z2 + z3 = 0. (115)

Entonces:

f (x∗ + z) =1

2

[(x∗1 + z1)

2 +(x∗2 + z2)2 +(x∗3 + z3)

2]

= f (x∗)+(z1 + z2 + z3)︸ ︷︷ ︸0

+1

2

(z2

1 + z22 + z2

3

)︸ ︷︷ ︸

>0

> f (x∗).

Si en vez del problema inicial hubiesemos considerado el problema

mın −1

2

(x2

1 + x22 + x2

3

), (116)

s.a x1 + x2 + x3 = 3,

50

Page 55: Apuntes (Curso-09-10)

las condiciones (104) hubiesen proporcionado

x∗ = (1,1,1)T y λ ∗ = 1.

Sin embargo, la condicion necesaria de segundo orden (113) no es satisfecha, y como todo

punto factible es regular, no podra existir mınimo local del problema (116).

Antes de establecer las condiciones suficientes de optimalidad para el problema (P) del princi-

pio del capıtulo, estableceremos un lema previo:

Lema 31. Sean P y Q dos matrices simetricas n× n. Asumamos que Q es semidefinida positiva,

mientras que P es definida positiva sobre el espacio nulo de Q, esto es

xT Px > 0, ∀x 6= 0n tal que Qx = 0n.

Entonces, existe un escalar c tal que

P+ cQ es definida positiva ∀c ≥ c. (117)

Demostracion. Por ser Q semidefinida positiva, si existe c tal que P + cQ es definida positiva,

entonces se verifica ∀x 6= 0n y ∀c ≥ c :

0 < xT Px+ cxT Qx ≤ xT Px+ cxT Qx = xT (P+ cQ)x,

luego (117) se cumple.

Asumamos lo contrario, es decir que no existe c ∈ R tal que P + cQ es definida positiva. En

particular no existira k ∈N tal que P+kQ sea definida positiva. Entonces, para todo numero natural

k, existira un vector xk tal que ‖xk‖ = 1 y

xTk Pxk + kxT

k Qxk ≤ 0. (118)

Puesto que {xk} esta contenda en un compacto, existira una subsucesion {xkr} convergente a x∗

(‖x∗‖ = 1). Tomando lımites en (118) para k = kr y r → ∞:

xTkr

Pxkr≤−krx

Tkr

Qxkr≤ 0 ⇒ lım

r→∞xT

krPxkr

= xT Px ≤ 0. (119)

Ahora veamos que

lımr→∞

xTkr

Qxkr= 0.

Supongamos que no es ası, en cuyo caso existirıa un ε > 0 tal que para todo j ∈N existe un kr j> j

tal que

xTkr j

Qxkr j≥ ε,

por lo que

lımj→∞

{xT

kr jPxkr j

+ kr jxT

kr jQxkr j

}= +∞,

lo cual contradice (118). En definitivas cuentas hemos probado que

xT Qx = 0. (120)

Veamos ahora que Qx = 0n, con lo que habremos llegado a una contradiccion con la hipotesis

de partida.

51

Page 56: Apuntes (Curso-09-10)

Sean

0 = λ1 = λ2 = · · · = λi0−1 < λi0 ≤ ·· · ≤ λn

los valores propios de Q, y sean x1,x2, . . . ,xn vectores unitarios, mutuamente ortogonales, tales que

xi es un vector propio asociado a λi. Entonces ∀i

0 = xT Qx = xT

(n

∑i=i0

λixixTi

)x =

=n

∑i=i0

λi

(xT xi

)2 ⇒ x ⊥ xi, para i = i0, . . . , in.

Entonces

Qx =

(n

∑i=i0

λixixTi

)x =

n

∑i=i0

λixi

(xT xi

)= 0n.

A continuacion estableceremos las condiciones suficientes de optimalidad para el problema

(P). Proponemos una prueba basada en la nocion de lagrangiano aumentado, base conceptual de

muchos algoritmos importantes, y que se define del siguiente modo

Lc(x,λ ) := f (x)+λ T h(x)+c

2‖h(x)‖2 ,

con c ∈ R.

Esta funcion coincide con el lagrangiano ordinario del problema

mın f (x)+c

2‖h(x)‖2

(121)

s.a. h(x) = 0m,

problema que tiene los mismos mınimos locales que nuestro problema original de minimizar f (x)sujeto a h(x) = 0m. El gradiente y el hessiano de Lc con respecto a x son:

∇xLc(x,λ ) = ∇ f (x)+∇h(x)(λ + ch(x)),

∇2xxLc(x,λ ) = ∇2 f (x)+

m

∑i=1

(λi + chi(x))∇2hi(x)+ c∇h(x)∇h(x)T .

Teorema 32. (Condicion suficiente de optimalidad) Asumamos que las funciones f y hi, i =1, . . . ,m, son de clase C 2 en un abierto W ⊂ R

n. Supongamos que x∗ ∈ W y λ ∗ ∈ Rm satisfa-

cen las siguientes condiciones:

∇xL(x∗,λ ∗) = 0n, ∇λ L(x∗,λ ∗) = 0m, (122)

yT ∇2xxL(x∗,λ ∗)y > 0, ∀y 6= 0n tal que ∇h(x∗)T y = 0m. (123)

Entonces, x∗ es un mınimo local estricto del problema (P). Existiran, ademas, escalares γ > 0 y

ε > 0 tales que

f (x) ≥ f (x∗)+γ

2‖x− x∗‖2 , ∀x tal que h(x) = 0m y ‖x− x∗‖ < ε. (124)

52

Page 57: Apuntes (Curso-09-10)

Demostracion. Si x∗ y λ ∗ satisfacen la condicion (122) se tendra, dadas las relaciones probadas

anteriormente:

∇xLc(x∗,λ ∗) = ∇ f (x∗)+∇h(x∗)(λ ∗ + ch(x∗))

= ∇xL(x∗,λ ∗) = 0n, (125)

∇2xxLc(x

∗,λ ∗) = ∇2xxL(x∗,λ ∗)+ c∇h(x∗)∇h(x∗)T . (126)

Por (123), tenemos que yT ∇2xxL(x∗,λ ∗)y > 0 para todo y tal que ∇h(x∗)T y = 0 (lo que es equiva-

lente a que y pertenezca al espacio nulo de ∇h(x∗)∇h(x∗)T ). Aplicando el ultimo lema, existira un

c tal que, por (126),

∇2xxLc(x

∗,λ ∗) es definida positiva ∀c > c. (127)

Aplicando las condiciones suficientes de optimalidad para el problema irrestringido, concluimos a

partir de (125) y (127) que, para c > c, x∗ es un mınimo local irrestringido de la funcion Lc(·,λ ∗)y que, ademas, existen γ > 0 y ε > 0 tales que

Lc(x,λ∗) ≥ Lc(x

∗,λ ∗)+γ

2‖x− x∗‖2 , ∀x tal que ‖x− x∗‖ < ε.

Puesto que ∀x con h(x) = 0, tenemos Lc(x,λ∗) = f (x), se sigue que

f (x) ≥ f (x∗)+γ

2‖x− x∗‖2 , ∀x tal que h(x) = 0m y ‖x− x∗‖ < ε.

Ası pues, x∗ es un mınimo local (estricto) de f sobre h(x) = 0m, que verifica adicionalmente la

desigualdad (124).

Para ilustrar el ultimo teorema, consideremos el siguiente problema de optimizacion con dos

variables:

(P) := mın f (x) =1

2(x2

1 − x22)− x2, (128)

s.a. x2 = 0.

Se comprueba, con facilidad, que x∗ = (0,0)Ty λ ∗ = 1 es el unico par (x,λ ) que satisface las

condiciones (122) y (123). Obviamente x∗ = (0,0)Tes el unico mınimo global del problema (P)

(que es equivalente a minimizar 12x2

1 en R, y tomar x∗2 = 0).

El lagrangiano aumentado es:

Lc(x,λ∗) =

1

2(x2

1 − x22)− x2 +λ ∗x2 +

c

2x2

2 =

=1

2x2

1 +1

2(c−1)x2

2

y x∗ es el unico mınimo irrestringido de Lc(x,λ∗), si c > c = 1.

13.2. Restricciones en forma de desigualdad

Consideremos el problema de Programacion No-Lineal (abreviadamente, PNL) dado por:

(P) Min f (x)s.a. gi(x) ≤ 0, i = 1,2, ...,m,

(1.1)

53

Page 58: Apuntes (Curso-09-10)

donde x ∈ Rn es el vector de variables, f : R

n → R es la funcion objetivo de (P), y gi : Rn → R,

con i = 1,2, ...,m, son las funciones que determinan las restricciones de (P) . A medida que se

vayan requiriendo, iremos incorporando ciertas hipotesis de continuidad y diferenciabilidad a estas

funciones. El conjunto factible de (P) sera

F := {x ∈ Rn | gi(x) ≤ 0, i = 1,2, ...,m}.

A lo largo de esta seccion se presentan diferentes condiciones necesarias y condiciones sufi-

cientes para que un punto x∗ ∈ F sea optimo local de (P)13. De nuevo, x∗ ∈ F es optimo local de

(P) si existe un entorno U ⊂ Rn de x∗ tal que f (x∗)≤ f (x) para todo x ∈ F ∩U ; asimismo, se dice

que x∗ ∈ F es un optimo global de (P) si f (x∗) ≤ f (x) para todo x ∈ F .

La condiciones de optimalidad, ademas de proporcionar tecnicas analıticas de resolucion de

problemas de PNL, constituyen una herramienta clave en la descripcion de los metodos numericos

de aproximacion de las soluciones optimas de dichos problemas. De hecho, la verificacion de

ciertas condiciones de optimalidad suele utilizarse como criterio de parada en dichos metodos.

A este respecto, las condiciones de Karush-Kuhn-Tucker (que abreviamos por KKT) juegan un

papel destacado en optimizacion. Estas condiciones, bajo ciertas hipotesis adicionales sobre las

restricciones de (P) (referidas en la literatura como cualificaciones de restricciones), se convierten

en condiciones necesarias de optimalidad (local), proporcionando ası un metodo con el que obtener

todos los ‘candidatos’ a optimos locales de (P) .Con el proposito de establecer condiciones de optimalidad en la linea de la condiciones de

Lagrange, habremos de distinguir entre dos clases de restricciones que vienen asociadas a cada

x∗ ∈ F: el conjunto de restricciones activas en x∗, aquellas que se satisfacen con igualdad en x∗, y

el formado por las restantes (restricciones inactivas). Denotaremos por I (x∗) al conjunto de ındices

asociados a las primeras; esto es,

I (x∗) := {i ∈ {1,2, ...,m} | gi (x∗) = 0} .

Veamos que, bajo ciertas hipotesis de continuidad, en la busqueda de optimos locales de (P) po-

demos prescindir de las restricciones inactivas. En terminos formales, si x∗ ∈ F es un optimo local

de (P) , y las gi, con i /∈ I (x∗) , son continuas en x∗, entonces el mismo punto es optimo local del

problema

(PI(x∗)) Min f (x)s.a gi(x) ≤ 0, i ∈ I (x∗) .

En efecto, sea U ⊂Rn un entorno de x∗ tal que f (x∗)≤ f (x) , para todo x ∈ F ∩U, y sea V ⊂R

n un

entorno de x∗ de forma que gi(x) < 0,para todo x ∈V, con i /∈ I (x∗) (la existencia de V se deduce

de la continuidad de estas funciones). Entonces, denotando por F al conjunto factible de (PI(x∗)),

se tiene que f (x∗) ≤ f (x) , para todo x ∈ F ∩V ∩U, puesto que F ∩V ⊂ F.Ademas, obviamente, x∗ tambien es optimo local del problema que resulta de reemplazar en

(PI(x∗)) las desigualdades por igualdades, pues F contedrıa al nuevo conjunto factible.

En un primer acercamiento a la mencionadas condiciones de KKT, observese que si x∗ ∈ F es

un optimo local de (P) , f es diferenciable en x∗, las gi, con i∈ I (x∗) , son de clase C 1 en un entorno

13Con el fin de simplificar la notacion, supondremos que las funciones que describen el modelo (P) estan definidas

en Rn. No obstante, todos los resultados incluidos en este tema que hacen referencia a optimos locales de (P) serıan

igualmente validos en el caso en que dichas funciones estuvieran definidas en un abierto W ⊂ Rn, en cuyo caso, el

conjunto factible vendrıa dado por F := {x ∈W | gi(x) ≤ 0, i = 1,2, ...,m} , y las definiciones de optimo local y global

son identicas a las expresadas en esta seccion.

54

Page 59: Apuntes (Curso-09-10)

de x∗, las gi, con i /∈ I (x∗) , son continuas en x∗ y el sistema de vectores {∇gi (x∗) : i ∈ I (x∗)} es

linealmente independiente, entonces, atendiendo a los comentarios anteriores y en virtud de las

condiciones de Lagrange (104), deducimos la existencia de ciertos escalares λ ∗i , i ∈ I (x∗) , tales

que

∇ f (x∗)+ ∑i∈I(x∗)

λ ∗i ∇gi (x

∗) = 0n. (1.4)

(En el caso I (x∗) = /0, quedarıa ∇ f (x∗) = 0n). Esta condicion, sin embargo, se puede refinar, con-

cluyendo ademas que pueden tomarse λ ∗i ≥ 0, i∈ I (x∗) , lo que dara paso a las condiciones de KKT.

Observamos ademas que la hipotesis de independencia lineal del sistema {∇gi (x∗) : i ∈ I (x∗)}

constituira una de las cualificaciones de restricciones a las que nos referıamos mas arriba.

El caso de problemas de PNL con restricciones de desigualdad fue ya considerado por Fourier

en 1798, tambien en el contexto de la Mecanica Analıtica, aportando algunas ideas fundamentales

acerca de las condiciones necesarias de optimalidad para cierto problema de equilibrio mecanico

que expreso en el formato (1.1). Estas condiciones, para dicho problema especıfico, fueron demos-

tradas por Farkas en 1898 y expresadas en la misma forma (1.4), con λ ∗i ≥ 0, i ∈ I (x∗) (vease

Prekopa (1980) para mayor detalle sobre los comienzos de la teorıa de la optimizacion). El si-

guiente resultado14, actualmente de referencia obligada en el campo de la Programacion Lineal y

No-Lineal, proporciona la clave para establecer la no negatividad de λi, i ∈ I (x∗) .

Teorema 33 (Lema de Farkas, 1901). Sea σ :={

aTi x ≤ 0, i = 1,2, ..., p

}un sistema de desigual-

dades lineales en la variable x ∈ Rn, donde ai ∈ R

n, i = 1,2, ..., p. La desigualdad aT x ≤ 0 es una

consecuencia de σ (esto es, aT z ≤ 0 para todo z ∈ Rn tal que aT

i z ≤ 0, i = 1,2, ..., p) si y solo si

existen ciertos λi ≥ 0, i = 1,2, ..., p, tales que

a =p

∑i=1

λiai.

El tratamiento sistematico de los problemas de PNL con restricciones de desigualdad fue inicia-

do por Karush (1939), y Kuhn y Tucker (1951). Estos autores obtuvieron, de forma independiente,

las condiciones necesarias de optimalidad comentadas en parrafos anteriores bajo determinadas

hipotesis de cualificaciones de restricciones. Desde la publicacion de Kuhn y Tucker (1951) dife-

rentes autores han dedicado un notable esfuerzo a la obtencion de tales condiciones bajo diferentes

hipotesis de cualificacion de restricciones como, por ejemplo, Cottle (1963), Abadie (1967), Man-

gasarian and Fromovitz (1967) y Guignard (1969). El material presentado aquı esta inspirado en

los textos de Bazaraa et al. (1993), Bertsekas (1995), Fletcher (1987), y Luenberger (1989), ası co-

mo en el trabajo de Peterson (1973). Particularmente este ultimo trabajo recoge una amplia gama

de cualificaciones de restricciones (introduce diecisiete de estas hipotesis) y analiza las conexio-

nes existentes entre ellas, dando lugar a diferentes cadenas de implicaciones que desembocan en

la hipotesis de cualificacion de restricciones mas debil, debida a Monique Guignard. La seleccion

de contenidos que hemos hecho en este tema obedece, por un lado, a cuestiones de simplicidad

y utilidad practica, presentando una cadena principal de implicaciones con ciertas ramificaciones,

conectando ası determinadas cualificaciones de restricciones que suelen ser facilmente verificables

en la practica (como son las de Slater, Mangasarian, Mangasarian-Fromovitz y la que suele refe-

rirse como hıpotesis de independencia lineal). Por otro lado, hemos incorporado, por ejemplo, la

cualificacion de restricciones de Kuhn y Tucker (1951), tanto por motivos historicos, como por el

14Aunque la prueba de este resultado se encuentra en un trabajo de este autor publicado en hungaro en 1898, la

referencia mas extendida es Farkas (1901).

55

Page 60: Apuntes (Curso-09-10)

valor teorico e interpretativo que anade al estudio de las restantes hipotesis de cualificaciones de

restricciones.

Finalmente hemos incorporado, en diferentes apendices, algunos complementos del tema (co-

mo son las condiciones de Fritz-John, en el Apendice A), detalles tecnicos de algunas pruebas y

ejercicios (en Apendice C), ası como la prueba completa del Teorema 58 (iii) (en el Apendice B).

Particularmente, esta prueba, de marcado caracter tecnico, ha sido incluida en un apendice en un

intento de dar mayor fluidez al desarrollo del tema; no obstante, se incluyen algunas ideas sobre la

prueba tras el correspondiente enunciado.

En el Apendice D se presentan una condicion necesaria de optimalidad y otra condicion sufi-

ciente, ambas de segundo orden. La condicion suficiente dara pie, bajo hipotesis adecuadas, a una

interpretacion de los multiplicadores de KKT que nos permitira realizar determinado analisis de

sensibilidad del modelo.

A continuacion presentamos aquellas herramientas del Analisis Convexo que son de especial

utilidad en las restantes secciones. Las incluimos aquı con el fin de hacer el tema autocontenido.

Definicion 34. Un subconjunto no vacıo de Rn, X , es un cono si para cualesquiera x ∈ X y λ ≥ 0

se tiene que λx ∈ X .

Observese que un cono no es necesariamente un conjunto convexo, ni tampoco tiene porque ser

un conjunto cerrado. Por ejemplo, el conjunto X =⋃

r∈N

{(x1,x2)

T ∈ R2 | x2 = rx1

}es un cono

y, sin embargo, no es un conjunto convexo, ni cerrado. Los conos convexos y cerrados juegan un

papel importante en el contexto de la optimizacion. Se comprueba facilmente que el conjunto de

soluciones de un sistema homogeneo de desigualdades lineales, pongamos X = {x ∈ Rn | aT

i x ≤ 0,para todo i ∈ I} siendo I un conjunto de ındices arbitrario (X = R

n, si I = /0), es siempre un cono

convexo y cerrado (de hecho, es interseccion de semiespacios cerrados).

Definicion 35. Sea Y ⊂ Rn. Llamaremos cono polar (negativo) de Y al conjunto dado por

Y ◦ ={

z ∈ Rn | yT z ≤ 0, para todo y ∈ Y

}.

Los comentarios anteriores permiten afirmar que Y ◦ es siempre un cono convexo y cerrado.

Definicion 36. Dado Y ⊂ Rn, denotaremos por cone(Y ) al cono convexo generado por Y, que

viene dado por

cone(Y ) =

{p

∑i=1

λiyi

∣∣∣∣∣ λi ≥ 0, yi ∈ Y, i = 1,2, ..., p, p ∈ N

}

(entendiendo que cone( /0) = {0n}).

Seguidamente presentamos una version generalizada del Lema de Farkas para sistemas ho-

mogeneos con una coleccion arbitraria (posiblemente infinita) de desigualdades lineales.

Teorema 37 (Lema de Farkas generalizado). Sea σ :={

aTi x ≤ 0, i ∈ I

}un sistema de desigual-

dades lineales en la variable x ∈ Rn, donde I es un conjunto de ındices arbitrario. La desigualdad

aT x ≤ 0 es una consecuencia de σ (esto es, aT z ≤ 0 si z ∈ Rn verifica aT

i z ≤ 0 para todo i ∈ I) si,

y solo si,

a ∈ cl(cone{ai, i ∈ I}) .

56

Page 61: Apuntes (Curso-09-10)

La siguiente proposicion recoge algunas propiedades basicas acerca de conos polares que seran

utilizadas en el resto del tema.

Proposicion 38. Sean Y, Z ⊂ Rn. Se verifican los siguientes enunciados:

(i) Si Y ⊂ Z, entonces Z◦ ⊂Y ◦;

(ii) Y ◦ = (cone(Y ))◦ = (cl(cone (Y )))◦ ;

(iii) Y ◦◦(:= (Y ◦)◦) = cl(cone(Y )) (Lema de Farkas generalizado);

(iv) Y ◦◦ = Y si y solo si Y es un cono convexo y cerrado.

Las condiciones (i) y (ii) de la proposicion anterior se obtienen facilmente a partir de la defi-

nicion de cono polar (negativo), mientras que (iv) es un consecuencia de (iii). Hemos destacado

el hecho de que la condicion (iii) es una traduccion del Lema del Farkas. En efecto, a ∈ Y ◦◦, por

definicion, si aT z ≤ 0, para todo z ∈ Rn tal que yT z ≤ 0, para todo y ∈ Y ; esto es, si aT x ≤ 0 es

consecuencia del sistema{

yT x ≤ 0, y ∈Y}

. Ası pues, empleando la notacion de cono polar, el

Lema de Farkas generalizado podrıa enunciarse como: a ∈Y ◦◦ si y solo si a ∈ cl(cone(Y )).

Observacion 39. Por su parte, el enunciado del Lema de Farkas para sistemas homogeneos finitos

(vease §1) se traducirıa en los terminos:

‘Si Y es finito, entonces Y◦◦=cone(Y ) ’,

lo que se deduce del hecho de que todo cono finitamente generado es cerrado.

Dado el problema

(P) Min f (x)s.a. gi(x) ≤ 0, i = 1,2, ...,m,

la siguiente proposicion expresa una primera condicion necesaria de optimalidad local en terminos

del llamado cono de las tangentes a F en x∗, Tx∗, que viene dado por:

Tx∗ :={

d ∈ Rn | d = lım

r→∞λr (x

r − x∗) ; λr > 0, xr ∈ F para todo r, y lımr→∞

xr = x∗}

.

Proposicion 40. Si x∗ ∈ F es un optimo local de (P) , y f es diferenciable en x∗, entonces

−∇ f (x∗) ∈ T ◦x∗.

Demostracion. Veamos que ∇ f (x∗)Td ≥ 0 para todo d ∈Tx∗. Pongamos d = lımr→∞ λr (x

r − x∗)con λr > 0, xr ∈ F para todo r, y lımr→∞ xr = x∗. Supongamos que d 6= 0 (en otro caso la desigual-

dad buscada es trivial), lo que permite suponer sin perdida de generalidad que xr−x∗ 6= 0 para todo

r. Por la diferenciabilidad de f , podemos escribir

f (xr) = f (x∗)+∇ f (x∗)T (xr − x∗)+o(‖xr − x∗‖). (3.1)

Puesto que f (xr)≥ f (x∗) para r suficientemente grande, pongamos r ≥ r0, (por ser x∗ optimo local

de (P)), de (3.1) se deduce que ∇ f (x∗)T (xr − x∗)+o(‖xr − x∗‖) ≥ 0, para r ≥ r0. Entonces,

∇ f (x∗)Td = lım

r→∞

{λr∇ f (x∗)T (xr − x∗)+λr ‖xr − x∗‖ o(‖xr − x∗‖)

‖xr − x∗‖

}≥ 0,

puesto que lımr→∞ λr ‖xr − x∗‖ = ‖d‖ .La condicion que se establece en esta proposicion, si bien en primera instancia no conduce a

un metodo practico de resolucion de problemas, sera de gran utilidad teorica en el resto de esta

seccion.

57

Page 62: Apuntes (Curso-09-10)

Definicion 41. Se dice que x∗ ∈ F es un punto de KKT de (P) si existen escalares λi ≥ 0, i ∈ I (x∗),tales que

−∇ f (x∗) = ∑i∈I(x∗)

λi∇gi (x∗) .

(En otros terminos, −∇ f (x∗) ∈ cone{∇gi (x∗) ; i ∈ I (x∗)}).

En ocasiones nos referiremos a las condiciones

−∇ f (x∗) = ∑i∈I(x∗)

λi∇gi (x∗) , λi ≥ 0, i ∈ I (x∗) , x∗ ∈ F,

como condiciones de KKT15. El conjunto Gx∗ que introducimos a continuacion nos permitira co-

nectar la condicion necesaria de optimalidad presentada en la proposicion 40 con las condiciones

de KKT16:

Gx∗ :={

d ∈ Rn | ∇gi (x

∗)Td ≤ 0, i ∈ I (x∗)

}.

Observacion 42. Sea x∗ ∈ F. Se tiene que x∗ es punto de KKT de (P) si, y solo si,

−∇ f (x∗) ∈ G◦x∗.

En efecto, basta observar que

cone{∇gi (x∗) , i ∈ I (x∗)} = {∇gi (x

∗) , i ∈ I (x∗)}◦◦ = G◦x∗ ,

donde hemos utilizado la traduccion del Lema de Farkas dada en la observacion 39.

El siguiente ejemplo ilustra la condicion necesaria de optimalidad establecida en la Proposicion

40, al tiempo que muestra una situacion en la que fallan las condiciones de KKT.

Ejemplo 43 (Kuhn y Tucker, 1951). . Consideremos el problema de PNL, en R2, dado por:

(P) Min x1

s.a. x2 − x31 ≤ 0,

−x2 ≤ 0.

Para x∗ = (0,0)T

se comprueba facilmente que Tx∗ = cone{(1,0)

T}

, mientras que Gx∗ coincide

con el subespacio vectorial generado por{(1,0)

T}

. Ası, −∇ f (x∗) = (−1,0)T ∈ T ◦x∗, mientras que

−∇ f (x∗) /∈ G◦x∗ , y por tanto no es un punto de KKT. Por otro lado, puede comprobarse facilmente

que x∗ es optimo local (de hecho global, pues todo punto factible verifica x31 ≥ x2 ≥ 0, y entonces

x1 ≥ 0). La Figura 15 ilustra graficamente, entre otros, los conjuntos F, T ◦x∗ y G◦

x∗ .

15Las condiciones de KKT pueden, alternativamente, expresarse de la siguiente forma: −∇ f (x) = ∑mi=1 λi∇gi (x) ,

λigi (x) = 0,λi ≥ 0, i = 1,2, ...,m, x ∈ F ; en cuyo caso las condiciones λigi (x) = 0, i = 1,2, ...,m, son referidas como

condiciones de complementariedad.

16Con el fin de dar mayor fluidez a la exposicion, supondremos implıcitamente que, cuando aparezcan gradientes

en el texto, estos existen. No obstante, en los enunciados formales (como teoremas, proposiciones, etc.) se explicitaran

las hipotesis de diferenciabilidad bajo las que estamos trabajando.

58

Page 63: Apuntes (Curso-09-10)

F

x*

- ∇ ( )

x*

∇ 1

( )

x*

∇ g

2 ( )

x*

x*

G

x*

T x*

G o

x*

o

x*

f

g

T

Figura 15: Elementos asociados al problema del ejemplo 3.4

Atendiendo a la observacion anterior, es obvio que la hipotesis T ◦x∗ = G◦

x∗ hace que las condicio-

nes de KKT sean necesarias para que x∗ sea optimo local. Por otro lado, la igualdad T ◦x∗ = G◦

x∗ puede

expresarse equivalentemente por cl(cone(Tx∗)) = Gx∗ . En efecto, si T ◦x∗ = G◦

x∗ , entonces aplican-

do la proposicion 38 (iii) y (iv) se tiene que cl(cone (Tx∗)) = T ◦◦x∗ = G◦◦

x∗ = Gx∗ . Recıprocamente,

si cl(cone (Tx∗)) = Gx∗ , entonces T ◦x∗ = (cl(cone(Tx∗)))

◦ = G◦x∗ , donde ahora hemos aplicado la

condicion (ii) de la misma proposicion. Hemos probado ası el siguiente teorema.

Teorema 44 (Condiciones de Karush-Kuhn-Tucker). Sea x∗ ∈ F es un optimo local de (P) . Su-

pongamos que las funciones f y gi, con i ∈ I (x∗) , son diferenciables en x∗, y que se verifica la

igualdad cl(cone(Tx∗)) = Gx∗ . Entonces x∗ es un punto de KKT.

De este modo la condicion ‘cl (cone(Tx∗)) = Gx∗’ constituye una hipotesis de cualificacion

de restricciones, que encontramos en la literatura como cualificacion de restricciones de Guig-

nard (que abreviaremos por GCQ, del ingles Guignard’s constraint qualification). Esta hipotesis

de cualificacion de restricciones es la mas debil de todas las posibles, en el sentido de que si no

se cumple, puede encontrarse una funcion objetivo para la que x∗ es optimo local del problema

correspondiente, y no es punto de KKT.

Seguidamente analizaremos diferentes cualificaciones de restricciones, con el fin de proporcio-

nar nuevas condiciones mas operativas desde un punto de vista practico. Para ello, consideremos

los siguientes conjuntos asociados a x∗ ∈ F:

Gx∗ : ={

d ∈ Rn | ∇gi (x

∗)Td < 0, i ∈ I (x∗)

};

Dx∗ : =

{d ∈ R

n

∣∣∣∣∃ε > 0, ∃α : [0,ε]→F derivable en [0,ε[, con

α (0) = x∗, y α ′ (0) = d

}.

Asimismo consideraremos el conjunto dado por:

Ax∗ :=

{d ∈ R

n

∣∣∣∣∃ε > 0, ∃α : [0,ε]→F derivable en 0, con

α (0) = x∗, y α ′ (0) = d

}.

En ocasiones Ax∗ es referido como el conjunto de las direcciones admisibles en x∗.

59

Page 64: Apuntes (Curso-09-10)

Observacion 45. Puede comprobarse facilmente que, asumiendo la diferenciabilidad de las fun-

ciones gi, i ∈ I (x∗) , en x∗, y la continuidad en el mismo punto x∗ de las funciones gi, i /∈ I (x∗) ,

se verifica el contenido Gx∗ ⊂ Dx∗ . Sin embargo, con el fin de facilitar el analisis de la relacion

existente entre diferentes cualificaciones de restricciones que vendran asociadas a estos conjuntos,

probaremos que cl(

Gx∗)⊂ Dx∗ . Observese que este ultimo enunciado no es consecuencia directa

de la inclusion Gx∗ ⊂ Dx∗ puesto que Dx∗ no es, en general, cerrado (vease Apendice C).

Teorema 46. Sea x∗ ∈ F y supongamos que las funciones gi, con i ∈ I (x∗) , son diferenciables en

x∗, y las funciones gi, con i /∈ I (x∗) , son continuas en x∗. Se verifican las siguientes relaciones:

(i) cl(

Gx∗)

= Gx∗ si y solo si Gx∗ 6= /0;

(ii) cl(

Gx∗)⊂ Dx∗ ⊂ Ax∗ ⊂ Tx∗ ⊂ cl(cone(Tx∗)) ⊂ Gx∗ .

Demostracion. (i). Puesto que Gx∗ es siempre no vacio (0n ∈ Gx∗), si cl(

Gx∗)

= Gx∗ , entonces

ha de ser Gx∗ 6= /0. Recıprocamente, supongamos que Gx∗ 6= /0 y sea d ∈ Gx∗ . Veamos que Gx∗ ⊂cl(

Gx∗)

(el otro contenido es inmediato, pues Gx∗ ⊂ Gx∗ y Gx∗ es cerrado). Para cualquier d ∈Gx∗ se tiene que dr :=

(1− 1

r

)d + 1

rd ∈ Gx∗ , para todo r = 1,2, ..., puesto que ∇gi (x

∗)Tdr =

(1− 1

r

)∇gi (x

∗)Td + 1

r∇gi (x

∗)Td < 0, para cada i ∈ I (x∗) . Ası pues, d = lımr→∞ dr ∈ cl

(Gx∗)

.

(ii). Es obvio que Dx∗ ⊂ Ax∗.

Ademas Ax∗ ⊂ Tx∗ , ya que si d ∈ Ax∗ podemos escribir d = lımt→0+α(t)−α(0)

tpara alguna fun-

cion α : [0,ε] → F (siendo ε > 0), y en particular d = lımr→∞rε (α (ε/r)−α (0)) ∈ Tx∗ .

Veamos ahora que cl(cone(Tx∗)) ⊂ Gx∗ . Puesto que Gx∗ es un cono convexo y cerrado, bas-

tara probar que Tx∗ ⊂ Gx∗. Sea d ∈ Tx∗ y pongamos d = lımr→∞ λr (xr − x∗) con λr > 0, xr ∈ F para

todo r, y lımr→∞ xr = x∗. Por la diferenciabilidad de gi, para i ∈ I (x∗), se tiene que

gi (xr) = gi (x

∗)+∇gi (x∗)T (xr − x∗)+o(‖xr − x∗‖), para r = 1,2, ... (129)

Dado que gi (xr) ≤ 0, para todo r ∈ N, multiplicando en (129) por λr y haciendo r → +∞ se tiene

que

∇gi (x∗)T

d = lımr→∞

{λr∇gi (x

∗)T (xr − x∗)+‖λr(xr − x∗)‖ o(‖xr − x∗‖)

‖xr − x∗‖

}≤ 0,

concluyendo que d ∈ Gx∗ .

A continuacion probaremos el contenido ‘cl(

Gx∗)⊂ Dx∗’. Sea d ∈ cl

(Gx∗)

, y sea d ∈ Gx∗ .

En primer lugar observese que el mismo argumento utilizado en la prueba de (i) muestra que

dλ := (1−λ )d + λ d ∈ Gx∗, para todo λ ∈ ]0,1] . Ademas, bajo las hipotesis actuales, para cada

λ ∈ ]0,1] existe cierto tλ > 0 tal que x∗+tdλ ∈ F para todo t ∈ [0, tλ ] . En efecto, fijemos λ ∈ ]0,1] .Para i ∈ I (x∗) , como consecuencia de la diferenciabilidad de gi en x∗ podemos escribir

gi

(x∗ + tdλ

)= gi (x

∗)+ t∇gi (x∗)T

dλ +o(t).

Puesto que ∇gi (x∗)T

dλ < 0, para t suficientemente pequeno (pongamos 0 < t ≤ tλ ,i, para cierto

tλ ,i > 0) tendremos que ∇gi (x∗)T

dλ + o(t)t

< 0. Entonces, para t ∈[0, tλ ,i

], se cumplira gi

(x∗ + tdλ

)≤

0. Por otro lado, si i /∈ I (x∗) (esto es, gi (x∗) < 0), como consecuencia de la continuidad de gi en x∗

tambien deducimos la existencia de cierto tλ ,i > 0 tal que gi

(x∗ + tdλ

)≤ 0, para todo t ∈

[0, tλ ,i

].

60

Page 65: Apuntes (Curso-09-10)

Basta tomar entonces tλ := mın{

tλ ,i, i = 1,2, ...,m}

para asegurar que x∗ + tdλ ∈ F para todo

t ∈ [0, tλ ] .Definamos para cada λ ∈ ]0,1]

tλ := sup{

t > 0 | x∗ + tdλ ∈ F, para todo t ∈ [0, t] y todo i = 1,2, ...,m}

,

(en el parrafo anterior se prueba que este conjunto es no vacıo). Asimismo, para cada λ ∈ ]0,1]consideremos

Tλ := ınf{

tµ | µ ≥ λ}

.

A continuacion veremos que Tλ > 0 para todo λ ∈ ]0,1] . Razonando por reduccion al absurdo

supongamos que Tλ0= 0, para cierto λ0 ∈ ]0,1] . Entonces, existe una sucesion

{tµr

}⊂ ]0,+∞[,

asociada a la sucesion {µr} ⊂ [λ0,1] , tal que lımr→∞ tµr= 0. Ademas {µr} tendra un subsucesion,

que denotaremos de la misma forma, convergente a cierto µ0 ≥ λ0, y como consecuencia la su-

cesion {dµr} convergera hacia dµ0. Por otro lado, por la definicion de tµr, para cada r, existiran

ir ∈ {1,2, ...,m} y tµr∈]0, tµr

+ 1r

[tales que gir

(x∗ + tµr

dµr)> 0. Puesto que, ir ∈ {1,2, ...,m} pa-

ra todo r, podemos suponer sin perdida de generalidad que {ir} es constante (en otro caso, tendrıa

una subsucesion constante y trabajarıamos con dicha subsucesion). Poniendo entonces ir = i0 para

todo r, deducimos gi0 (x∗) ≥ 0 como consecuencia de la continuidad en x∗ de gi0 (observese que

lımr→∞(x∗ + tµrdµr) = x∗). La unica posibilidad entonces es que i0 ∈ I (x∗) . Pero, aplicando ahora

la diferenciabilidad de gi0 en x∗, tendremos, para todo r = 1,2, ...,

0 < gi0

(x∗ + tµr

dµr)

= gi0 (x∗)+ tµr∇gi (x

∗)Tdµr +o

(tµr

).

Si ahora, para cada r, dividimos por tµr, y hacemos r → +∞, obtenemos ∇gi (x

∗)Tdµ0 ≥ 0. Esta

desigualdad contradice el hecho de que dµ0 ∈ Gx∗.Ası pues, Tλ > 0 para todo λ ∈ ]0,1] . Ademas, es una consecuencia directa de la definicion

que Tλ es creciente en λ . Seguidamente distinguiremos dos casos.

Caso1. lımλ→0+ Tλ = T > 0. En este caso, podemos definir la curva α : [0,ε] → Rn, siendo

ε := mın{

T2,1}

dada por

α (0) := x∗, α (λ ) = x∗ +λdλ = x∗ +λ((1−λ )d +λ d

), para λ ∈ ]0,ε] .

Ası, αT (0) = d, α es diferenciable en [0,ε] , y ademas α (λ ) ∈ F para todo λ ∈ [0,ε] (puesto que

λ < T ≤ Tλ ≤ tλ ).Caso2. lımλ→0+ Tλ = 0. Sea {λr} ⊂ ]0,1] estrictamente decreciente y convergente a cero.

Puesto que la sucesion asociada{

Tλr

}tambien converge a cero, podemos suponer sin perdida

de generalidad (tomando una subsucesion adecuada si es necesario) que Tλr+1<

Tλr

2, para todo r.

Definiremos en este caso una curva diferenciable en[0,

Tλ1

2

]de la siguiente manera:

α (t) :=

x∗ + tdλr , si t ∈[Tλr+1

,Tλr

2

], r = 1,2, ...,

x∗ + t((1−ϕr (t))dλr+1 +ϕr (t)dλr

), si t ∈

]Tλr+1

2,Tλr+1

[, r = 1,2, ...,

siendo α (0) := x∗, y donde para cada r, ϕr :[

Tλr+1

2,Tλr+1

]→ [0,1] esta dada por

ϕr (t) :=

(t − Tλr+1

2

)2

(t − Tλr+1

2

)2

+(t −Tλr+1

)2.

61

Page 66: Apuntes (Curso-09-10)

Puede comprobarse que (los calculos correspondientes se encuentran en el Apendice C):

i) α (t) ∈ F para todo t ∈[0,

Tλ12

];

ii) α es diferenciable (sera de hecho de clase C 1) en el intervalo[0,

Tλ1

2

];

iii) αT (0) = d.La relacion de contenidos entre los conjuntos considerados en esta seccion conduce a las si-

guientes hipotesis de cualificacion de restricciones relativas a x∗, y redunda en la relacion de im-

plicaciones que se expresa a continuacion (recuerdese que estamos suponiendo que las gi, con

i ∈ I (x∗) , son diferenciables en x∗, y las gi, con i /∈ I (x∗) continuas en x∗):

Cualificacion de

restricciones de :Abreviada por: Hipotesis:

Mangasarian-Fromovitz

(o tambien de Cottle)MFCQ

‘cl(

Gx∗)

= Gx∗’

(⇔ Gx∗ 6= /0)Kuhn-Tucker KTCQ ‘Dx∗ = Gx∗’

Arrow-Hurwicz-Uzawa AHUCQ ‘Ax∗ = Gx∗’

Abadie ACQ ‘Tx∗ = Gx∗’

Guignard GCQ ‘cl (cone(Tx∗)) = Gx∗’

MFCQ ⇒ KTCQ ⇒ AHUCQ ⇒ ACQ ⇒ GCQ

Seguidamente introduciremos nuevas hipotesis de cualificacion de restricciones, que consti-

tuiran condiciones suficientes para alguna de la mencionadas anteriormente, y que en determinados

casos practicos pueden resultar mas operativas. Una de ellas se basara en el siguiente teorema de

alternativa. Observese ademas que el enunciado de este teorema presenta una caracterizacion de la

condicion Gx∗ 6= /0 (MFCQ).

Teorema 47 (de alternativa de Gordan). El sistema de desigualdades estrictas, en Rn, {aT

i x <0; i = 1,2, ..., p} no tiene solucion si y solo si existen escalares λ1, ...,λp ≥ 0, con algun λi > 0

tales quep

∑i=1

λiai = 0n.

Demostracion. Supongamos que el sistema{

aTi x < 0; i = 1,2, ..., p

}no tiene solucion. En-

tonces si para algun(

xxn+1

)∈ R

n+1 se tiene que aTi x + xn+1 ≤ 0, i = 1,2, ..., p, debe ser xn+1 ≤ 0.

Ası, en virtud del Lema de Farkas se deduce la existencia de ciertos λ1, ...,λp ≥ 0 tales que

(0n

1

)=

p

∑i=1

λi

(ai

1

).

Observando entoces las n primeras coordenadas de esta igualdad vectorial tenemos ∑pi=1 λiai = 0n,

y la ultima expresa que ∑pi=1 λi = 1. Hemos probado ası la condicion ‘si’ del presente teorema.

Supongamos ahora que existen escalares λ1, ...,λp ≥ 0, no todos nulos, tales que ∑pi=1 λiai = 0n.

Si existiera algun x0 ∈ Rn verificando aT x0 < 0, i = 1, ..., p, alcanzarıamos la contradiccion 0 =

∑pi=1 λia

T x0 < 0.

62

Page 67: Apuntes (Curso-09-10)

Proposicion 48. Sea x∗ ∈ F, y supongamos que gi, i ∈ I (x∗) , son diferenciables en x∗. Se verifican

las siguientes afirmaciones:

(i) Si los vectores {∇gi (x∗) , i ∈ I (x∗)} son linealmente independientes, entonces Gx∗ 6= /0;

(ii) Si las funciones gi, i ∈ I (x∗) , son convexas y existe x ∈ Rn tal que gi (x) < 0, i ∈ I (x∗) ,

entonces Gx∗ 6= /0;

(iii) Si las funciones gi, i ∈ I (x∗) , son concavas, y gi, con i /∈ I (x∗) continuas en x∗ entonces

Dx∗ = Gx∗ .

Demostracion. La condicion (i) es consecuencia directa del Teorema de Gordan. Probemos (ii).

Sea x ∈ Rn tal que gi (x) < 0, i ∈ I (x∗) . Puesto que las funciones gi, i ∈ I (x∗) , son convexas en R

n

y diferenciables en x∗ se tiene que

gi (x∗)+∇gi (x

∗)T (x− x∗) ≤ gi (x) , para todo x ∈ Rn.

En particular ∇gi (x∗)T (x− x∗) = gi (x

∗)+∇gi (x∗)T (x− x∗)≤ gi (x) < 0, para todo i ∈ I (x∗) ; esto

es, x− x∗ ∈ Gx∗ .(iii). Supongamos que las funciones gi, i ∈ I (x∗) , son concavas (en R

n) y veamos que Gx∗ ⊂Dx∗ (el otro contenido ya fue establecido exigiendo unicamente la diferenciabilidad de las gi, con

i ∈ I (x∗)). Sea d ∈ Gx∗, esto es ∇gi (x∗)T

d ≤ 0, para todo i ∈ I (x∗) . La concavidad de las gi,i ∈ I (x∗) , junto con la diferenciabilidad de las mismas en x∗ implica que

gi (x) ≤ gi (x∗)+∇gi (x

∗)T (x− x∗) , para todo x ∈ Rn.

Particularizando en los puntos de la forma x∗ + td, con t > 0, obtenemos:

gi (x∗ + td) ≤ gi (x

∗)+ t∇gi (x∗)T

d ≤ 0.

Por otro lado, puesto que las gi, con i /∈ I (x∗) , son continuas en x∗ (y gi (x∗) < 0 para todo i /∈

I (x∗)), existe un t > 0, tal que gi (x∗ + td) < 0, para todo t ∈ [0, t] . Concluimos entonces que la

funcion α : [0, t] → Rn dada por α (t) = x∗ + td, verifica: α (t) ∈ F para todo t ∈ [0, t] , α (0) = x∗,

y obviamente αT (0) = d. Ası pues, d ∈ Dx∗ .La proposicion anterior proporciona en (i), (ii) y (iii) tres nuevas cualificaciones de restriccio-

nes, que expresamos a continuacion, ası como sus conexiones con las introducidas previamente.

- Cualificacion de restricciones de independencia lineal (LICQ): El sistema de vectores {∇gi(x∗), i∈

I(x∗)} es linealmente independiente.

- Cualificacion de restricciones de Slater (SCQ): gi, i ∈ I (x∗) , son convexas y existe x ∈Rn tal

que gi (x) < 0, i ∈ I (x∗) .- Cualificacion de restricciones de Mangasarian (MCQ): gi, i ∈ I (x∗) , son concavas.

Siendo x∗ ∈ F, gi, con i ∈ I (x∗) , diferenciables en x∗, y gi, con i /∈ I (x∗) , continuas en x∗,podemos presentar el siguiente esquema:

LICQ ⇒ MFCQ ⇒ KTCQ ⇒ AHUCQ ⇒ ACQ ⇒ GCQ

⇑ ⇑SCQ MCQ

Corolario 49. Sea x∗ ∈ F un optimo local de (P) y supongamos que las funciones f y gi, con

i ∈ I (x∗) , son diferenciables en x∗, y que las gi,con i /∈ I (x∗) , son continuas en x∗. Si se cumple

alguna de las hipotesis indicadas en el esquema anterior, entonces x∗ es un punto de KKT.

63

Page 68: Apuntes (Curso-09-10)

Con el fin de ilustrar el teorema anterior, por un lado, y demostrar que no se verifica ninguno

de los recıprocos de las condiciones establecidas en el esquema previo, presentamos los siguientes

ejemplos.

Ejemplo 50. (MFCQ, ‘no LICQ, ni SCQ’). Consideremos el problema de PNL, en R2, dado por:

(P) Min x1

s.a. x2 − x31 ≤ 0,

−x1 ≤ 0,−x1 + x2 ≤ 0.

Para x∗ = (0,0)T , el conjunto de ındices activos viene dado por I (x∗) = {1,2,3} , y ∇g1 (x∗) =(0,1)T , ∇g2 (x∗) = (−1,0)T , ∇g3 (x∗) = (−1,1)T . Ası, {∇gi (x

∗) , i ∈ I (x∗)} forman un sistema

linealmente dependiente, no teniendose entonces la hipotesis LICQ. Tampoco se cumple SCQ,

pues g1 no es convexa en Rn. Sin embargo Gx∗ ={

d ∈ R2 | d2 < 0, −d1 < 0, −d1 +d2 < 0

}6= /0,

luego se cumple MFCQ.

La Figura 16 muestra graficamente el conjunto factible de (P) , y el conjunto Gx∗. Observese

que x∗ es un optimo local de (P), y tambien un punto de KKT.

x*

G �

x*

F

-∇ f ( ) x*

x*

∇ g 1 ( ) x*

∇g2 ( *) x

∇g3 ( ) x*

Figura 16: Elementos asociados al problema del ejemplo 3.11

Ejemplo 51. (KTCQ, ‘no MCQ, ni MFCQ’). Consideremos el problema de PNL, en R2, dado por:

(P) Min x1

s.a. x2 − x31 ≤ 0,

−x1 ≤ 0,−x2 ≤ 0.

Tomemos x∗ = (0,0)T

. Es inmediato que Gx∗ = /0, pues ∇g1 (x∗) = (0,1)T , y ∇g3 (x∗) = (0,−1)T ,y por tanto no se cumple MFCQ. Tampoco se verifica MCQ pues g1 no es concava. Por otro

lado, Gx∗ = cone{(1,0)T

}⊂ Dx∗ , pues x∗ + t (1,0)

T ∈ F para todo t ∈ [0,+∞[ y, por tanto, se

cumple KTCQ. x∗ = (0,0)T

es un optimo local de (P), y punto de KKT. Observese que este solo

se diferencia del Ejemplo 43 en que anade la restriccion −x1 ≤ 0, la cual, por otro lado, es una

restriccion redundante.

64

Page 69: Apuntes (Curso-09-10)

Ejemplo 52. (AHU, ‘no KTCQ’). Consideremos el problema de PNL, en R, dado por:

(P) Min x1

s.a. g1 (x1) ≤ 0,g2 (x1) ≤ 0,

−x1 ≤ 0.

siendo g1 (x1) = x21 sin

(πx1

), si x1 6= 0, g1 (x1) = 0, si x1 = 0, y siendo g2 (x1) = −g1 (x1) . Sea

x∗ = 0. Se tiene que Gx∗ = {d1 ∈ R |d1 ≥ 0} , puesto que g′1 (0) = g′2 (0) = 0.En este caso F =

{1k, k = 1,2, ...

}∪ {0} y obviamente no puede construirse ninguna curva

α : [0,ε] → F, diferenciable en [0,ε] y tal que α (0) = 0, y α ′ (0) = 1. De hecho si α : [0,ε] → F

es continua en [0,ε] , y α (0) = 0, entonces ha de ser α (t) = 0, para todo t ∈ [0,ε] (pues la imagen

de un conjunto conexo mediante una funcion continua es un conexo), pero entonces α ′ (0) = 0.Ası pues 1 ∈ Gx∗\Dx∗, y por tanto no se verifica KTCQ. Sin embargo, sı puede definirse una

funcion α : [0,ε] → F, derivable en 0 y con α ′ (0) = 1, verificando ademas que α (0) = 0. Por

ejemplo, sea α : [0,1]→ F, dada por α (t) = 1k, si t ∈

]1

k+1, 1

k

], k = 1,2, ..., α (0) := 0. Se tiene que

lımt→0+α(t)−α(0)

t= 1, como consecuencia de que 1 ≤ α(t)

t≤

1k1

k+1

= k+1k

, para todo t ∈]

1k+1

, 1k

].

Ası pues, α ′ (0) = 1, y por tanto se verifica AHUCQ.

Ejemplo 53. (ACQ, ‘no AHUCQ’) Consideremos el problema de PNL, en R, dado por:

(P) Min x1

s.a. g1 (x1) ≤ 0,g2 (x1) ≤ 0,

−x1 ≤ 0.

siendo g1 (x1) = x21 sin (π ln |x1|) , si x1 6= 0, g1 (x1) = 0, si x1 = 0, y siendo g2 (x1) = −g1 (x1) .

El conjunto factible de (P) es F ={

ek, k ∈ Z}∪{0}. Si se considera x∗ = 0, se tiene que T

x∗ ={x1 ∈ R |x1 ≥ 0} = Gx∗ , y por tanto se verifica ACQ. Sin embargo, en este caso no existe ninguna

funcion α : [0,ε] → F, con α (0) = 0 y α ′ (0) = 1. De hecho, la unica funcion α : [0,ε] → F

diferenciable en 0, con α (0) = 0, es la funcion identicamente nula (vease Apendice C).

Ejemplo 54. (GCQ, ‘no ACQ’) Consideremos el problema de PNL, en R2, dado por:

(P) Min x1

s.a. x1x2 ≤ 0,−x1x2 ≤ 0,−x1 ≤ 0,−x2 ≤ 0.

Es inmediato que F ={

x ∈ R2 | x1 ≥ 0, x2 = 0

}∪{

x ∈ R2 | x1 = 0, x2 ≥ 0

}. Ası, para x∗ =

02, se tiene que Tx∗ = cone

{(1,0)

T}∪cone

{(0,1)

T}

, mientras que Gx∗ = cone{(1,0)

T

,(0,1)T}

.

Por tanto, no se cumple ACQ, mientras que cl(cone

(T

x∗))

= Gx∗, y por tanto sı se verifica GCQ.

Observese que las hipotesis de cualificacion de restricciones solo involucran a las propias res-

tricciones, o directamente al conjunto factible, y al punto x∗ considerado. De este modo, en cuanto

65

Page 70: Apuntes (Curso-09-10)

se cumple alguna de ellas (como ocurrıa en los ejemplos anteriores), podremos completar el pro-

blema (P) con cualquier funcion objetivo y tener la seguridad de que si x∗ es optimo local, entonces

es punto de KKT.

Resolucion de un problema de PNL aplicando las condiciones de KKT. En los ejemplos

anteriores estudiabamos si se verificaba alguna cualificacion de restricciones, y si se cumplıan o

no las condiciones de KKT, en un punto dado x∗. Sin embargo, cuando nos enfrentamos a la re-

solucion de un problema, no tendremos, a priori, ningun punto destacado sobre el que analizar

estas propiedades, de modo que tendremos que buscar todos los ‘candidatos’ a optimos analizando

todas las posibles elecciones de ındices activos. De este modo, atendiendo a los resultados presen-

tados en esta seccion, consideraremos como candidatos a optimos aquellos puntos en los que se

verifican simultaneamente alguna cualificacion de restricciones y las condiciones de KKT, por un

lado, y aquellos en los que no se verifica ninguna cualificacion de restricciones. Ilustramos estos

comentarios con el siguiente ejemplo.

Ejemplo 55. Consideremos el problema de PNL, en R2, dado por:

(P) Min x2

s.a. − x21 − x2

2 +1 ≤ 0,

(x1 −1)2 + x22 −1 ≤ 0,

−2(x1 − 1

2

)3+ x2

2 − 34

≤ 0.

Analizando las diferentes elecciones de conjuntos de ındices activos, obtenemos las siguientes

situaciones (observese que, puesto que tenemos tres restricciones, tendremos que contemplar 23 =8 casos).

(1) I (x) = /0. Ningun punto verifica ∇ f (x) = 02.(2) I (x) = {1} . Puesto que g1 es concava, se verifica la cualificacion de restricciones de Manga-

sarian, por lo que los posibles candidatos a optimos en este caso seran los puntos de KKT. Ası pues,

planteamos el sistema(

0−1

)= λ1

(−2x1

−2x2

). La unica solucion con λ1 ≥ 0 es (x1,x2,λ1)

T =(0,1, 1

2

)T,

que no proporciona un punto factible. No tenemos ningun candidato.

(3) I (x) = {2} . En este caso se verifica la cualificacion de restricciones de Slater (g2 es con-

vexa, y por ejemplo g2 (1,0) = −1 < 0). Planteando las condiciones de KKT, encontramos una

solucion (x1,x2,λ2)T =

(1,−1, 1

2

)T, que no corresponde a este caso puesto que la tercera restric-

cion tambien es activa.(4) I (x) = {3} . Se verifica la cualificacion de restricciones de independencia lineal, pues la

unica solucion de ∇g3 (x) = 02 es x =(

12,0)T

, que no es un punto factible. Del sistema −∇ f (x) =

λ3∇g3 (x) , obtenemos las unicas soluciones (x1,x2,λ3)T =

(12,√

32

,− 1√3

), y (x1,x2,λ3)

T =(

12, −

√3

2, 1√

3

);

el primero no es punto de KKT pues λ3 < 0. El segundo hace activas tambien a las dos primeras,

ası que no corresponde a este caso. Situaciones analogas presentan los casos (5) I (x) = {1,2} y

(6) I (x) = {1,3} .(7) I (x) = {2,3} . Se verifica LICQ, y las condiciones de KKT proporcionan como unico can-

didato (realmente correspondiente a este caso) a (x1,x2,λ2,λ3)T =

(1,−1, 1

2,0)

Finalmente, en el caso I (x) = {1,2,3} no se verifican MCQ, SCQ, ni LICQ, sin embargo, puede

comprobarse que sı se verifica MFCQ. El unico punto de KKT en este caso es x =(

12, −

√3

2

).

En resumen, disponemos de dos candidatos a optimos locales: (1,−1) y(

12, −

√3

2

). En la Figu-

ra (17), en la que hemos representado el conjunto factible de (P) , puede apreciarse intuitivamente

66

Page 71: Apuntes (Curso-09-10)

que(

12, −

√3

2

)no es realidad un optimo local17.

-1 -0.5 0 0.5 1 1.5 2 -1.5

-1

-0.5

0

0.5

1

1.5

F

Figura 17: Ilustracion del ejemplo 3.16

El punto x = (1,−1) , sera un optimo local de (P) , y de hecho global. En este caso particular no

hace falta realizar ningun calculo adicional, pues F es un compacto. En esta situacion, el teorema

de Weierstrass asegura que debe existir un optimo global de (P) . Puesto que (1,−1) es el unico

candidato, este ha de ser un optimo global de (P) .

Las condiciones de KKT, si bien se presentan como condiciones necesarias de optimalidad (ba-

jo alguna cualificacion de restricciones), no son, sin embargo, suficientes, como puede observarse

en el ejemplo anterior. Por otro lado, como se muestra en el Apendice D, bajo determinada con-

dicion adicional, las condiciones de KKT se convierten en condiciones suficientes de optimalidad.

En cualquier caso, estos resultados hacen referencia a optimos locales. La siguiente proposicion

muestra como bajo determinadas hipotesis de convexidad, las condiciones de KKT seran suficien-

tes para garantizar, no solo optimalidad local, sino directamente optimalidad global.

Teorema 56. Si x∗ es un punto de KKT de (P) y asumimos que las funciones f y gi, con i ∈ I (x∗) ,son diferenciables en x∗ y convexas en R

n, entonces x∗ es un optimo global de (P) .

Demostracion. Bajo las hipotesis actuales podemos escribir, para todo x ∈ Rn,

f (x) ≥ f (x∗)+∇ f (x∗)T (x− x∗) ,

gi (x) ≥ gi (x∗)+∇gi (x

∗)T (x− x∗) , i ∈ I (x∗) .

Por otro lado, sean λi ≥ 0, i ∈ I (x∗) , tales que ∇ f (x∗) + ∑i∈I(x∗) λi∇gi (x∗) = 0n. Entonces, del

sistema anterior de desigualdades obtenemos

f (x)+ ∑i∈I(x∗)

λigi (x) ≥ f (x∗) , para todo x ∈ Rn.

En particular, si x ∈ F tendremos f (x) ≥ f (x∗) .

17Esto puede formalizarse tomando, por ejemplo, la sucesion xr :=(

12+ 1

r,−√

34+ 1

r3

), r = 2,3..., que converge a

x =

(12,−√

34

), y verifica xr ∈ F y f (xr) < f (x) , para todo r ≥ 2.

67

Page 72: Apuntes (Curso-09-10)

13.3. Problemas de PNL con igualdades y desigualdades.

El objetivo de esta ultima subseccion es senalar las diferencias que introduce en el estudio de

condiciones de optimalidad el hecho de anadir restricciones de igualdad a nuestro planteamiento.

Particularmente, en esta subseccion trataremos con problemas de PNL de la forma:

(P) Min f (x)s.a. gi(x) ≤ 0, i = 1,2, ...,m,

h j (x) = 0, j = 1,2, ..., p.(130)

En un principio podrıamos pensar en reemplazar cada una de las igualdades h j (x) = 0 por dos

desigualdades h j(x) ≤ 0 y −h j(x) ≤ 0 y, una vez adaptado (P) al formato analizado en la sub-

seccion anterior, aplicar entonces aquellos resultados. Este procedimiento es posible, y de hecho,

puesto que la region factible de (P) no se altera con esta nueva representacion, dado x∗ ∈ F, los

conjuntos Dx∗,Ax∗ , Tx∗ se definen de igual manera que en el caso anterior, tienen las mismas propie-

dades, y guardan la misma relacion entre ellos (recuerdese ‘Dx∗ ⊂Ax∗ ⊂ Tx∗’). Sin embargo, a partir

de esta representacion en terminos de desigualdades, la adaptacion del conjunto que denotabamos

por Gx∗ nos darıa siempre un conjunto vacio. De este modo, no dispondrıamos de aquellas cua-

lificaciones de restricciones que se apoyaban en este conjunto. Ası pues, a la hora de introducir

cualificaciones de restricciones en la lınea de la anterior hipotesis ‘Gx∗ = /0’, resultara conveniente

tratar las igualdades como tales.

Consideremos los siguientes conjuntos:

Gx∗ : ={

d ∈ Rn | ∇gi (x

∗)Td < 0; i ∈ I (x∗)

};

Gx∗ : ={

d ∈ Rn | ∇gi (x

∗)Td ≤ 0; i ∈ I (x∗)

};

Hx∗ : ={

d ∈ Rn | ∇h j (x

∗)Td = 0; j = 1,2, ..., p

},

donde ahora I (x∗) := {i ∈ {1, ...,m} | gi(x∗) = 0} .

Comenzaremos observando que el Teorema 44, que establecıa las condiciones de KKT como

condiciones necesarias de optimalidad bajo la cualificacion de restricciones de Guignard (que en

aquel momento se formulaba como ‘cl(cone(Tx∗)) = Gx∗’), puede adaptarse facilmente a este

nuevo contexto. Reproduciendo los pasos dados en la prueba de aquel teorema, considerando en

este caso cada igualdad h j (x) = 0 como dos desigualdades h j(x) ≤ 0 y −h j(x) ≤ 0, el nuevo

enunciado quedarıa como sigue:

Teorema 57. Sea x∗ ∈ F un optimo local del problema (130). Supongamos que las funciones

f , gi, con i ∈ I (x∗) , y h j, j = 1, ..., p, son diferenciables en x∗, y que se verifica la igualdad

cl(cone (Tx∗)) = Gx∗ ∩Hx∗ . Entonces existen escalares λi ≥ 0, i ∈ I (x∗), µ j ∈ R, j = 1,2, ..., p,tales que

−∇ f (x∗) = ∑i∈I(x∗)

λi∇gi (x∗)+

p

∑j=1

µ j∇h j (x∗) .

(Se dice que x∗ es un punto de KKT del problema (3.2)).

El siguiente resultado establece las relaciones de contenido existentes entre los conjuntos de

direcciones considerados en esta subseccion, y que daran paso a las nuevas cualificaciones de

restricciones. Observese que este nuevo enunciado adapta al contexto de los problemas (130) las

68

Page 73: Apuntes (Curso-09-10)

condiciones establecidas en el Teorema 46. En este punto senalamos que aparecera una diferen-

cia notable con respecto al planteamiento anterior de problemas, unicamente con desigualdades.

Particularmente la adaptacion de la condicion (iii) de dicho Teorema 46 (‘cl(

Gx∗ ∩Hx∗)⊂ Dx∗’)

requerira ahora la aplicacion del teorema de la funcion implıcita.

Teorema 58. Sea x∗ un punto factible del problema (130). Supongamos que las funciones gi,

con i ∈ I (x∗) , y h j, j = 1, ..., p, son diferenciables en x∗. Entonces se verifican los siguientes

enunciados:

(i) Dx∗ ⊂ Ax∗ ⊂ Tx∗ ⊂ cl(cone(Tx∗)) ⊂ Gx∗ ∩Hx∗ .

(ii) Gx∗ ∩Hx∗ 6= /0 si y solo si cl(

Gx∗ ∩Hx∗)

= Gx∗ ∩Hx∗.

(iii) Si adicionalmente suponemos que las funciones gi, con i /∈ I (x∗) son continuas, las h j,j = 1, ..., p, son continuamente diferenciables en un entorno de x∗, y que

{∇h j (x

∗) , j = 1, ..., p}

es un sistema linealmente independiente, entonces cl(

Gx∗ ∩Hx∗)⊂ Dx∗.

Idea de la prueba. (Los detalles tecnicos de la demostracion de (iii) se encuentran en el

Apendice B). Las condiciones (i) y (ii) pueden probarse reproduciendo los pasos de la prueba de (i)

y (ii) en el Teorema 46. En la demostracion de (iii) tambien se aplica dicho teorema. Para ello, en un

primer paso, haciendo uso de la hipotesis de independencia lineal de{

∇h j (x∗) , j = 1, ..., p

}, y en

virtud del teorema de la funcion implıcita veremos que el sistema de ecuaciones{

h j (x) = 0, j = 1, ..., p}

define a p de las variables como funciones implıcitas de las restantes. De este modo se reduce la

dimension del espacio de las variables al tiempo que el nuevo conjunto factible (en las nuevas va-

riables) viene descrito exclusivamente en terminos de desigualdades. Para aplicar entonces el apar-

tado (iii) del Teorema 46, habra que comprobar que si d ∈ cl(

Gx∗ ∩Hx∗)

, entonces el (sub)vector

cuyas coordenadas se corresponden con los ındices de las nuevas variables tambien verifica una

propiedad analoga en relacion con el nuevo sistema de desigualdades.

La relacion de contenidos establecidos en el teorema anterior justifica que las siguientes condi-

ciones constituyen hipotesis de cualificaciones de restricciones para nuestro problema de PNL con

igualdades y desigualdades (bajo las adecuadas hipotesis de continuidad y diferenciabilidad). Asi-

mismo, garantiza la cadena de implicaciones existente entre ellas que expresamos a continuacion.

Cualificacion de

restricciones de :Abrev. por: Hipotesis:

Mangasarian-Fromovitz

(o tambien de Cottle)MFCQ

‘{

∇h j (x∗) , j = 1, ..., p

}L.I.

y Gx∗ ∩Hx∗ 6= /0)’Kuhn-Tucker KTCQ ‘Dx∗ = Gx∗ ∩Hx∗’

Arrow-Hurwicz-Uzawa AHUCQ ‘Ax∗ = Gx∗ ∩Hx∗’

Abadie ACQ ‘Tx∗ = Gx∗ ∩Hx∗’

Guignard GCQ ‘cl(cone (Tx∗)) = Gx∗ ∩Hx∗’

Independencia lineal LICQ‘{∇gi (x

∗) , i ∈ I (x∗) ;

∇h j (x∗) , j = 1, ..., p} L.I.’

Mangasarian MCQ‘gi, i ∈ I (x∗) , concavas,

h j, j = 1, ..., p lineales’

Supongamos que las funciones h j, j = 1, ..., p, son de clase C 1 en un entorno de x∗, las gi, con

i ∈ I (x∗) , son diferenciables en x∗ y las funciones gi, con i /∈ I (x∗) , son continuas, entonces:

69

Page 74: Apuntes (Curso-09-10)

LICQ ⇒ MFCQ ⇒ KTCQ ⇒ AHUCQ ⇒ ACQ ⇒ GCQ

⇑MCQ

Las pruebas de las implicaciones ‘LICQ⇒MFCQ’ y ‘MCQ⇒KTCQ’ se obtienen adaptando a

este nuevo planteamiento los argumentos dados en la Proposicion 48.18

13.3.1. Apendice A: Las condiciones de Fritz-John

Como complemento del material de esta seccion presentamos una nueva condicion necesaria

de optimalidad en la linea de las condiciones de KKT, aunque mas debil. Como contrapartida, no

requiere ninguna cualificacion de restricciones, y por tanto estara indicada cuando no dispongamos

de alguna de estas hipotesis. Como veremos a continuacion, la nueva condicion es consecuencia

inmediata de los resultados presentados anteriormente. Consideraremos de nuevo el problema

(P) Min f (x)s.a. gi(x) ≤ 0, i = 1,2, ...,m.

Teorema 59 (Condiciones de Fritz John). Sea x∗ un optimo local de (P) , y supongamos que las

funciones f y gi, con i ∈ I (x∗) , son diferenciables en x∗, y las gi, con i /∈ I (x∗) son continuas en

x∗. Entonces existen escalares λ0,λi ≥ 0, i ∈ I (x∗), no todos nulos, tales que

λ0∇ f (x∗)+ ∑i∈I(x∗)

λi ∇gi (x∗) = 0n.

Demostracion. En las condiciones actuales, la Proposicion 40 establece que −∇ f (x∗) ∈ T ◦x∗. Por

otro lado, en el Teorema 46 vimos que Gx∗ ⊂ Tx∗, lo que implica que T ◦x∗ ⊂ G◦

x∗ . Ası pues,

−∇ f (x∗) ∈(

Gx∗)◦

.

En otros terminos, ∇ f (x∗)Td ≥ 0 para todo d ∈R

n verificando ∇gi (x∗)T

d < 0 para todo i∈ I (x∗) ;

esto es, el sistema{

∇ f (x∗)Td < 0; ∇gi (x

∗)Td < 0, i ∈ I (x∗)

}no tiene solucion (en la variable

d ∈Rn). Entonces, en virtud del teorema de Gordan, existiran λ0,λi ≥ 0, i ∈ I (x∗), no todos nulos,

tales que λ0∇ f (x∗)+∑i∈I(x∗) λi ∇gi (x∗) = 0n.

El siguiente esquema pretende mostrar la relacion existente entre las condiciones de Fritz-

John y otras condiciones necesarias de optimalidad introducidas en esta seccion. Una vez mas,

estamos asumiendo que x∗ es un optimo local de (P) , que las funciones f y gi, con i ∈ I (x∗) ,son diferenciables en x∗, y las gi, con i /∈ I (x∗) , son continuas en x∗. Bajo estas hipotesis, dicho

esquema es consecuencia directa de la relacion de contenidos

cl(

Gx∗)⊂ Dx∗ ⊂ Ax∗ ⊂ Tx∗ ⊂ cl(cone(Tx∗)) ⊂ Gx∗ ,

que establecıamos mas arriba.

18Particularmente, la implicacion ‘MCQ⇒KTCQ’ es consecuencia directa de la establecida en la condicion

(iii) de esta proposicion. Por su parte, la implicacion ‘LICQ⇒MFCQ’, se obtiene a partir del siguiente teore-

ma de alternativa (que generaliza al Teorema de Gordan, por incluir restricciones de igualdad): ‘El sistema

{a′ix < 0, i = 1,2, ...,s; a′ix = 0, i = s+ 1, ...,r} no tiene solucion si y solo si existen escalares λ1, ...,λs ≥ 0, con algun

λi > 0 , y µs+1,...,µr ∈ R tales ques

∑i=1

λiai +m

∑i=s+1

µiai = 0n.’ Este resultado se obtiene practicamente reproduciendo

los pasos de la demostracion del Teorema de Gordan.

70

Page 75: Apuntes (Curso-09-10)

Cond. de Fritz-John −∇ f (x∗) ∈(

Gx∗)◦

∪D◦

x∗

∪A◦

x∗

∪−∇ f (x∗) ∈ T ◦

x∗

∪Cond. de Karush-Kuhn-Tucker −∇ f (x∗) ¿ ∈? G◦

x∗

13.3.2. Apendice B: El teorema de la funcion implıcita. Aplicacion en la obtencion de con-

diciones de optimalidad

Considerese un sistema de ecuaciones del tipo

f1 (x1, ...,xn,y1, ...,ym) = 0

.............................................fm (x1, ...,xn,y1, ...,ym) = 0

, (131)

o equivalentemente la ecuacion vectorial

f (x,y) = 0m,

donde f = ( f1, ..., fm) es una funcion vectorial definida y de clase C p (p ≥ 1) en un subconjunto

abierto W de Rn+m con valores en R

m, y donde x e y representan a los vectores (x1, ...,xn) e

(y1, ...,ym) de Rn y R

m respectivamente. El siguiente teorema proporciona una condicion suficiente

para que el sistema (131) defina a la variable y como funcion implıcita de x en un entorno de una

solucion particular de dicho sistema (a,b) = (a1, ...,an,b1, ...,bm).

Teorema 60. Sea f = ( f1, ..., fm) : W −→ Rm una funcion de clase C p (p ≥ 1) en el conjunto

abierto W ⊂ Rn+m. Supongamos que en el punto (a,b) de W se verifican las condiciones siguien-

tes:

(i) f (a,b) = 0m,(ii) det∇y f (a,b) 6= 0.Entonces existen un entorno M×N de (a,b) , contenido en W, y una unica funcion φ : M −→ N

tales que f (x,φ (x)) = 0m para todo x ∈ M. Esto es19,

{(x,y) ∈ M×N | f (x,y) = 0m} = {(x,φ (x)) | x ∈ M} .

En particular, φ (a) = b. Ademas φ es de clase C p en M.

13.3.3. Demostracion del Theorem 58 (iii)

Veamos (iii). A lo largo de la prueba de este apartado, con el fin de simplificar la notacion, su-

pondremos que I (x∗) = {1,2, ...,s} (s ≤ m), y representaremos por g : Rn → R

s a la funcion vecto-

rial dada por g(x) = (gi (x))i=1,...,s , y por h : Rn →R

p a la funcion dada por h(x) = (hi (x))i=1,...,p .

19En estas condiciones diremos que la expresion y = φ (x) resuelve la ecuacion f (x,y) = 0m en M×N.

71

Page 76: Apuntes (Curso-09-10)

Asimismo, para una funcion ϕ : Rk → R

l, representaremos por ∇ϕ (x) , a la matriz de orden k× l

que tiene en sus columnas los respectivos gradientes (evaluados en x∈Rk) de las ϕi, con i = 1, ..., l.

Comenzaremos observando que si d ∈ cl(

Gx∗ ∩Hx∗)⊂ cl

(Gx∗)∩Hx∗ , entonces ∇g(x∗)T

d ≤0s, y ∇h(x∗)T

d = 0p. Veamos que bajo las hipotesis de (iii) existe una curva α : [0,ε] → F dife-

renciable en [0,1] y tal que α (0) = x∗, α ′ (0) = d.En primer lugar, bajo la hipotesis de independencia lineal del sistema {∇h j (x

∗) , j = 1, ..., p},la matriz ∇h(x∗) tendra una submatriz inversible de orden p. De nuevo, por simplicidad, supondre-

mos que esta submatriz, que denotaremos por B, esta formada por las p primeras filas de ∇h(x∗) .

Ası, escribiremos ∇h(x∗) =

(B

N

), donde N recoge las n− p ultimas filas de ∇h(x∗) . Del mismo

modo, escribiremos x =

(xB

xN

), donde xB contiene las p primeras coordenadas de x ∈ R

n, y xN las

restantes. Podemos suponer sin perdida de generalidad que p < n, pues en otro caso, si p = n, en-

tonces Hx∗ = {0n} , y entonces Gx∗∩Hx∗ = /0, y por tanto cl(

Gx∗ ∩Hx∗)

= /0. Aplicando el teorema

de la funcion implıcita (vease Apendice B) a la ecuacion vectorial h(x) = 0p, y teniendo en cuenta

que h(x∗) = 0p, concluimos la existencia de un entorno U ⊂ Rp de x∗B, un entorno V ⊂ R

n−p de

x∗N y una unica funcion φ : V →U verificando h(φ (xN) ,xN) = 0p, para todo xN ∈V (en particular

φ (x∗N) = x∗B), siendo, ademas de clase C1 en V.Consideremos entonces las nuevas funciones g : V → R

s, dada por g(xN) = g(φ (xN) ,xN) , y

h : V → Rp, dada por h(xN) = h(φ (xN) ,xN) . Puesto que h es constantemente nula en V, entonces

0(n−p)×p = ∇h(x∗N) . Por otro lado, aplicando la regla de la cadena, ∇h(x∗N) = ∇φ (x∗N)B +N, de

donde

∇φ (x∗N) = −NB−1.

Ademas, si escribimos d =

(dB

dN

), de ∇h(x∗)T

d = 0p, obtenemos que

dB = −(NB−1

)TdN,

puesto que ∇h(x∗)Td = 0p. Entonces

∇g(x∗N) = ∇φ (x∗N)∇xBg(x∗)+∇xN

g(x∗) = −NB−1∇xBg(x∗)+∇xN

g(x∗) ,

donde ∇xBg(x∗) recoge a las p primeras filas de ∇g(x∗) , y ∇xN

g(x∗) a las n− p restantes. Ası pues,

∇g(x∗N)TdN = −∇xB

g(x∗)T (NB−1

)TdN +∇xN

g(x∗)TdN

= ∇xBg(x∗)T

dB +∇xNg(x∗)T

dN = ∇g(x∗)Td ≤ 0s.

Ahora estamos en condiciones de aplicar el apartado (iii) del Theorem 4620, concluyendo la

existencia de una curva α : [0,ε] → Rn−p diferenciable en [0,ε] , y verificando que α (0) = x∗N ,

α ′ (0) = dN , y g(α (t))≤ 0s, para todo t ∈ [0,ε] . Podemos suponer, sin perdida de generalidad que

α (t)∈V, para todo t ∈ [0,ε] , pues en otro caso tomarıamos su restriccion sobre cierto [0,δ ] , δ > 0,y posteriormente, mediante un cambio de variable adecuado conseguirıamos que la nueva curva

20En rigor, para aplicar directamente este teorema, g tendrıa que estar definida en todo Rn−p. Esto sin embargo, no

supone ningun obstaculo, puesto que la unica hipotesis que ha de cumplir g es la diferenciabilidad en xN . Podemos

extender entonces el dominio de g a Rn−p, definiendola de manera arbitraria en R

n−p\V. Por otro lado, se comprueba

inmediatamente que existe dN tal que ∇g(xN)′ dN < 0s.

72

Page 77: Apuntes (Curso-09-10)

estuviera en las condiciones indicadas. A partir de esta, construimos la curva α : [0,ε]→ Rn, dada

por α (t) =

(φ (α (t))

α (t)

), t ∈ [0,ε] . Se tiene que α (0) =

(φ (x∗N)

x∗N

)= x∗, g(α (t)) = g(α (t)) ≤ 0s,

y podemos, de hecho, suponer sin perdida de generalidad21 que para aquellos ındices i /∈ I (x∗)tambien se verifica gi (α (t)) ≤ 0; ası pues, α (t) ∈ F, para todo t ∈ [0,ε] . Ademas,

α ′ (0) =

(∇φ (x∗N)T α ′ (0)

α ′ (0)

)=

((−NB−1)T

dN

dN

)= d.

13.3.4. Apendice C: Complementos diversos

Tx∗ es un cono cerrado, mientras que Dx∗ es un cono pero no es cerrado en general.

Es inmediato que ambos son conos. En efecto, si d ∈ Tx∗ , existen λr > 0, xr ∈ F, r = 1,2, ...,tales que d = lımr→∞ λr (x

r − x∗) , y entonces λd = lımr→∞ λλr (xr − x∗) ∈ Tx∗ , para todo λ > 0;

por otro lado, si λ = 0, entonces puede ponerse λd = 0n = lımr→∞ λr (x∗− x∗) ∈ Tx∗ . Ası pues, Tx∗

es un cono.

Dx∗ tambien es un cono. En efecto, si d ∈Dx∗ , existe una curva α : [0, ε]→ F, para algun ε > 0,diferenciable en [0, ε] y tal que α ′ (0) = d y α (0) = x∗. Si λ > 0, entonces la curva β : [0, ε

λ ]→ F,dada por β (t) = α (λ t) , verifica β (0) = α (0) = x∗, y β ′ (0) = λα ′ (0) = λd ∈ Dx∗. Si λ = 0,basta considerar α : [0, ε] → F, constantemente igual a x∗, y entonces λd = 0n ∈ Dx∗ .

Tx∗ es cerrado. En efecto, sea{

dk}⊂ Tx∗ convergente hacia cierto d ∈R

n. Mediante un proceso

diagonal concluiremos que d ∈ Tx∗ . Pongamos

dk = lımr→∞

λk,r

(xk,r − x∗

),k = 1,2, ....

Para cada k sea rk tal que∥∥dk −λk,rk

(xk,rk − x∗

)∥∥≤ 1k. Entonces

lımk→∞

λk,rk

(xk,rk − x∗

)= d ∈ Tx∗ .

Sin embargo Dx∗ no es cerrado en general. Basta considerar F = {x ∈ R2 | g1 (x1,x2) = 0,

x1 − x22 ≥ 0}, siendo g1 (x1,x2) = x2

1 sin(

π x2

x1

), si x1 6= 0, y g1 (0,x2) = 0. Ası

F = {02}∪⋃

r∈Z

{x ∈ R

2 | x2 = rx1, 0 ≤ x1 ≤1

r2

},

y entonces dr = r(

1r2 ,

1r

)=(

1r,1)T ∈ Dx∗ , r = 1,2, ..., y sin embargo (0,1)T /∈ Dx∗ .

Comprobacion de la diferenciabilidad de α (t) de la prueba de (iii) en el Teorema 46

Comprobaremos que la curva α :[0,

Tλ1

2

]→ R

n definida en la prueba de dicho teorema verifica

todas las propiedades allı anunciadas. En primer lugar, se comprueba inmediatamente que, si a < b,a,b ∈ R, la funcion ϕ : [a,b] → [0,1] definida por

ϕ (t) :=(t −a)2

(t −a)2 +(t −b)2

21En otro caso, de la continuidad en 0 de t 7→ gi (α (t)) , para todo i /∈ I (x) , y puesto que gi (α (0)) < 0, encon-

trarıamos un δ > 0, tal que gi (α (t)) ≤ 0, para todo t ∈ [0,δ ] , y todo i /∈ I (x) . Como hemos indicado anteriormente,

bastarıa entonces considerar la restriccion de α a dicho intervalo, y luego realizar un cambio de variable adecuado.

73

Page 78: Apuntes (Curso-09-10)

verifica ϕ (a) = 0, ϕ (b) = 1, y

0 = ϕ ′ (a) = ϕ ′ (b) < ϕ ′ (t) ≤ ϕ ′(

a+b

2

)=

2

b−apara todo t ∈ ]a,b[ .

En particular ϕ es estrictamente creciente.

La continuidad de α en[0,

Tλ12

]se comprueba sin dificultad (para t = 0 se sigue de la acotacion

deα(t)−x∗

ten]0,

Tλ12

]). Ademas:

(1) α (t)∈ F para todo t ∈[0,

Tλ12

]. En efecto, para t ∈

[Tλr+1

,Tλr

2

]es evidente por la definicion

de Tλ y, para t ∈]

Tλr+1

2,Tλr+1

[, podemos escribir α (t) = x∗ + tdµ , con µ = (1−ϕr (t))λr+1 +

ϕr (t)λr ≥ λr+1 (a fortiori λr ↓ 0); con lo que α (t) ∈ F puesto que t < Tλr+1≤ Tµ .

(2) α es diferenciable (de hecho de clase C 1) en el intervalo[0,

Tλ12

]y α ′ (0) = d. En efecto,

se tiene

α ′ (t) :=

dλr si t ∈

]Tλr+1

,Tλr

2

[, r = 1,2, ...,

dλr+1 +(ϕr (t)+ tϕ ′r (t))

(dλr −dλr+1

), si t ∈

]Tλr+1

2,Tλr+1

[, r = 1,2, ....

Puesto que, para cada t0 ∈]0,

Tλ12

], α es continua en t0 y lımt→t0 α ′ (t) existe, dicho lımite coinci-

de con α ′ (t0) (esta propiedad, coordenada a coordenada, es consecuencia de la regla de L’Hopital).

Ası pues, α es de clase C 1 en]0,

Tλ12

]. Ademas las propiedades de ϕr aseguran que |ϕr (t)+ tϕ ′

r (t)| ≤

5 para cada t ∈]

Tλr+1

2,Tλr+1

[, r = 1,2, .... Este hecho, junto con lımr→∞ dλr = d, nos conduce

a lımt→0 α ′ (t) = d y, de nuevo por la regla de L’Hopital (aplicada coordenada a coordenada),

α ′ (0) = d. Luego α es de clase C1 en

[0,

Tλ12

].

Complementos del Ejemplo 53

Sea α : [0,ρ]→ F (ρ > 0), derivable en 0, con α (0) = 0. Veamos que necesariamente α ′ (0) =0. Supongamos, por reduccion al absurdo, que α ′ (0) = v 6= 0. Entonces, en virtud de la continuidad

de la funcion valor absoluto y habida cuenta de que α (0) = 0, se tiene lımt→0+

α (t)

t= v > 0 (puesto

que α (t) ∈ F, α (t) ≥ 0 = α (0) para todo t ∈ [0,ε]), luego existe un δ0 > 0 tal que α (t) > 0 si

0 < t < δ0, en cuyo caso, en virtud de la descripcion de F, ha de existir un kt ∈Z tal que α (t) = ekt .

Por otro lado lımt→0+

t

α (t)=

1

v> 0, luego fijado ε ∈

]0,

1

v

[(mas tarde precisaremos el valor que de

ε)22 existe un δ ∈ ]0,δ0[ tal que 0 < t < δ implica

(1

v− ε

)ekt < t <

(1

v+ ε

)ekt . (132)

22Aunque en estos casos la eleccion del ε siempre queda motivada a posteriori, preferimos por motivos didacticos

fijar el valor de ε una vez que dicho valor este motivado.

74

Page 79: Apuntes (Curso-09-10)

Elijamos ε de forma que

(1

v+ ε

)ekt <

(1

v− ε

)ekt+1; esto es,

(1

v+ ε

)(1

v− ε

)−1

< e.

Por ejemplo, sea ε =1

5v.La formula (132) implica en particular que

]0,δ [ ⊂⋃

k∈Z

]αk,βk[ ,

siendo αk :=4ek

5vy βk :=

6ek

5vpara cada k ∈Z, lo que constituye una contradiccion, pues la eleccion

de ε garantiza que βk < αk+1 para todo k ∈ Z. Notese que, por ejemplo, la sucesion de numeros

positivos (pr)r∈Ndada por pr =

β−r +α−r+1

2, r = 1,2, ..., tiene lımite 0 cuando r → +∞, por lo

que para r suficientemente grande sera pr ∈ ]0,δ [\⋃

k∈Z

]αk,βk[ .

13.3.5. Apendice D: Condiciones de segundo orden

El objetivo de esta seccion es doble. Por un lado, pretende dar un paso mas en deteccion de

optimos locales de un problema de PNL, anadiendo nuevas condiciones a las presentadas en esta

seccion (que ahora involucraran derivadas de segundo orden); por otro lado pretende proporcionar,

bajo hipotesis adecuadas, una interpretacion de los multiplicadores de KKT relacionada con el

analisis de sensibilidad del problema.

Comenzaremos estableciendo una condicion necesaria de optimalidad de segundo orden. Esta

podrıa obtenerse a partir de su homologa para el problema de optimizacion con restricciones de

igualdad. No obstante, con el fin de hacer el tema autocontenido, y al mismo tiempo proporcionar

las herramientas que darıan pie a posibles generalizaciones, optaremos por una prueba directa,

basada en resultados anteriores.

Consideremos la funcion de Lagrange, L : Rn ×R

m+×R

p → R, asociada al problema:

(P) Min f (x) (133)

s.a. gi(x) ≤ 0, i = 1,2, ...,m,h j (x) = 0, j = 1,2, ..., p,

que viene dada por L(x,λ ,µ) := f (x)+λ T g(x)+µT h(x) , donde g (respectivamente, h) representa

a la funcion vectorial que tiene a las gi (respectivamente, a las h j) como sus funciones coordenadas.

Asimismo denotaremos por ∇xL(x,λ ,µ) al gradiente, respecto de x, de L; esto es,

∇xL(x,λ ,µ) = ∇ f (x)+m

∑i=1

λi∇gi (x)+p

∑j=1

µ j∇h j (x) .

Ası pues, las condiciones de KKT para el problema (133) pueden alternativamente expresarse

75

Page 80: Apuntes (Curso-09-10)

como23

∇xL(x,λ ,µ) = 0n,λ T g(x) = 0, λ ≥ 0m,g(x) ≤ 0m, h(x) = 0p.

(D.2)

En los respectivos enunciados de la condicion necesaria y condicion suficiente establecidos en

esta subseccion distinguiremos entre dos clases de restricciones activas asociadas a un punto de

KKT x∗, y al vector λ ∗ que recoge los multiplicadores de KKT asociados a las restricciones de

desigualdad. Siguiendo la terminologıa de Fletcher (1987), llamaremos restricciones fuertemente

activas (o tambien, no degeneradas) a las asociadas al conjunto de ındices

I+ (x∗,λ ∗) := {i ∈ I (x∗) | λ ∗i > 0} ,

mientras que el resto de restricciones de desigualdad activas son denominadas restricciones debil-

mente activas. En terminos informales, esta distincion viene motivada por el hecho de que esta

ultima clase de restricciones activas no desempenan ningun papel en las condiciones de KKT (es-

tas condiciones se verifican, aun eliminando del planteamiento dichas restricciones).

En lo que sigue denotaremos por ∇2xxL(x,λ ,µ) a la matriz hessiana, respecto de x, de L; esto

es

∇2xxL(x,λ ,µ) := ∇2 f (x)+

m

∑i=1

λi∇2gi (x)+

p

∑j=1

µ j∇2h j (x) ,

donde ∇2 f (x) , ∇2gi (x) , i = 1, ...,m, ∇2h j (x) , j = 1, ..., p denotan a las matrices hessianas de las

correspondientes funciones.

Teorema 61 (Condicion necesaria de segundo orden). Sea x∗ un optimo local del problema (P) , in-

troducido en (133). Supongamos que f , gi, i∈ I (x∗) y h j, j = 1, ..., p, son de clase C 2 en un entorno

de x∗, que gi, i /∈ I (x∗) son funciones continuas en x∗, y que{

∇gi (x∗) , i ∈ I (x∗) ; ∇h j (x

∗) , j = 1,2, ..., p}

forma un sistema linealmente independiente24. Entonces se verifican los siguientes enunciados:

(i) Existen unos unicos , λ ∗ ≥ 0m, µ∗ ∈ Rp, verificando

∇xL(x∗,λ ∗,µ∗) = 0n, y λ ∗T g(x∗) = 0; (134)

(ii) Ademas, para todo d ∈ M (x∗,λ ∗) , se tiene que dT ∇2xxL(x∗,λ ∗,µ∗)d ≥ 0, siendo

M (x∗,λ ∗) :=

d ∈ R

n :

∇gi (x∗)T

d ≤ 0, i ∈ I (x∗)\I+ (x∗,λ ∗) ;

∇gi (x∗)T

d = 0, i ∈ I+ (x∗,λ ∗) ;

∇h j (x∗)T

d = 0, j = 1,2, ..., p

.

23Recuerdese que las condiciones de KKT para el problema (D.1) se formulan en los terminos ‘existen x ∈ F y

λ i ≥ 0, i ∈ I (x) , µ j ∈ R, tales que ∇ f (x)+ ∑i∈I(x) λ i∇gi (x)+ ∑pj=1 µ j∇h j (x) = 0n’; considerando entonces λ i = 0,

para i ∈ {1, ...,m}\I (x) , tendremos unos vectores λ ≥ 0m, y µ ∈ Rp tales que ∇xL

(x,λ ,µ

)= 0n, con λ

′g(x) = 0.

Reciprocamente, si x ∈ F, λ ≥ 0m, µ ∈ Rp verifican ∇xL

(x,λ ,µ

)= 0n, con λ

′g(x) = 0, de esta ultima igualdad se

deduce que λ igi (x) = 0 (puesto que λ i ≥ 0 y gi (x) ≤ 0), para todo i = 1, ...,m. Ası pues, si i /∈ I (x) , ha de ser λ i = 0,de donde se obtienen inmediatamente las condiciones de KKT en el formato inicial.

24Recordemos que esta hipotesis constituye la cualificacion de restricciones que abreviabamos por LICQ. En esta

situacion, se dice que x∗ es un punto regular de (P) .

76

Page 81: Apuntes (Curso-09-10)

Demostracion. (i) ya ha sido probada mas arriba, incluso bajo hipotesis mas generales. Veamos

(ii).

Comenzaremos observando que, puesto que x∗ es un optimo local de (P) , tambien lo sera del

problema 25

(P) Min f (x)s.a. gi(x) ≤ 0, i ∈ I (x∗)\I+ (x∗,λ ∗) ,

gi(x) = 0, i ∈ I+ (x∗,λ ∗) ,h j (x) = 0, j = 1,2, ..., p.

Distinguiremos con el sımbolo ‘ ’ a los elementos asociados al problema (P). Ası, F sera su con-

junto factible, y Tx∗, Gx∗ , Hx∗, representaran, respectivamente, el cono de las tangentes en x∗, el

polar del conjunto formado por los gradientes en x∗ de las gi,con i ∈ I (x∗)\I+ (x∗,λ ∗) , y el orto-

gonal del conjunto formado por los gradientes, en x∗, de las funciones que definen las igualdades.

Con esta notacion, el conjunto M (x∗,λ ∗) introducido en (ii) no es otro que Gx∗ ∩ Hx∗ . Ademas, la

hipotesis de independencia lineal del sistema{

∇gi (x∗) , i ∈ I (x∗) ; ∇h j (x

∗) , j = 1,2, ..., p}

pue-

de verse tambien como la cualificacion de restricciones que denotabamos por LICQ, en x∗, pa-

ra el problema (P). Esta cualificacion de restricciones implica la de Abadie, concluyendose que

Gx∗ ∩ H = Tx∗ .Sea d ∈ M (x∗,λ ∗) . De los comentarios anteriores, se deduce que d ∈ Tx∗ . Ası pues, pongamos

d = lımr→∞ ρr (xr − x∗) , con xr ∈ F para todo r, y siendo {xr} convergente a x∗. Las hipotesis

actuales de diferenciabilidad permiten escribir

f (xr) = f (x∗)+∇ f (x∗)T (xr − x∗)+ 1

2(xr − x∗)T ∇2 f (x∗)(xr − x∗)+o(‖xr − x∗‖2),

gi (xr) = gi (x

∗)+∇gi (x∗)T (xr − x∗)

+ 12(xr − x∗)T ∇2gi (x

∗)(xr − x∗)+o(‖xr − x∗‖2), i ∈ I+ (x∗,λ ∗) ,

h j (xr) = h j (x

∗)+∇h j (x∗)T (xr − x∗)

+ 12(xr − x∗)T ∇2h j (x

∗)(xr − x∗)+o(‖xr − x∗‖2), j = 1, ..., p.

(D.3)

Ası pues,

L(xr,λ ∗,µ∗) = f (xr)+ ∑i∈I+(x∗,λ ∗)

λ ∗i gi (x

r)+p

∑j=1

µ∗j h j (x

r) (D.4)

= f (x∗)+1

2(xr − x∗)T ∇2

xxL(xr,λ ∗,µ∗)(xr − x∗)+o(‖xr − x∗‖2).

Puesto que gi (xr) = 0, para todo r (por ser xr ∈ F , para todo r), f (xr) ≥ f (x∗) para r suficiente-

mente grande (por ser x∗ optimo local de (P)), se tiene que

0 ≤ 1

2(xr − x∗)T ∇2

xxL(xr,λ ∗,µ∗)(xr − x∗)+o(‖xr − x∗‖2), para r ≥ r0.

Multiplicando entonces, para cada r, por (ρr)2 , y haciendo r →+∞ concluimos que dT ∇2

xxL(x∗,λ ∗,µ∗)d ≥0.

25En la introduccion del tema se presento un argumento directo para probar un resultado analogo a esta observacion.

77

Page 82: Apuntes (Curso-09-10)

Observacion 62. En la practica, en vez de verificar la condicion (ii), resulta mas sencillo com-

probar si se cumple otra mas debil, a saber ‘si ∇2xxL(x∗,λ ∗,µ∗) es semidefinida positiva o definida

positiva sobre el subespacio

{d ∈ R

n | ∇gi (x∗)T

d = 0, i ∈ I (x∗) ; ∇h j (x∗)T

d = 0, j = 1,2, ..., p}

,

pues esta ultima puede ser analizada a traves de un simple caculo matricial.

Observacion 63. La hipotesis de independencia lineal utilizada en el enunciado del teorema an-

terior, podrıa reemplazarse por cualquier otra que suponga una cualificacion de restricciones en

x∗ simultaneamente para los problemas (P) y (P), y que en este ultimo caso resulte ser una con-

dicion suficiente para la cualificacion de restricciones de Abadie. Este es el caso, por ejemplo, si

gi, i ∈ I+ (x∗,λ ∗) , y h j, j = 1, ...,m son lineales y gi, i ∈ I (x∗)\I+ (x∗,λ ∗) son concavas.

Teorema 64 (Condicion suficiente de segundo orden). Sea x∗ ∈ F un punto de KKT del problema

(P) introducido en (133) y sean λ ∗ ≥ 0m, µ∗ ∈ Rp vectores de multiplicadores asociados a x∗

(esto es, (x∗,λ ∗,µ∗) verifica las condiciones de KKT (134)). Supongamos que f , gi, i ∈ I (x∗) , h j,j = 1, ..., p son de clase C 2 en un entorno de x∗, y que gi, i /∈ I (x∗) son funciones continuas en x∗.Si ademas se verifica que dT ∇2

xxL(x∗,λ ∗,µ∗)d > 0 para todo d ∈ M (x∗,λ ∗)\{0n} , entonces x∗

es un optimo local (estricto) de (P).

Demostracion. Razonando por reduccion al absurdo, supongamos que dT ∇2xxL(x∗,λ ∗,µ∗)d > 0

para todo d ∈M (x∗,λ ∗)\{0n} , y, sin embargo, x∗ no es un mınimo local estricto de (P) . Entonces

existe una sucesion {xr} ⊂ F\{x∗} convergente a x∗ y tal que f (xr)≤ f (x∗) , para todo r; ası pues

L(xr,λ ∗,µ∗) ≤ f (x∗) , para todo r.

Por otro lado, podemos suponer sin perdida de generalidad que

{(xr − x∗)‖xr − x∗‖

}es convergente ha-

cia cierto d ∈ Rn (en otro caso tomarıamos una subsucesion en estas condiciones). Es inmediato

que d ha de pertenecer al cono de las tangentes a F en x∗, y por tanto d ∈ Gx∗ ∩Hx∗ ; esto es,

∇gi (x∗)T

d ≤ 0, i ∈ I (x∗) , y ∇h j (x∗)T

d = 0, j = 1,2, ..., p. De hecho d ∈ M (x∗,λ ∗) . En efec-

to, si ∇gi (x∗)T

d < 0,para algun i ∈ I+ (x∗,λ ∗) , como consecuencia de las condiciones de KKT

tendrıamos ∇ f (x∗)Td > 0, encontrando una contradiccion con la hipotesis actual ‘ f (xr)≤ f (x∗) ,

para todo r’ (de dicha hipotesis, y de la diferenciabilidad de f en x∗, mediante un argumento

estandar (vease por ejemplo la demostracion de la Proposicion 40), se deduce ∇ f (x∗)Td ≤ 0).

De nuevo por las hipotesis de diferenciabilidad, y por ser x∗ un punto de KKT, desarrollando

de forma identica a (D.3) y (D.4) obtenemos

L(xr,λ ∗,µ∗) = f (x∗)+1

2(xr − x∗)T ∇2

xxL(xr,λ ∗,µ∗)(xr − x∗)+o(‖xr − x∗‖2)

≤ f (x∗) .

Por tanto1

2(xr − x∗)T ∇2

xxL(xr,λ ∗,µ∗)(xr − x∗)+o(‖xr − x∗‖2) ≤ 0.

Dividiendo entonces por ‖xr − x∗‖2y haciendo r → +∞ concluimos dT ∇2

xxL(x∗,λ ∗,µ∗)d ≤ 0,alcanzando de este modo una contradiccion (recuerdese que d ∈ M (x∗,λ ∗)). Ası pues, x∗ es un

mınimo local estricto de (P) .

78

Page 83: Apuntes (Curso-09-10)

13.3.6. Interpretacion de los multiplicadores de KKT

Imaginemos que deseamos construir una caja de carton como la de la figura:

x2/2

x2 /2

x3

x1

x2

solapa

Supongamos que el beneficio que reporta para nosotros la construccion de dicha caja es propor-

cional a su volumen una vez cerrada, de forma que nos interesa minimizar f (x1,x2,x3) =−x1x2x3

(lo que equivale a maximizar el volumen). Supongamos asimismo que tenemos restringida la can-

tidad de material (area total), estando sujetos a la restriccion

g(x1,x2,x3) = 2(x1 + x2)(x2 + x3)− c0 ≤ 0,

siendo c0 una constante positiva, y por supuesto x1 ≥ 0, x2 ≥ 0 y x3 ≥ 0.Dada la naturaleza del problema, en un optimo local de problema tendran que ser positivos x1,

x2 y x3 (pues si alguno de ellos fuese cero el volumen de la caja serıa nulo, y evidentemente no

tendrıamos un optimo local). Esto significa que, con el fin de buscar puntos de KKT que pudieran

ser optimos locales, podremos considerar x1 ≥ 0, x2 ≥ 0 y x3 ≥ 0 como restricciones inactivas.

Ası, considerando la restriccion de material como la unica activa, encontramos que el unico

punto de KKT es x∗ =(

23

√c0

2, 1

3

√c0

2, 2

3

√c0

2

), teniendose ademas que ∇g(x∗) =

√2c0 (1,2,1)T 6=

03. El multiplicador de KKT asociado es λ ∗1 = 1

9

√c0

2. Poniendo λ ∗ = (λ ∗

1 ,0,0,0)T , se tiene que

la restriccion de ∇2xxL(a) al subespacio

{v ∈ R

3 | v1 +2v2 + v3 = 0}

es definida positiva, por lo

que en virtud de la condicion suficiente de segundo orden, el problema considerado presenta en x∗

un optimo local (puede comprobarse a partir de la definicion que, de hecho, se trata de un optimo

global), teniendose f (x∗) = −√

227

c3/20 (esto es un volumen maximo de

√2

27c

3/20 ).

Llegados a este punto nos planteamos la siguiente pregunta: ¿Cuanto mejorarıa nuestro objetivo

si pudiesemos disponer de una pequena cantidad adicional, c−c0, de area total? En otras palabras,

si tuviesemos la posibilidad de aumentar un poco el area total de la caja, ¿hasta que precio por

unidad de area (expresado en las mismas unidades que el objetivo) estarıamos dispuestos a pagar

por esa pequena cantidad adicional de area? La respuesta es sencilla: dicho precio es λ , puesto que

el ”beneficio cambiado de signo” es B(c0) = f (x∗) = −√

227

c3/2

0 , y se tiene

B′ (c0) =−√

2

27

3

2c

1/2

0 =−1

9

√c0

2= −λ .

79

Page 84: Apuntes (Curso-09-10)

Veremos a continuacion que, bajo hipotesis adecuadas, este resultado se verifica en general:

λi puede interpretarse como el “precio” (en las unidades de la funcion objetivo) que estarıamos

dispuestos a pagar por unidad de incremento del miembro derecho de la i-esima ligadura (pa-

ra incrementos pequenos), pues esa unidad producirıa una mejora (disminucion) del objetivo de,

aproximadamente, λi unidades.

Teorema 65. Sea x∗ un punto de KKT del problema (P) introducido en (133), y sean λ ∗ ≥ 0m

y µ∗ ∈ Rp vectores de multiplicadores asociados a x∗. Supongamos que f , gi, i ∈ I (x∗) , h j, j =

1, ..., p son de clase C 2 en un entorno de x∗, que gi, i /∈ I (x∗) son funciones continuas en x∗.Supongamos ademas que se verifican las siguientes condiciones:

(h1){

∇gi (x∗) , i ∈ I (x∗) ; ∇h j (x

∗) , j = 1,2, ..., p}

forma un sistema linealmente indepen-

diente;

(h2) I (x∗) = I+ (x∗,λ ∗) (todas las restricciones activas son fuertemente activas; en este caso

M (x∗,λ ∗) es un subespacio vectorial);

(h3) ∇2xxL(x∗,λ ∗,µ∗) es definida positiva sobre el subespacio M (x∗,λ ∗) (condicion suficiente

de segundo orden).

Entonces existen un entorno V ⊂ Rn de x∗, y un entorno W ⊂ R

m+p de 0m+p, tales que para

todo

θ

)∈W el problema parametrizado

(P(β ,θ)) Min f (x)s.a. g(x) ≤ β ,

h(x) = θ ,

presenta en V un unico optimo local, que ademas es estricto, x(β ,θ) ; en particular x(0m,0p) = x∗.Ademas x∗ (·, ·) es de clase C 1 en V, y

∇(β ,θ ) f (x(β ,θ))∣∣(β ,θ )=(0m,0p)

=

(−λ ∗

−µ∗

).

Demostracion. Las condiciones de KKT para el problema (P(β ,θ)) pueden expresarse como

∇ f (x)+∇g(x)λ +∇h(x)µ = 0n,λi (gi (x)−βi) = 0, i = 1, ...,m,

h(x)−θ = 0p,(D.5)

λ ≥ 0m, g(x) ≤ β . (D.6)

Obviaremos por el momento las condiciones dadas en (D.6) y nos centraremos en el sistema de

ecuaciones (D.5). Para β = 0m, y θ = 0p, (x∗,λ ∗,µ∗) es una solucion de dicho sistema. Apli-

caremos entonces el teorema de la funcion implıcita para mostrar que el sistema (D.5) define

localmente a (x,λ ,µ)Tcomo funcion implıcita de (β ,θ)T . Para ello hemos de verificar que la

matriz jacobiana del sistema, con respecto a (x,λ ,µ)T , evaluada en (x∗,λ ∗,µ∗)Tes no singular.

Esta matriz viene dada por:

J :=

∇2xxL(x∗,λ ∗,µ∗) ∇g(x∗) ∇h(x∗)(

λ ∗i ∇gi (x

∗)T)

i=1,...,mdiag(gi (x

∗) , i = 1, ..,m) 0m×p

∇h(x∗)T0p×m 0p×p

,

80

Page 85: Apuntes (Curso-09-10)

donde(

λ ∗i ∇gi (x

∗)T)

i=1,...,mrepresenta a la matriz cuya i-esima fila es λ ∗

i ∇gi (x∗)T , y diag(gi (x

∗) , i = 1, ..,m)

la matriz diagonal cuyos elementos diagonales son precisamente {gi (x∗) , i = 1, ..,m} .

Supongamos que J es singular, entonces existe(uT ,vT ,wT

)T ∈ Rn+m+p\

{0n+m+p

}tal que

J(uT ,vT ,wT

)T= 0n+m+p. En primer lugar notese que u 6= 0n, pues de lo contrario, el sistema

formado por las n primeras ecuaciones de J(uT ,vT ,wT

)T= 0n+m+p, se traducirıa en ∇g(x∗)v +

∇h(x∗)w = 0n, y del sistema formado por las m siguientes obtendrıamos vi = 0, si i /∈ I (x∗) ,contradiciendo ası (h1) , pues habrıamos encontrado entonces una combinacion lineal nula del

sistema{

∇gi (x∗) , i ∈ I (x∗) ; ∇h j (x

∗) , j = 1,2, ..., p}

.

Veamos que ademas u ∈ M (x∗,λ ∗) . Del bloque formado por las p ultimas ecuaciones se tiene

que ∇h j (x∗)T

u = 0, para todo j = 1, ..., p. Atendiendo de nuevo al bloque de las m ecuaciones

anteriores a estas, tendrıamos λ ∗i ∇gi (x

∗)Tu + gi (x

∗)vi = 0, para todo i = 1, ...,m. Ası pues, si

i ∈ I (x∗) , entonces ∇gi (x∗)T

u = 0, pues estamos suponiendo que λ ∗i > 0, para todo i ∈ I (x∗) .

Entonces, multiplicando a izquierda por uT en

∇2xxL(x∗,λ ∗,µ∗)u+∇g(x∗)v+∇h(x∗)w = 0n,

concluimos que

uT ∇2xxL(x∗,λ ∗,µ∗)u+uT ∇g(x∗)v+uT ∇h(x∗)w = uT ∇2

xxL(x∗,λ ∗,µ∗)u = 0n,

puesto que uT ∇h(x∗)w = 0 (pues uT ∇h(x∗) = 01×p), y uT ∇g(x∗)v = ∑mi=1 uT ∇gi (x

∗)vi = 0 (ya

hemos visto que uT ∇gi (x∗) = 0, si i ∈ I (x∗) , y notese que vi = 0, si i /∈ I (x∗) , como consecuencia

de λ ∗i ∇gi (x

∗)Tu+gi (x

∗)vi = 0).

Hemos encontrado ası u 6= 0n, con u ∈ M (x∗,λ ∗) , y uT ∇2xxL(x∗,λ ∗,µ∗)u = 0n, alcanzando

una contradiccion con (h3) .Una vez comprobado que J es no singular, estamos en condiciones de aplicar el teorema de la

funcion implıcita, concluyendo la existencia de un entorno U ⊂ Rm+p de (λ ∗,µ∗)T , un entorno

V ⊂ Rn de x∗, y un entorno W ⊂ R

m+p de 0m+p, y una unica funcion Φ : W → V ×U, tales

que (Φ(β ,θ) ,β ,θ) resuelve el sistema (D.5) para todo

θ

)∈ W. Ademas, como parte de la

tesis del teorema de la funcion implıcita se obtiene que Φ es de clase C 1 en W. En lo que sigue

representaremos por (x(β ,θ) ,λ (β ,θ) ,µ (β ,θ)) a Φ(β ,θ) . Puesto que λ ∗i > 0, para todo i ∈

I (x∗) , y gi (x∗) < 0, para todo i /∈ I (x∗) , puede tomarse W suficientemente pequeno para garantizar

λ ∗i (β ,θ) > 0, i ∈ I (x∗) (y por tanto gi (x(β ,θ)) = βi), y gi (x(β ,θ)) < βi, si i /∈ I (x∗) , y por tanto

λ ∗i (β ,θ) = 0, i /∈ I (x∗) .

De este modo aseguramos que (D.6) tambien se cumple, y entonces (x(β ,θ) ,λ (β ,θ) ,µ (β ,θ))verifica las condiciones de KKT para el problema (P(β ,θ)) .

Asimismo, como consecuencia de la continuidad de Φ, puede probarse que el punto (x(β ,θ) ,λ (β ,θ) ,µ (β ,θsigue verificando la condicion de optimalidad suficiente presentada en el Teorema 64.

En lo que sigue, ∇x(β ,θ) representara a la matriz, de orden (m+ p)× n, que tiene en su i-

esima columna ∇(x∗i (β ,θ)) , i = 1, ...,n, y ∇β x(β ,θ) y ∇θ x(β ,θ) las matrices que contienen por

columnas los grandientes de cada x∗i (β ,θ) con respecto a β y θ , respectivamente.

Finalmente, aplicando la regla de la cadena concluiremos que

∇(β ,θ ) f (x(β ,θ))∣∣(β ,θ )=0m+p

=

(−λ ∗

−µ∗

).

81

Page 86: Apuntes (Curso-09-10)

En efecto, de la regla de la cadena obtenemos que ∇(β ,θ ) f (x(β ,θ))∣∣(β ,θ )=0m+p

= ∇x(0m+p)∇ f (x∗) .

Por otro lado, tenıamos que ∇ f (x∗) = −(∇g(x∗)λ ∗ +∇h(x∗)µ∗) . Veamos,

∇x(0m+p)∇g(x∗)λ ∗ =

(λ ∗

0p

), y (D.7)

∇x(0m+p)∇h(x∗)µ∗ =

(0m

µ∗

), (D.8)

y entonces habremos probado que

∇(β ,θ ) f (x(β ,θ))∣∣(β ,θ )=0m+p

= −∇x(0m+p)(∇g(x∗)λ ∗ +∇h(x∗)µ∗) =

(−λ ∗

−µ∗

).

Resta entonces probar (D.7) y (D.8). Comenzaremos estableciendo (D.7) ; esto es

∇β x(0m+p)∇g(x∗)λ ∗ = λ ∗, y

∇θ x(0m+p)∇g(x∗)λ ∗ = 0p,

donde se ha considerado la particion ∇x(0m+p) =

(∇β x(0m+p)

∇θ x(0m+p)

). Obtendremos dichas desigual-

dades derivando respecto de βi y respecto de θ j en el sistema proporcionado por las condiciones

de complementariedad

{λk (β ,θ)(gk (x(β ,θ))−βk) = 0, k = 1, ...,m}.

En efecto, si derivamos en cada una de las ecuaciones respecto de βi, sustituimos en el punto

(β ,θ) = 0m+p y luego sumamos, obtenemos

m

∑k=1

{(∂λk (β ,θ)

∂βi

∣∣∣∣(β ,θ )=0m+p

)gk (x∗)+λ ∗

k

(∂x(β ,θ)

∂βi

∣∣∣∣(β ,θ )=0m+p

)∇gk (x∗)−δik

}

=m

∑k=1

{λ ∗

k

(∂x(β ,θ)

∂βi

∣∣∣∣(β ,θ )=0m+p

)∇gk (x∗)

}−λ ∗

i = 0,

donde δik := 1, i = k, δik := 0, i 6= k (obervese que

(∂λk(β ,θ )

∂βi

∣∣∣(β ,θ )=0m+p

)gk (x∗) = 0, para todo

k, pues lo es trivialmente si k ∈ I (x∗) , y por otro lado, si k /∈ I (x∗) , entonces λk (β ,θ) es cons-

tantemente nulo en un entorno de 0m+p). Hemos probado ası que la coordenada (fila) i-esima de

∇β x(0m+p)∇g(x∗)λ ∗ coincide con λ ∗i , para todo i, y por tanto ∇β x(0m+p)∇g(x∗)λ ∗ = λ ∗.

Por otro lado, derivando en el mismo sistema anterior con respecto a θ j, evaluando esta deri-

vada en (β ,θ) = 0m+p, y sumando obtenemos:

m

∑k=1

{(∂λk (β ,θ)

∂θ j

∣∣∣∣(β ,θ )=0m+p

)gk (x∗)+λ ∗

k

(∂x(β ,θ)

∂θ j

∣∣∣∣(β ,θ )=0m+p

)∇gk (x∗)

}

=m

∑k=1

{λ ∗

k

(∂x(β ,θ)

∂θ j

∣∣∣∣(β ,θ )=0m+p

)∇gk (x∗)

}= 0.

Y por tanto ∇θ x(0m+p)∇g(x∗)λ ∗ = 0p.La igualdad indicada en (D.8) se deduce de h(x(β ,θ)) = θ , para todo (β ,θ) ∈ W, puesto

que ∇(β ,θ )h(x(β ,θ))∣∣(β ,θ )=0m+p

= ∇x(0m+p)∇h(x∗) =(

0m×p

Ip

). Ası pues, ∇x(0m+p)∇h(x∗)µ∗ =

(0m

µ∗).

82

Page 87: Apuntes (Curso-09-10)

14. Metodos de penalizacion

Sea el problema de optimizacion con una unica restriccion

(P)

{mın f (x)

s.a. h(x) = 0.

Supongamos que este problema se reemplaza por el siguiente problema irrestringido, donde

c > 0 es un numero suficientemente grande,

(Pc)

{mın { f (x)+ ch2(x)}

x ∈ Rn.

Intuitivamente vemos que una solucion x∗ al problema anterior tiene que ser tal que h(x∗)sea proximo a cero (de no ser ası, una pequena disminucion en el valor de h(x∗) producirıa un

decrecimiento de la penalizacion que compensarıa cualquier posible aumento de f (x)).Consideremos, ahora, el problema con una unica restriccion en forma de desigualdad

(P)

{mın f (x)

s.a. g(x) ≤ 0.

Es claro que el termino cg2(x) no constituira una penalizacion adecuada puesto que ‘casti-

gara’ a aquellos puntos factibles que satisfagan g(x) < 0. Una posibilidad razonable consiste en

reemplazar (P) por el problema

mınx∈Rn

f (x)+ cmax{0,g(x)}︸ ︷︷ ︸

≡g+(x)

. (135)

Una dificultad asociada con la penalizacion introducida en (135) estriba en que la funcion

g+(x) = max{0,g(x)} puede no ser diferenciable en los puntos x tales que g(x) = 0. Una alternativa

serıa considerar la penalizacion c(g+(x))2, cuya derivada en cualquier x ∈ R

n es

2cg+(x)g′(x).

En general una funcion de penalizacion adecuada tiene que producir una penalizacion positiva

en los puntos infactibles, y ninguna penalizacion en los puntos factibles. Si las restricciones son

de la forma hi(x) = 0, i = 1, . . . ,m, g j(x) ≤ 0, j = 1, . . . ,r, entonces una funcion de penalizacion

adecuada serıa

α(x) :=m

∑i=1

ψ (hi(x))+r

∑j=1

φ(g j(x)

), (136)

donde ψ y φ son funciones continuas que satisfacen las condiciones

ψ(y) = 0 si y = 0, y ψ(y) > 0 si y 6= 0;

φ(y) = 0 si y ≤ 0, y φ(y) > 0 si y > 0. (137)

Tıpicamente, ψ y φ son de la forma

ψ(y) = |y|p

φ(y) = (max{0,y})p =(y+)p

,

83

Page 88: Apuntes (Curso-09-10)

donde p es un entero positivo. Ası pues, una funcion de penalizacion usual es la siguiente

α(x) =m

∑i=1

|hi(x)|p +r

∑j=1

(g+

j (x))p

.

Ejemplo 66. Consideremos el problema siguiente:

mınx

s.a. − x+2 ≤ 0.

Sea α(x) = [g+(x)]2, es decir,

α(x) =

{0, si x ≥ 2,

(−x+2)2 , si x < 2.

El mınimo de f + cα se alcanza en 2− 12c

, que tiende al mınimo del problema original x∗ = 2

cuando c → ∞.

Ejemplo 67. Sea el problema

mın x21 + x2

2

s.a. x1 + x2 −1 = 0.

La unica solucion optima de este problema es x∗ =(

12, 1

2

)T, con valor asociado de la funcion

objetivo de 12.

Ahora consideraremos el siguiente problema de penalizacion, con c > 0,

mın {x21 + x2

2 + c(x1 + x2 −1)2}s.a. x = (x1,x2)

T ∈ R2.

Puesto que la funcion objetivo de este problema es convexa, cualquiera que sea c ≥ 0, una condi-

cion necesaria y suficiente de optimalidad es que su gradiente se anule, es decir:

x1 + c(x1 + x2 −1) = 0,

x2 + c(x1 + x2 −1) = 0.

Resolviendo este sistema obtenemos x1 = x2 = c1+2c

, siendo evidente que la (unica) solucion opti-

ma del problema de penalizacion se aproxima a la solucion optima del problema original a medida

que c → ∞.

14.1. Metodos que utilizan funciones de penalizacion exteriores

Nuestro problema es

(P) mın { f (x), s.a. h(x) = 0m, g(x) ≤ 0p}.De momento exigiremos solamente que las funciones involucradas

(f ,hi,g j

)sean continuas. Al

problema (P) le llamaremos primal.

Sea α una funcion continua de la forma que satisfaga las propiedades (137). El metodo basico

de penalizacion intentarıa resolver el problema dual

(D) max {θ(µ), s.a. µ ≥ 0},donde

84

Page 89: Apuntes (Curso-09-10)

θ(µ) := ınf{ f (x)+ µα(x) : x ∈ Rn} .

El teorema fundamental, que probaremos mas abajo, establece que

ınf{

f (x)| x ∈ Rn, h(x) = 0m, g(x) ≤ 0p

}= sup

µ≥0

θ(µ) = lımµ→∞

θ(µ).

La principal consecuencia de este resultado, es que el valor optimo ’primal’ se puede aproxi-

mar, tanto como se quiera, calculando θ(µ) con µ suficientemente grande. La desventaja de este

tipo de procedimientos es que si xµ es solucion optima del problema con valor optimo θ(µ), xµ

no sera en general ’factible’ para (P). Por esta razon, hemos denominado a estas funciones de

penalizacion exterior.

El teorema fundamental al que nos acabamos de referir se basa en el siguiente lema:

Lema 68. Sean f , h1, . . . ,hm, g1, . . . ,gp funciones continuas (en Rn), y sea α una funcion de

penalizacion (continua), del tipo definido en (136) y (137). Supongamos que, para cada µ > 0,

existe xµ tal que

θ(µ) = f (xµ)+ µα(xµ).

Entonces si representamos por v(P) y v(D) los correspondientes valores optimos de los problemas

duales considerados; es decir, si

v(P) : = ınf{

f (x) : h(x) = 0m, g(x) ≤ 0p

},

v(D) : = sup{θ(µ) : µ ≥ 0} ,

se verifican las proposiciones siguientes:

(1) v(P) ≥ v(D) (desigualdad dual debil);

(2) f (xµ) y θ(µ) son funciones no-decrecientes de µ , y α(xµ) es una funcion no-creciente de

µ .

Demostracion. Sea x ∈ Rn, tal que h(x) = 0m y g(x) ≤ 0p. Obviamente, para este vector x se

verifica α(x) = 0. Cualquiera que sea µ ≥ 0

f (x) ≡ f (x)+ µα(x) ≥ ınf{ f (y)+ µα(y) | y ∈ Rn} ≡ θ(µ),

y por lo tanto,

f (x) ≥ supµ≥0

θ(µ) ≡ v(D).

Como la desigualdad ultima se verifica para todo x factible de (P), tomando ınfimos se deduce

v(P) ≥ v(D), con lo que queda probado (1).

Vamos ahora a probar (2). Sean 0 < λ < µ , y consideremos la definicion de θ(µ) y de xµ . Se

cumplira:

f (xµ)+λα(xµ) ≥ θ(λ ) ≡ f (xλ )+λα(xλ ), (138)

f (xλ )+ µα(xλ ) ≥ θ(µ) ≡ f (xµ)+ µα(xµ). (139)

Sumando estas desigualdades resulta:

(µ −λ )[α(xλ )−α(xµ)

]≥ 0.

85

Page 90: Apuntes (Curso-09-10)

Puesto que µ > λ , tendra que ser

α(xλ ) ≥ α(xµ),

y α(xµ) ciertamente es una funcion no-creciente de µ .

Sumando y restando µα(xµ) al miembro de la izquierda de (139) se obtiene:

θ(µ)+(λ −µ)α(xµ) = f (xµ)+ µα(xµ)+(λ −µ)α(xµ ) ≥ θ(λ ).

Puesto que µ > λ y α(xµ) ≥ 0, se deduce que θ(µ) ≥ θ(λ ), y θ es no-decreciente.

Finalmente, queda por demostrar f (xµ) ≥ f (xλ ). De no ser ası, se tendrıa f (xµ) < f (xλ ) y

f (xµ)+λα(xµ) < f (xλ )+λα(xµ) ≤ f (xλ )+λα(xλ ),

que contradice (138).

Proposicion 69. Sean (P) y (D) los problemas duales definidos mas arriba, y supongamos que se

verifican las mismas condiciones que en el ultimo lema, ası como que{

xµ : µ ≥ 0}

esta contenido

en un compacto X. Entonces:

(a) v(P) = v(D) (igualdad dual);

(b) v(D) = lımµ↑∞ θ(µ);(c) Cualquier punto de acumulacion de la sucesion xµk

, con µk ↑ ∞, sera solucion optima de

(P), y µkα(xµk) → 0 cuando k → ∞.

Demostracion. (b) Como θ(µ) es no-decreciente

v(D) = supµ≥0

θ(µ) = lımµ↑∞

θ(µ).

(a) Probemos, en primer lugar, que

lımµ→∞

α(xµ) = 0. (140)

Sea y una solucion factible de (P), y sea ε > 0. De acuerdo con nuestra notacion x1 sera un punto

tal que

θ(1) = f (x1)+α(x1).

Sea ahora cualquier µ tal que

µ ≥ 1

ε| f (y)− f (x1)|+2.

Como µ ≥ 2 > 1, se tendra f (xµ) ≥ f (x1), por (2) en el lema previo. Ahora probaremos que

α(xµ) < ε , y ello ciertamente conlleva que lımµ→∞ α(xµ) = 0.

Razonando por reduccion al absurdo, si fuese α(xµ) ≥ ε ,

v(P) ≥ v(D) ≥ θ(µ) = f (xµ)+ µα(xµ)

≥ f (x1)+ µα(xµ) ≥ f (x1)+ | f (y)− f (x1)|+2ε

≥ f (x1)+ f (y)− f (x1)+2ε > f (y).

La desigualdad v(P) > f (y) es imposible, puesto que y is factible para (P).Sea x∗ un punto de acumulacion de

{xµk

}, con µk ↑ ∞ (existira por la hipotesis de que dicho

conjunto esta contenido en un compacto). Sin perdida de generalidad, escribiremos lımk→∞ xµk=

x∗. Entonces:

v(D) = supµ≥0

θ(µ) ≥ θ(µk) = f (xµk)+ µkα(xµk

) ≥ f (xµk).

86

Page 91: Apuntes (Curso-09-10)

Puesto que xµk→ x∗, y f es continua, tomando lımites en la ultima desigualdad:

v(D) ≥ lımk→∞

f (xµk) = f (x∗). (141)

Puesto que µk ↑ ∞, por (140) se tiene

lımk→∞

α(xµk) = 0 = α(x∗).

Por lo tanto, x∗ es factible para (P), y (141) implica (a).

(c) Finalmente, observemos que

µkα(xµk) = θ(µk)− f (xµk

), (142)

y cuando k → ∞, lımk→∞ θ(µk) = v(D), mientras que lımk→∞ f (xµk) = f (x∗) = v(P) = v(D). De

(142) se desprende

lımk→∞

µkα(xµk) = 0.

Corolario 70. Si α(xµ) = 0 para algun µ , entonces xµ es solucion optima del problema (P).

Demostracion. Si α(xµ) = 0, entonces xµ es factible para (P). Ademas se tiene

v(P) ≥ θ(µ) = f (xµ)+ µα(xµ) = f (xµ),

de donde se sigue que xµ es optima para (P), y v(P) = v(D) = f (xµ).A partir de la proposicion anterior se sigue que la solucion optima xµ al problema de minimizar

f (x)+ µα(x), x ∈ Rn, puede hacerse arbitrariamente proxima a una solucion optima del proble-

ma original sin mas que tomar µ sufientemente grande. Ello motiva un esquema de algoritmo

consistente en resolver una sucesion de problemas de la forma

mın{ f (x)+ µkα(x) | x ∈ Rn} ,

para una sucesion de valores del parametro {µk} que tienda a +∞.

Bajo ciertas condiciones pueden usarse las soluciones a la sucesion de ’problemas penalizados’

para recuperar los multiplicadores de KKT (Karush-Kuhn-Tucker) asociados con las restricciones

del problema original

(P) mın { f (x), s.a. h(x) = 0m, g(x) ≤ 0p}.

Asumamos que la funcion de penalizacion α(.) es la introducida en (136) y (137) y que, adi-

cionalmente, ψ y φ son continuamente diferenciables, con φ ′(y) ≥ 0 para todo y, y φ ′(y) = 0 para

y ≤ 0. Asumamos, tambien, que las condiciones de la proposicion anterior se satisfacen. Puesto

que xµ resuelve el problema de minimizar f (x) + µα(x) el gradiente de esta funcion tiene que

anularse en xµ , esto es:

∇ f (xµ)+m

∑i=1

µψ ′(hi(xµ))∇hi(xµ)+p

∑j=1

µφ ′(g j(xµ))∇g j(xµ) = 0n. (143)

Ahora sea x∗ un punto de acumulacion de la sucesion{

xµk

}, con µk → ∞ a medida que k → ∞. Sin

perdida de generalidad, escribiremos,

87

Page 92: Apuntes (Curso-09-10)

lımk→∞

xµk= x∗.

Recordando que I(x∗) ={

j| g j(x∗) = 0

}, si j /∈ I(x∗) se tendra g j(x

∗) < 0, y para k suficientemente

grande g j(xµk) < 0, lo que a su vez entrana µkφ ′(g j(xµk

)) = 0, por la hipotesis adicional que se ha

hecho en relacion con φ ′.Ahora (143), con µ = µk, podra reescribirse como:

0n = ∇ f (xµk)+

m

∑i=1

(vik)∇hi(xµk

)+ ∑j∈I(x∗)

(ujk)∇g j(xµk

),

donde vk y uk son vectores con componentes

vik : = µkψ ′(hi(xµk

)), i = 1, . . . ,m, (144)

ujk : = µkφ ′(g j(xµk

)) ≥ 0, j ∈ I(x∗). (145)

Si x∗ es un punto regular, existiran unos multiplicadores ’unicos’ λ ∗i con i = 1, . . . ,m, µ∗

j ≥ 0 con

j ∈ I(x∗), tales que:

0n = ∇ f (x∗)+m

∑i=1

λ ∗i ∇hi(x

∗)+ ∑j∈I(x∗)

µ∗j ∇g j(x

∗).

Puesto que todas las funciones involucradas ( f ,hi,g j,ψ,φ) son continuamente diferenciables, y

xµk→ x∗, a partir de las ultimas igualdades se deduce que:

λ ∗i = lım

k→∞µkψ ′(hi(xµk

)), i = 1, . . . ,m

µ∗j = lım

k→∞µkφ ′(g j(xµk

)), j ∈ I(x∗).

Por lo tanto, para k suficientemente grande, los multiplicadores dados en (144) y (145) pueden ser

usados para estimar los multiplicadores de KKT en el punto optimo x∗. Por ejemplo, si α es la

funcion de penalizacion cuadratica dada por

α(x) =m

∑i=1

h2i (x)+

p

∑j=1

(g′j(x))2,

es decir

ψ(y) = y2 ⇒ ψ ′(y) = 2y,

φ(y) = (y+)2 ⇒ φ ′(y) = 2y+,

entonces

λ ∗i = lım

k→∞2µkhi(xµk

), i = 1, . . . ,m

µ∗j = lım

k→∞2µkg+

j (xµk), j ∈ I(x∗).

88

Page 93: Apuntes (Curso-09-10)

En particular, observemos que si µ∗j > 0, para un cierto j ∈ I(x∗) entonces g′j(xµk

) > 0 para k

suficientemente grande, lo que significa que la restriccion g j(x) ≤ 0 es violada a lo largo de la

trayectoria que conduce a x∗, y necesariamente:

lımk→∞

g j(xµk) = g j(x

∗) = 0,

porque x∗ si es factible, y por tanto g j(x∗) ≤ 0.

Extendiendo este argumento, si µ∗j > 0, ∀ j ∈ I(x∗), y λ ∗

i 6= 0, con i = 1, . . . ,m, concluiremos

que todas las restricciones de (P) son violadas en los puntos xµkde la trayectoria (¡de la parte

final!).

Ejemplo 71. (revisitado) Recordemos que

xµk=

µk

2µk +1(1,1)T ,

con lo que calculamos

h(xµk) = − 1

2µk +1,

por lo que

vk = 2µkh(xµk) = − 2µk

2µk +1.

Tomando lımites:

λ ∗ = lımk→∞

vk = −1,

que es el multiplicador de Lagrange asociado a la solucion optima:

x∗ = lımk→∞

xµk=

1

2(1,1)T .

89

Page 94: Apuntes (Curso-09-10)

15. Apendice

15.1. Numero de condicion

Antes de nada, recordemos algunas nociones acerca del numero de condicion y la norma de

una matriz An×n cualquiera. Dada una norma ‖ · ‖ en Rn, su norma matricial inducida se define

como

‖A‖ = max‖x‖=1

‖Ax‖.

El numero de condicion con respecto a una norma matricial ‖ · ‖ se define como

cond(A) = ‖A‖‖A−1‖,

si A es regular; y cond(A) = +∞ si A es singular. El numero de condicion tiene las siguientes

propiedades, entre otras:

cond(A) ≥ 1, ya que ‖A‖‖A−1‖ ≥ ‖A ·A−1‖ = ‖I‖ = 1.

cond(A) = cond(A−1).

cond(λA) = cond(A), para todo λ 6= 0.

Matrices con un numero de condicion cercano a 1 se dice que estan bien condicionadas. En

caso contrario, si su numero de condicion es muy grande decimos que estan mal condicionadas.

El numero de condicion es una medida de la estabilidad o sensibilidad de una matriz (o del sis-

tema linear que representa) a operaciones numericas. Es decir, podemos decir que “desconfiamos”

en los resultados de computaciones con matrices mal condicionadas. Por ejemplo, supongamos

que tenemos un sistema Ax = b, con A ∈ Rn×n no singular y x es una solucion del sistema. Si

perturbamos A a A y b a b y x es la solucion del sistema perturbado Ax = b (suponiendo que A es

“todavıa” invertible), se tiene

‖x− x‖‖x‖ ≈ cond(A)

(‖A− A‖‖A‖ +

‖b− b‖‖b‖

),

(ver [9, Seccion 2.7, pags. 80-81]). Veamos un ejemplo de problema mal condicionado: el sistema[

1,00001 1

1 1

][x1

x2

]=

[2,00001

2

](146)

tiene como solucion (exacta) x = (1,1)T , pero si cambiamos el primer elemento de la derecha de

2,00001 a 2, la solucion cambia drasticamente a x = (0,2)T . Podemos comprobar que el numero de

condicion de la matriz del sistema (con la norma inducida por la norma euclıdea) es muy grande:

cond(A) ≈ 4 ·105.

La norma matricial consistente con la norma euclıdea de una matriz A viene dada por

‖A‖ =√

ρ(AT A),

donde ρ(AT A) es el radio espectral de la matriz AT A, cuyo valor es el maximo de los valores

propios de la matriz AT A. Si A es una matriz simetrica y λ1 ≤ . . . ≤ λn son sus valores propios

(reales), se tendra que

‖A‖ =√

ρ(A2) =√

max{|λ1|2, |λn|2} = max{|λ1|, |λn|}.

90

Page 95: Apuntes (Curso-09-10)

Obviamente, si A es simetrica y definida positiva, ‖A‖ = λn, y su numero de condicion sera

cond(A) = ‖A‖‖A−1‖ = λn ·1

λ1=

λn

λ1.

91

Page 96: Apuntes (Curso-09-10)

Bibliografıa

[1] J. ABADIE, On the Kuhn-Tucker Theorem, Nonlinear Programming, J. Abadie (Ed.), 1967.

[2] R. BARBOLLA, E. CERDA Y P. SANZ, Optimizacion Matematica: Teorıa, Ejemplos y Con-

traejemplos, Espasa Calpe, Madrid, 1991.

[3] M.S. BAZARAA, H.D. SHERALI Y C.M. SHETTY, Nonlinear Programming: Theory and

Algorithms, John Wiley & Sons, New York, 1993.

[4] D.P. BERTSEKAS, Nonlinear Programming, Athena Scientific, Belmont, Massachusetts,

1995.

[5] J.F. BONNANS, J.C. GILBERT, C. LEMARECHAL, C. SAGASTIZABAL, Numerical optimi-

zation: Theoretical and practical aspects, Universitext, Springer-Verlag, Berlin, 2003.

[6] R.W. COTTLE A Theorem of Fritz John in Mathematical Programming, RAND Corporation

Memo, RM-3858-PR, 1963.

[7] GY. FARKAS Theorie der einfachen Ungleichungen, J. Reine Angew. Math., 124, pp.1-27,

1901.

[8] R. FLETCHER, Practical Methods of Optimization (2nd ed.), John Wiley and Sons, New York,

1987.

[9] G.H. GOLUB, C.F. VAN LOAN, Matrix computations, Johns Hopkins University Press, Bal-

timore, MD, 1996.

[10] M. GUIGNARD, Generalized Kuhn-Tucker Conditions for Mathematical Programming Pro-

blems in a Banach Space, SIAM J. Control, 7, pp. 232-241, 1969.

[11] F. JOHN, Extremum Problems with Inequalities as Side Conditions, Studies and Essays,

Courant Anniversary Volume, K.O. Friedrichs, O.E. Neugebauer, and J.J. Stoker (Ed.), Wiley-

InTerscience, New York, 1948.

[12] H.W. KUHN Y A.W. TUCKER, Nonlinear programming, Proc. 2nd Berkeley Symposium

on Mathematical Statistics and Probability, J. Neyman (Ed.), University of California Press,

Berkeley, Calif., 1951.

[13] D.G. LUENBERGER, Programacion Lineal y No Lineal, Addison-Wesley Iberoamericana,

Mexico, 1989.

[14] O.L. MANGASARIAN Y S. FROMOVITZ, The Fritz-John Necessary Optimality Conditions

in the Presence of Equality and Inequality Constraints, J. Mathematical Analysis and Ap-

plications, 17, pp. 37–47, 1967.

[15] G.P. MCCORMICK, Nonlinear Programming: Theory, Algorithms and Applications, John

Wiley & Sons, New York, 1983.

[16] K. I. M. MCKINNON, Convergence of the Nelder–Mead Simplex Method to a Nonstationary

Point, SIAM J. on Optimization, 9 (1998), n.1, pp. 148–158.

92

Page 97: Apuntes (Curso-09-10)

[17] J. NOCEDAL, J. WRIGHT, Numerical Optimization, Springer Series in Operations Research,

Springer Verlag, New York, 1999.

[18] D.W. PETERSON, A review of constraint qualifications in finite-dimensional spaces, SIAM

Review, vol. 15 n.3, 1973.

[19] A. PREKOPA, On the development of optimization theory, American Mathematical Monthly,

87 (1980), pp. 527-542.

[20] R.T. ROCKAFELLAR, Convex Analysis, Princeton University Press, Princeton, NJ, 1970.

[21] Y.J. ZHU, Generalizations of some fundamental theorems on linear inequalities, Acta Math.

Sinica, 16 (1966), pp. 25-40.

93