de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de...

59
Universidad Politécnica de Madrid–Escuela Técnica Superior de Ingenieros Industriales Grado en Ingeniería en Tecnologías Industriales. Curso 2015-2016-3º Matemáticas de Especialidad–Ingeniería Eléctrica Definiciones, notación y proposiciones básicas de matemáticas José Luis de la Fuente O’Connor Profesor Titular [email protected] [email protected]

Transcript of de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de...

Page 1: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

Universidad Politécnica de Madrid–Escuela Técnica Superior de Ingenieros IndustrialesGrado en Ingeniería en Tecnologías Industriales. Curso 2015-2016-3º

Matemáticas de Especialidad–Ingeniería Eléctrica

Definiciones, notación yproposiciones básicas

de matemáticas

José Luis de la Fuente O’ConnorProfesor Titular

[email protected]@upm.es

Page 2: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

Índice1 Conjuntos 1

2 Espacios vectoriales 22.1 Espacios normados, espacios métricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42.2 Espacios con producto interior . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.3 Aplicaciones lineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3 Topología 9

4 Matrices 104.1 Normas de matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124.2 Matrices ortogonales, unitarias, simétricas, Hessenberg, de permutación y de proyección . . . 144.3 Valores propios, valores singulares y formas cuadráticas . . . . . . . . . . . . . . . . . . . . . 16

4.3.1 Valores propios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164.3.2 Valores singulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194.3.3 Formas cuadráticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

5 Teorema de la proyección 21

6 Funciones 236.1 Condiciones necesarias y suficientes de primer y segundo orden que ha de cumplir un punto

mínimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276.2 Teorema de la función implícita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

7 Optimización y Programación Matemática 287.1 Conjuntos convexos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287.2 Caracterización del problema de optimización y condiciones de punto óptimo . . . . . . . . . 367.3 Dualidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

7.3.1 Dualidad Lagrangiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427.3.2 Dualidad de Wolfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437.3.3 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales 438.1 Solución de una ecuación en derivadas parciales . . . . . . . . . . . . . . . . . . . . . . . . . 46

8.1.1 El problema en forma débil o variacional . . . . . . . . . . . . . . . . . . . . . . . . 468.1.2 Espacios de trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 488.1.3 Discretización del problema en un subespacio de elementos finitos lineales . . . . . . 498.1.4 Reformulación del problema como un sistema de ecuaciones lineales . . . . . . . . . 51

8.2 Algo sobre funcionales y cálculo de variaciones . . . . . . . . . . . . . . . . . . . . . . . . . 538.2.1 Proposiciones esenciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

9 Bibliografía 57

Page 3: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

1 Conjuntos

E N ESTE TEXTO DE INTRODUCCIÓN a la asignatura Matemáticas de la Especialidad–IngenieríaEléctrica se recopilan conceptos, definiciones, relaciones y resultados básicos de matemáticas quepueden ser útiles para seguir su desarrollo de manera provechosa. Prácticamente todos se han estudia-

do en otras asignaturas de cursos anteriores a aquél en el que se imparte ésta. En ningún caso es un exhaustivorecordatorio de las matemáticas que debe conocer un ingeniero industrial. También se introduce una notaciónque, de forma uniforme, trataremos de usar en todas las lecciones y presentaciones que explicaremos y enseña-remos en las clases.

1 Conjuntos

L AS MATEMÁTICAS MODERNAS tienen mucho que ver con los conjuntos. Un conjunto es una co-lección de objetos: los números naturales, las soluciones de un problema determinado, los municipiosde una provincia, etc. Se identifica por una letra mayúscula: el conjunto S , el conjunto de los números

naturales N, el de los enteros Z, el de los reales R, complejos C, racionales Q, etc.Cada uno de los objetos en la colección es un elemento o miembro del conjunto. Si un elemento a pertenece aun conjunto se indica a 2 S . Los conjuntos se definen mediante la enumeración entre llaves de sus elementos,S D fa; b; : : : g, o especificando, también entre llaves, la propiedad que los caracteriza, S D fx W x 2 R; x 2g: números reales menores o iguales que dos.El conjunto sin elementos se denomina vacío, designándose ;. Ejemplo: el conjunto S de los números reales xque son mayores que 1 y menores que 0: esto es, S D fx 2 R W x > 1; x < 0g.Si S y S 0 son dos conjuntos y todos los elementos del conjunto S 0 lo son de S , se dice que S 0 es un subconjuntodel conjunto S , o que está contenido en S 0, expresándose S 0 S o S S 0.La unión de dos conjuntos S y T , expresada S [ T , es el conjunto formado por los elementos que pertenecena S o a T .La intersección de S y T , expresada S \ T , es el conjunto formado por los elementos que pertenecen a S y aT .Si S 0 es un subconjunto de S , el complemento de S 0 en S es el conjunto formado por los elementos de S queno pertenecen a S 0.Si a y b son números reales, y a b, el conjunto de números x de la recta real tales que a x b se indicaŒa; b. El formado por los x tales que a < x b, por .a; b. El de los x que verifican que a < x < b, por.a; b/.Si S es un conjunto no vacío de números reales acotados superiormente —mayorados—, existe un número realmínimo y tal que x y para todo x 2 S . Al número y se le denomina cota superior mínima o supremo de S ;se expresa así:

supx2S

.x/ o sup fx W x 2 Sg :

De forma similar se define la cota inferior máxima —o ínfimo— de un conjunto S no vacío de números realesacotados inferiormente o minorados:

Kınfx2S .x/ o Kınf fx W x 2 Sg :

Dados dos conjuntos S y T , una aplicación, transformación o mapeo f de S en T , expresada como f W S !T , es una asociación o criterio que a cada elemento de S hace corresponder uno de T .La imagen de un elemento x 2 S con la aplicación f W S ! T es el elemento f .x/ 2 T . El conjunto imagenf .S/ = ff .x/ 2 T; para todo x 2 Sg. La imagen de un subconjunto S 0 S con la aplicación f sería, porconsiguiente, el subconjunto imagen f .S 0/. El conjunto S se conoce como origen o dominio de definición y elT como dominio de valores. Una aplicación f W S ! T se dice inyectiva si para cualquier par de elementosx; y 2 S , x ¤ y, se cumple que f .x/ ¤ f .y/. Ejemplo, la aplicación f W R ! R, definida por f .x/ D x2,no es inyectiva, pues f .1/ D f .1/ D 1.Una función es un caso particular de aplicación en donde los conjuntos origen e imagen son conjuntos denúmeros: R, C, Z, N, etc.

1

Page 4: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

2 Espacios vectoriales

Una aplicación f W S ! T se dice suprayectiva —sobreyectiva, epiyectiva, suryectiva o exhaustiva— si elconjunto imagen f .S/ es igual a todo el conjunto T ; es decir, para todo y 2 T existe un x 2 S tal quef .x/ D y.Una aplicación se dice biyectiva si es inyectiva y suprayectiva. Ejemplo, si Jn es el conjunto de los númerosenteros de 1 a n, Jn D f1; : : : ; ng, y se define una aplicación W Jn ! Jn que modifica el orden de disposiciónde los elementos de Jn —estas aplicaciones se denominan permutaciones—, tal aplicación es biyectiva.Un conjunto S se dice numerable si existe una biyección entre N y S : a cada unos de los n elementos k,1 k n, se le asocia un elemento ak 2 S , esto es: k 7! ak .Una sucesión de elementos de un conjunto T es una aplicación de N en T : a cada elemento n 1 se le hacecorresponder un x.n/ 2 T : n 7! x.n/. Tal sucesión se expresa como fx.1/; x.2/; : : : g o fx.n/gn1.Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación, divisióno cualquier otra—, se dice que poseen una estructura. Las estructuras algebraicas fundamentales son grupo,anillo (Z por ejemplo), cuerpo (R y C, por ejemplo) y espacio vectorial.

La imagen de un elemento x 2 S con la aplicación f W S ! T es el elemento f .x/ 2 T . Elconjunto imagen f .S/ = ff .x/ 2 T; para todo x 2 Sg. La imagen de un subconjunto S 0 S conla aplicación f sería, por consiguiente, el subconjunto imagen f .S 0/. El conjunto S se conoce comoorigen o dominio de definición y el T como dominio de valores. Una aplicación f W S ! T se diceinyectiva si para cualquier par de elementos x; y 2 S , x ¤ y, se cumple que f .x/ ¤ f .y/. Ejemplo,la aplicación f W R! R, definida por f .x/ D x2, no es inyectiva, pues f .1/ D f .1/ D 1.

Una función es un caso particular de aplicación en donde los conjuntos origen e imagen son con-juntos de números: R, C, Z, N, etc.

Una aplicación f W S ! T se dice suprayectiva —sobreyectiva, epiyectiva, suryectiva o exhaustiva—si el conjunto imagen f .S/ es igual a todo el conjunto T ; es decir, para todo y 2 T existe un x 2 Stal que f .x/ D y.

Una aplicación se dice biyectiva si es inyectiva y suprayectiva. Ejemplo, si Jn es el conjunto de losnúmeros enteros de 1 a n, Jn D f1; : : : ; ng, y se define una aplicación W Jn ! Jn que modifica elorden de disposición de los elementos de Jn —estas aplicaciones se denominan permutaciones—, talaplicación es biyectiva.

Un conjunto S se dice numerable si existe una biyección entre N y S : a cada unos de los n elemen-tos k, 1 k n, se le asocia un elemento ak 2 S , esto es: k 7! ak.

Una sucesión de elementos de un conjunto T es una aplicación de N en T : a cada elemento n 1se le hace corresponder un x.n/ 2 T : n 7! x.n/. Tal sucesión se expresa como fx.1/; x.2/; : : : g ofx.n/gn1.

Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplica-ción, división o cualquier otra—, se dice que poseen una estructura. Las estructuras fundamentalesson: grupo, anillo (Z por ejemplo), cuerpo (R y C, por ejemplo) y espacio vectorial.

RCQ

ZN

42 Espacios vectoriales

U N espacio vectorialE es una estructura algebraica creada a partir de un conjunto no vacío, una ley decomposición interna, adición, definida para los elementos del conjunto con la siguientes propiedades—grupo conmutativo—,

x C y D y C x.x C y/C z D x C .y C z/

x C ø D xx C .x/ D ø,

y una ley de composición externa, producto por un escalar, definida entre dicho conjunto y otro conjunto, K,con estructura de cuerpo, con las siguientes propiedades,

1 x D x˛.ˇx/ D .˛ˇ/x

.˛ C ˇ/x D ˛x C ˇx˛.x C y/ D ˛x C ˛y;

válidas cualesquiera que sean x; y; z en E y ˛; ˇ en K. A ø se le denomina elemento neutro y a x el opuestode x. Es usual denominar vectores a los elementos de E y escalares a los de K. En las aplicaciones que seestudian en la asignatura los casos más importantes ocurren cuando K D R o K D C. Con la notación Kdesignaremos a cualquiera de los cuerpos R o C y por x un vector cualquiera de un espacio vectorial.El paradigma de espacio vectorial lo constituye el formado por sucesiones ordenadas de n elementos cuales-quiera de K, o n-uplas x D Œx1; : : : ; xn, definiendo la suma de vectores mediante

Œx1; : : : ; xnC Œy1; : : : ; yn D Œx1 C y1; : : : ; xn C yn

2

Page 5: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

2 Espacios vectoriales

y el producto por un escalar mediante

˛Œx1; : : : ; xn D Œ˛x1; : : : ; ˛xn :

Si los elementos están definidos en R, el espacio vectorial se denomina Rn, si lo están en C, el espacio vectoriales Cn. Si Rn es un conjunto abierto de Rn, el conjunto de todas las funciones continuas en forman unespacio vectorial lineal C./ en Rn con las operaciones suma y producto por un escalar,

.f C g/.x/ D f .x/C g.x/; x 2 . f /.x/ D f .x/; x 2 :

Mediante C./ se designa el espacio vectorial lineal de las funciones continuas en el conjunto cerrado .Este último espacio, y C./, son una variedad de espacio vectorial denominada espacio funcional pues suselementos son funciones en vez de vectores propiamente dichos. Cualquier función continua en C./ es clara-mente continua en C./. Igualmente, si f 2 C./ es continua en y está acotado, la función f se puedesuponer continua también en @, la frontera o borde de , y entenderse que es continua por tanto en C./ ypertenece a dicho conjunto. Recordemos también que f se supone continua (o uniformemente continua) en si para cualquier " > 0 existe un ı D ı.f; "/ > 0 tal que jf .x/ f .y/j < ", cualesquiera sean x;y 2 conkx yk < ı.Otro espacio vectorial interesante es Cm./, el de funciones continuas con derivadas parciales continuas hastaorden m en , o Cm./ en . También Cp.2/, de funciones continuas periódicas-2 , es decir, funcionesf 2 C.1;1/ tales que f .x C 2/ D f .x/, 1 < x <1. O C kp .2/ de funciones continuas periódicas-2 con derivadas continuas hasta orden k. Alguna vez se indica C 0p .2/ para referirse a Cp.2/.Otros espacios vectoriales habituales son Pn, de polinomios de grado n, pn.x/ D

PnkD0 akxk , con coeficientes

ak reales o complejos.El conjunto L1Œa; b de todas las funciones del cuerpo de los números reales cuyo valor absoluto es integrableen el intervalo Œa; b es un espacio vectorial funcional. También lo esL2Œa; b, el conjunto de todas las funcionesreales al cuadrado integrables en Œa; b. Es de destacar que en ambos casos estas funciones no tienen por queser continuas en ese intervalo.Un subespacio vectorial M de un espacio vectorial E sobre un cuerpo K es un subconjunto no vacío que esun espacio vectorial sobre K. Es decir, es cerrado respecto de las operaciones de adición y producto por unescalar: que cumple que

8x;y 2M H) x C y 2M;8x 2M y 8 2 K H) x 2M:

La intersección de una familia cualquiera de subespacios de E es también un subespacio.Si X es un subconjunto cualquiera de E el subespacio GenfXg, generado o engendrado por X , es la intersec-ción se todos los subespacios que contienen aX . Cuando GenfXg D E, se dice queX es una parte generadorade E.Dados vectores x1; : : : ;xn y escalares 1; : : : ; n, el vector formado según la expresión

x D 1x1 C C nxnse dice que es una combinación lineal de los vectores x1; : : : ;xn de coeficientes 1; : : : ; n. Un subconjuntoX de E es un subespacio si y sólo si contiene a cualquier combinación lineal de cualquier subconjunto finitode vectores de X . También se demuestra que el subespacio GenfXg es el conjunto de todas las combinacioneslineales de vectores de X .Un conjunto de vectores x1;x2; : : : ;xk se dicen linealmente dependientes si existen escalares i , no todoscero, tales que

PkiD1 ixi D 0 ; linealmente independientes, si

kXiD1

ixi D 0 H) i D 0; 0 i k :

3

Page 6: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

2 Espacios vectoriales

Una parte X de un espacio vectorial E se dice que es una familia libre si los vectores de cualquier subconjuntofinito de X son linealmente independientes.La dimensión de un subespacio es el máximo número de vectores linealmente independientes en el subespacio.Una base de un espacio vectorial E es cualquier subconjunto B de E que sea, simultáneamente, una partelibre y generadora de E; dicho de otra forma, una base de un espacio vectorial es un conjunto —normalmentese supone ordenado (numerado)— de vectores linealmente independientes que generan (o engendran) dichoespacio. Se demuestra que cualquier espacio vectorial tiene una base y que todas las bases de un mismo espaciotienen la misma cardinalidad —se pueden poner en biyección—. Cuando el cardinal de las bases es un númeronatural, n 2 N, se dice que el espacio es de dimensión finita n. En un espacio vectorial Kn,

e1 D

2666664

1

0:::

0

3777775; e2 D

2666664

0

1:::

0

3777775; : : : ; en D

2666664

0

0:::

1

3777775;

forman una base en dicho espacio; éste, por tanto, tiene dimensión n. Esta base se denomina base canónica obase estándar de Kn. En esta base, cualquier vector xT D Œx1; x2; : : : ; xn se puede expresar de la siguienteforma: 2

666664

x1

x2:::

xn

3777775D x1

2666664

1

0:::

0

3777775C x2

2666664

0

1:::

0

3777775C C xn

2666664

0

0:::

1

3777775:

Es decir Rn D Genfe1; : : : ; eng. La base estándar de Pn es S D f1; t; t2; : : : ; tng.Si A y B son subconjuntos de un espacio vectorial E, el conjunto AC B se define como:

AC B D faC b W a 2 A; b 2 Bg :Cuando A y B son subespacios, también lo es la suma A C B . Si además A \ B D ;, la suma se denominadirecta, escribiéndose A˚ B . Si A˚ B D E, cualquier vector c 2 E se descompone de manera única comoc D aC b, con a 2 A y b 2 B; también se dice que A y B son subespacios suplementarios.

2.1 Espacios normados, espacios métricos

Si en un espacio vectorial E sobre K (R o C) se define una norma vectorial como una aplicación k k W E ! R

que verificakvk D 0 H) v D 0 y x ¤ 0 H) kxk > 0;k˛vk D j˛jkvk para ˛ 2 K y v 2 E;kuC vk kuk C kvk 8u; v 2 E;

se dice que E es un espacio vectorial normado.

3.1 Espacios normados

Si en un espacio vectorial E sobre K (R o C) se define una norma vectorial como una aplicaciónk k W E ! R que verifica

kvk D 0 H) v D 0 y x ¤ 0 H) kxk > 0;k˛vk D j˛jkvk para ˛ 2 K y v 2 E;kuC vk kuk C kvk 8u; v 2 E;

se dice que E es un espacio vectorial normado.La condición kuCvk kukCkvk es la desigualdad de Minkowski; se conoce también como regla

del triángulo. Es una generalización del hecho de que un lado de un triángulo no puede ser mayor quela suma de los otros dos: ver figura. Una variante de esta regla es la siguiente:

ku vk kuk kvk:

uC v

u

v

Figura 3.1: Representación gráfica de la regla del triángulo

En el espacio vectorial Kn, para 1 p <1, se tiene la familia de normas

kxkp Djx1jp C C jxnjp

1=p;

denominadas normas p de Hölder. Casos particulares lo constituyen las correspondientes a p D 1 yp D 2:

kxk1 DnXiD1jxi j

kxk2 Dpjx1j2 C C jxnj2 :

Esta última se denomina en Rn norma euclídea. También en Kn es una norma la dada por

kxk1 D mKax1in

jxi j :

Estas normas cumplen, cualquiera que sea x 2 Kn, que

kxk1 kxk2 kxk1 nkxk1 :

Si la bola cerrada unidad en R2 es el conjunto fx 2 R2 W kxk 1g, sus formas para las normasvectoriales 1, 2,1, y p son las que representa la figura 3.2.

7

Figura 2.1: Representación gráfica de la regla del triángulo

La condición ku C vk kuk C kvk es la desigualdad de Minkowski —por Hermann Minkowski, Lituania1864-1909—; se conoce también como regla del triángulo. Es una generalización del hecho de que un lado de

4

Page 7: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

2 Espacios vectoriales

un triángulo no puede ser mayor que la suma de los otros dos: ver figura 2.1. Una variante de esta regla es lasiguiente: ku vk kuk kvk.En un espacio vectorial normado se define la distancia entre dos elementos u y v mediante

d.u; v/ D ku vk :Esta definición convierte a cualquier espacio vectorial normado en un espacio métrico. El espacio de los núme-ros reales, por ejemplo, con la distancia .x; y/ D jx yj es el espacio métrico R1.En el espacio vectorial Kn, para 1 p <1, se tiene la familia de normas

kxkp D ppjx1jp C C jxnjp

denominadas normas p de Hölder —por Otto Hölder, Alemania 1859-1937—. Casos particulares lo constitu-yen las correspondientes a p D 1 y p D 2:

kxk1 DnXiD1jxi j

kxk2 Dqjx1j2 C C jxnj2 :

Esta última se denomina en Rn norma euclídea, por Euclides de Alejandría, Grecia, 325-265 a.C. También enKn es una norma la dada por

kxk1 D mKax1in jxi j :

Estas normas cumplen, cualquiera que sea x 2 Kn, que

kxk1 kxk2 kxk1 nkxk1 :Si la bola cerrada unidad en R2 es el conjunto fx 2 R2 W kxk 1g, su forma en espacios vectoriales normadospor la 1, 2,1 y p son las que representa la figura 2.2.

h i j

d e f g

a b c

10 8 7

9 4 6 5

1 2 3

28/63

– Si el conjunto fx 2 R2 W kxk 1g es la bola cerrada unidad enR2, su forma para las normas vectoriales 1, 2, 1, y p son estas.

‖x‖1 =2∑

i=1

|xi|

‖x‖2 =√

|x1|2 + |x2|2 =√

xT x

∞1≤i≤2

i

kxk1 D2

i

iD1jxi j

kxk2 Dqjx1j2C jx2j2 D

qxTx

kxk1 D mKax1i2

jxi j

kxkp D Œjx1jp C jx2jp1=p ; .1 p <1/

D 1

D 1

D 1

D 1

Figura 2.2: Forma de la bola unidad para diferentes normas en R2

En el espacio C Œ0; 1 de funciones continuas del intervalo Œ0; 1 en C, son normas las dadas por

kf kp D"Z 1

0

jf .t/jp dt#1=p

donde, si f W C ! C, se define la integral definida de esta función en el intervalo Œa; b,

I.f / Dl b

a

f .x/ dx;

5

Page 8: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

2 Espacios vectoriales

como el límite de las sumas de Riemann —Georg Friedrich Bernhard Riemann, Alemania 1826-1866—, Rn DPniD1 .xiC1 xi / f .ti /; x1 D a; xnC1 D b; xi ti xiC1; cuando la partición en subintervalos se hace

muy fina. También en una norma la dada por

kf k1 D mKaxt2Œ0;1

jf .t/j :

Los espacios de funciones Lp.Œ0; 1/, p > 1, con la norma

kxk DZ 1

0

jx.t/jp dt1=p

; donde x.t/ 2 Lp.Œ0; 1/;

en los que si y.t/ 2 Lp.Œ0; 1/ se cumple que

Z 1

0

jx.t/jp dt1=p

<1

son también espacios1 normados.En particular, el conjunto de todas las funciones tales queZ

f 2.x/ dx <1

con la distancia entre dos de ellas f1.x/ y f2.x/ definida porsZ

.f1.x/ f2.x//2 dx

es el espacio métrico L2.R/.Sea E un espacio vectorial normado; se dice que una sucesión2 fx.n/g en E converge a un límite v 2 E, si paratodo " > 0, existe un N 2 N tal que a partir de él, n N , se cumple que kx.n/ vk < ".Cuando una sucesión fx.n/g admite un vector límite v sólo tiene ese vector como límite.3 Se escribe lKımn!1 x.n/ Dv. Es equivalente decir que lKımn!1 x.n/ D v y que lKımn!1 kx.n/ vk D 0. En particular, x.n/ ! 0 si ysólo si kx.n/k ! 0.Una sucesión fx.n/g en un espacio vectorial normado por k k se denomina sucesión de Cauchy si para cada" > 0 existe un n 2 N tal que cualesquiera que sean p; q n, se cumple que kx.p/x.q/k < ". Toda sucesiónconvergente es una sucesión de Cauchy pero pueden existir espacios normados con sucesiones de Cauchy queno son convergentes. Un espacio vectorial normado se dice completo si toda sucesión de Cauchy en él tienelímite.Un espacio de Banach —por Stefan Banach, Polonia 1892-1945— es un espacio vectorial completo respectode la norma a él asociada. Todo espacio vectorial normado de dimensión finita es un espacio de Banach. En unespacio de dimensión infinita esto no es cierto; por ejemplo, es fácil ver que en C Œ0; 1 la sucesión de funcionescuyas gráficas son las de la figura 2.3 es una sucesión de Cauchy para cualquier norma k kp, pero no tienelímite en C Œ0; 1.

2.2 Espacios con producto interior

Sea E un espacio vectorial sobre un cuerpo K (R o C); una forma sesquilineal —vez y media lineal— sobreE es una aplicación hji W E E ! K que verifica4:

1) h˛uC ˇvjwi D ˛hujwi C ˇhvjwi y

2) huj˛vC ˇwi D ˛hujvi C ˇhujwi;1Casos particulares son L1.Œa; b/ de funciones cuyo valor absoluto es integrable en Œa; b y L2.Œa; b/ de funciones al cuadrado

integrables en Œa; b.2Cuando así lo aconseja la dificultad de la notación, una sucesión también se designa por fxng; sus integrantes, x.k/.3Si existe límite es único.4La barra designa complejo conjugado.

6

Page 9: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

2 Espacios vectoriales

-

6

= =

= =

1n

1n

0 1 x

fn.x/

Figura 2.3: Gráfica de una de las funciones de una sucesión de Cauchy

cualesquiera que sean u, v,w en E y ˛; ˇ en K. Si además se cumple que hujvi D hvjui, la forma se denominahermítica. Es claro que hujui es siempre un número real. Cuando se cumple que

u ¤ 0 H) hujui > 0 ;

se dice que la forma es definida positiva, denominándosela también producto escalar. Una forma sesquilinealsobre R es siempre una forma bilineal.Un espacio prehilbertiano es un espacio vectorial sobre K dotado de una forma hermítica definida positiva.Todo espacio prehilbertiano es un espacio normado mediante

kvk Dphvjvi :

En la demostración de que esta definición corresponde a la de una norma en E juega un papel importante ladesigualdad de Cauchy-Schwarz —por Augustin Louis Cauchy, Francia 1789-1857 y Karl Hermann AmandusSchwarz, Prusia 1843-Alemania 1921— a saber,

ˇˇhujvi

ˇˇ kuk kvk :

Si es un abierto de Rn, el espacio vectorial de las funciones al cuadrado integrables en 5 es

L2./ Df W ! R;

Z

jf .x/j2dx <1

que es un espacio prehilbertiano si se le dota del producto escalar

hf; gi DZ

f .x/g.x/dx:

Un espacio de Hilbert —por David Hilbert, Prusia Oriental 1862-1943— es un espacio prehilbertiano completorespecto de la norma asociada al producto escalar kk D

ph; i . Dicho de otra forma, un espacio prehilbertiano

que con esta norma da un espacio de Banach. Todo espacio de Hilbert es un espacio de Banach, pero el recíprocono es cierto.El espacio vectorial L2./ dotado de la norma anterior, hf; gi D R f .x/g.x/dx, es un espacio de Hilbert.El espacio euclídeo n-dimensional, expresado Rn o En, es un espacio de Hilbert de dimensión finita. Visto así,un espacio de Hilbert sería la generalización de un espacio euclídeo, incluida la dimensión infinita. El productoescalar en un espacio euclídeo es una forma bilineal. En particular, dados dos vectores en R2 de la formau D Œa; bT y v D Œc; d T , su producto escalar viene dado por hu; vi D acC bd . que se puede verificar que esuna forma bilineal.

5También se suelen denotar L2./.

7

Page 10: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

2 Espacios vectoriales

Dos vectores cuyo producto escalar es cero se denominan ortogonales; si sus k k2 son la unidad se denominanortonormales. Para dos vectores ortogonales se tiene la identidad

kuC vk2 D kuk2 C kvk2 ;que es una generalización del teorema de Pitágoras. En un espacio prehilbertiano el único vector ortogonal atodos los vectores del espacio es el vector nulo; si este espacio es de dimensión finita es posible construir unabase ortonormalizada.En un espacio euclídeo n-dimensional el ángulo entre dos vectores x e y es

D arc cos

xT y

kxkkyk

!;

donde

D xT y

kxkkykcumple que 1 1, para cualesquiera x e y .Dos vectores son ortogonales si xT y D 0 ( D =2; D 0); alineados, si xT y D kxkkyk ( D 0; D 1);opuestos, si xT y D kxkkyk ( D ; D 1). Forman un ángulo agudo si xT y > 0 ( < =2; > 0) y unángulo obtuso si xT y < 0 ( > =2; < 0).Una familia cualquiera de vectores distintos del nulo y ortogonales dos a dos es una familia libre. Si M esun subespacio de un espacio prehilbertiano E de dimensión finita, el subespacio ortogonal de M , M?, es elsubespacio formado por todos los vectores ortogonales a los de M , siendo un subespacio suplementario de M ;es decir M ˚M? D E. Cualquier x 2 E, por consiguiente, se puede expresar como x D aC b, con a 2 My b 2M?.

2.3 Aplicaciones lineales

Dados dos espacios vectorialesE y F sobre el mismo cuerpoK se define una aplicación lineal, transformaciónlineal, mapeo, operador lineal u homomorfismo, f , de E en F , como una aplicación f W E ! F que verifica

f .x C y/ D f .x/C f .y/ ;cualesquiera que sean los vectores x, y de E y los escalares y . Existen dos casos particulares interesantes:el primero cuando E D F , en este caso se dice que f es un operador lineal de E o endomorfismo de E; elsegundo cuando F D K —el cuerpo base—, en cuyo caso la aplicación se denomina forma lineal sobre E.El conjunto L.E; F / de todas las aplicaciones lineales del espacio E en el espacio F se estructura como unespacio vectorial si se definen las siguientes operaciones:

adición .f C g/ W .f C g/.x/ D f .x/C g.x/ 8x 2 EIproducto por un escalar f W .f /.x/ D f .x/ 8x 2 E y 8 2 K:

En particular, el conjunto L.E;K/ de formas lineales es un espacio vectorial denominado dual de E, represen-tándose con E.Para una aplicación lineal f W E ! F , el conjunto de vectores de F que son la imagen de los de un subespaciode E forma un subespacio de F . En particular, la imagen de todo E es un subespacio de F que se denominasubespacio imagen de f , representándose mediante Im.f /. Análogamente, el conjunto anti-imagen de unsubespacio de F forma un subespacio de E. En particular, la anti-imagen del subespacio nulo de F forma loque se denomina el núcleo de la aplicación, representándose por ker.f /. Así pues

ker.f / D fx 2 E W f .x/ D 0g :Si b 2 F , la ecuación lineal f .x/ D b tiene solución si y sólo si b 2 Im.f /. En ese caso el conjunto de todaslas soluciones es la variedad lineal —traslación de un subespacio— dada por x0 C ker.f /, donde x0 es unasolución particular de la ecuación. En particular, la aplicación es inyectiva si y sólo si ker.f / D ;.

8

Page 11: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

3 Topología

Sean E y F dos espacios prehilbertianos sobre el cuerpo K; si f W E ! F es una aplicación lineal, laaplicación traspuesta de f es la aplicación f W F ! E que cumple

hxjf .y/i D hf .x/jyi ;cualesquiera que sean los vectores x 2 E e y 2 F . Particularmente importante es el caso en queE D F : f sedice entonces que es el operador adjunto de f . Cuando un operador f de E cumple que f D f se denominaoperador autoadjunto. En el caso de que E sea un espacio vectorial real, también se dice que f es un operadorsimétrico y cuando es un espacio vectorial complejo, que f es un operador hermítico. Un operador simétricocumple que

hxjf .y/i D hf .x/jyi;mientras que uno hermítico, que

hxjf .y/i D hf .x/jyi:Un operador f de E es unitario cuando es invertible y su inverso coincide con su adjunto. Es decir, si f Df 1. Para un operador unitario se tiene que

hf .x/jf .y/i D hf .f .x//jyi D hxjyi ;de manera que kf .x/k D kxk. Por este motivo a los operadores unitarios también se les denomina operadoresisométricos.Dada una transformación lineal, aplicación lineal, o mapeo, f W E ! E, se dice que un subespacio W de Ees un subespacio invariante frente a f (o f -invariante) si para todo vector w 2 W se cumple que f .w/ 2 W .Dicho de otra manera, W es un subespacio invariante si f .W / W .

3 Topología

E N UN espacio vectorial normado se define una bola abierta, S.x0; r/, de centro x0 y radio r , como elconjunto de puntos x que verifican kx x0k < r . Es decir:

S.x0; r/ D fx 2 Rn W kx x0k < rg:Una bola cerrada, NS.x0; r/, se define, por el contrario, como el conjunto de puntos x que verifican kxx0k r . Es decir:

NS.x0; r/ D fx 2 Rn W kx x0k rg:Consideraremos en lo que sigue de este apartado un subconjunto S del espacio vectorial métrico hasta ahoraestudiado (puede ser, por ejemplo, Rn).Un punto y 2 S es un punto interior del conjunto S si existe un " tal que

kx yk < ") x 2 S :En otras palabras, existe una bola abierta S.y; "/ de centro y y radio " contenida íntegramente en S .El conjunto de todos los puntos interiores del conjunto S se denomina interior de S . Este conjunto puede,evidentemente, ser vacío. Ejemplo: un plano del espacio R3.Un subconjunto de S se dice abierto si coincide con su interior; es decir, si alrededor de todo punto de S existeuna bola abierta contenida íntegramente en S . Dos ejemplos: la bola abierta unidad, S.x; 1/ D fx W kxk < 1gy el espacio Rn en su totalidad. En general los subconjuntos o conjuntos abiertos se caracterizan por no tenerlímites definidos o ser disjuntos de su frontera (ver más adelante la definición del concepto frontera).Un entorno de un punto x, E.x/, es un conjunto abierto que contiene a x. En otras palabras, E.x/ es un entornode x si contiene una bola abierta de centro x.Se dice que un punto x es un punto de acumulación del subconjunto S si en todo entorno de x existen unnúmero infinito de puntos de S .Un punto x se denomina punto de adherencia del subconjunto S cuando todo entorno de dicho punto x contieneal menos un punto de S ; es decir, para todo " existe un y 2 S tal que kx yk < ". El conjunto de todos

9

Page 12: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

4 Matrices

los puntos de adherencia se denomina adherencia —en la literatura anglosajona y latinoamericana, clausuracl.S/—. La adherencia de la bola abierta S.x; 1/ D fx W kxk < 1g es la cerrada NS.x; 1/ D fx W kxk 1g.Se denomina frontera de un conjunto a la parte de la adherencia que no está en el interior.Un conjunto, o subconjunto, se dice cerrado si coincide con su adherencia. La adherencia de cualquier conjuntoS es el conjunto cerrado más pequeño que contiene a S . Se puede demostrar que un conjunto es cerrado si ysólo si toda sucesión convergente de elementos de S tiene un límite en ese conjunto.Un conjunto, o subconjunto, se dice compacto si es cerrado y acotado (contenido en una bola de radio r <1).Un importante resultado, debido a Weierstrass, dice que si S es un conjunto compacto, de cada sucesión osucesión infinita fx.n/gn2N de elementos de dicho conjunto es posible extraer una subsucesiónn

x.`/o`2L L N

que converge a un elemento del propio conjunto S .Si fr.k/g es una sucesión de números reales y s.k/ D sup fr.i/ W i kg, entonces fs.k/g converge a un númeroreal s0; a este número se le denomina límite superior de fr.k/g y se expresa como

lKım supr.k/

o lKım

k!1

r.k/

:

El límite superior de una sucesión de números reales es el mayor punto de acumulación de la sucesión. Deforma similar se define el límite inferior.

4 Matrices

U NA MATRIZ es una formación rectangular de numeros reales o complejos ordenados en m filas y ncolumnas 2

664a11 a12 a1na21 a22 a2n:::

:::: : :

:::am1 am2 amn

3775 :

El conjunto de todas las matrices de números reales o complejos se designa, respectivamente, Rmn y Cmn.Si m D n la matriz es cuadrada y de orden n. Un vector columna es también una matriz Rm1, que se escribeRm.Las matrices de m filas y n columnas con coeficientes en el cuerpo R o C forman un espacio vectorial, Rmno Cmn, sobre dichos cuerpos.El primero en usar el término matriz en matemáticas fue James Joseph Sylvester, Reino Unido 1814-1897.Arthur Cayley, Reino Unido, 1821-1895, contribuyó de forma decisiva a que A D .aij / se concibiese comouna cantidad algebraica única.Si en álgebra lineal E y F son dos espacios vectoriales de dimensiones finitas n ym sobre el mismo cuerpoK.Una aplicación lineal g W E ! F , g 2 L.E; F /, está caracterizada o representada en dos bases fe1; e2; : : : ; engde E y ff1; f2; : : : ;fmg de F por una tabla de coeficientes, matriz asociada, de m filas y n columnas:

A D24a11 a1n:::: : :

:::am1 amn

35 2 Kmn :

Los coeficientes aij están definidos por

g.ej / DmXiD1

aijfi ; 1 j n :

El vector columna j -ésimo 264a1ja2j:::amj

375

10

Page 13: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

4 Matrices

representa el vector g.ej / en la base .fi /. A partir de la matrizA se pueden calcular los coeficientes y1; y2; : : : ; ymdel vector y D g.x/ en la base .fi /, conociendo los coeficiente x1; x2; : : : ; xn en la base .ej /. En efecto:

264y1y2:::ym

375 D x1

264a11a21:::am1

375C x2

264a12a22:::am2

375C C xn

264a1na2n:::

amn

375 :

Expresión que también se puede escribir de la siguiente forma:

y DnXiD1

xiai ;

donde ai es el vector columna i -ésimo de la matrizA. Así pues, si se fijan dos bases en E y F , cada aplicaciónlineal, g W E ! F , queda unívocamente representada por una matriz. Recíprocamente, toda matriz en Kmndefine unívocamente una aplicación lineal entre dos espacios E y F de dimensiones n y m en los que se hanfijado dos bases. En particular, se pueden identificar las matrices m n con las aplicaciones lineales de Kn enKm.Las matrices de m filas y n columnas con coeficientes en el cuerpo K forman un espacio vectorial, Kmn,sobre dicho cuerpo K.Si E y F son dos espacios de dimensión finita dotados de un producto escalar y la aplicación ˛ 2 L.E; F / serepresenta en dos bases ortonormalizadas mediante una matriz A, la aplicación ˛T 2 L.F;E/, traspuesta de˛, viene representada por la matriz AT , traspuesta de A.El núcleo y la imagen de una matriz A 2 Kmn, ker.A/ y Im.A/, respectivamente, se definen como lossubespacios de Kn y Km que son el núcleo y la imagen de la aplicación lineal asociada:

ker.A/ D fx 2 Kn W Ax D 0gIm.A/ D fy 2 Km W y D Ax; x 2 Kng

7775A2Kmn

:

Dicho de otra forma, la imagen de una matriz es el subespacio generado por los vectores columna de la matriz;los vectores fila también generan un subespacio que no es otro que la imagen de AT .Para una matriz A 2 Rmn se cumple que:

kerAT

D .Im.A//?

ImAT

D .ker.A//?

ker.A/ D

ImAT

?

Im.A/ D

kerAT

?:

De acuerdo con esto, si A 2 Rmn, se cumple que

ker .A/˚ ImAT

D Rn:

En la figura 4.4 se muestran estos subespacios.El rango de una matriz es la dimensión6 de su subespacio imagen:

rango.A/ D dim.Im.A//:

Una matriz A 2 Kmn se dice de rango completo si rango.A/ D mKın.m; n/. Una matriz cuadrada A 2 Knnse denomina singular si rango.A/ < n; regular si rango.A/ D n. También se cumple que rango.A/ Drango.AT /.

6Recordemos: máximo número de vectores linealmente independientes.

11

Page 14: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

4 Matrices

A

0 0

I mA

K e r A

I mA

K e rA

T

m ! n A

A m ! n A

A A

AT

. A/? D A . A/? D AT

A A

A Rn/

A A

A A A D

AT AT

AT AT D A

R2 R3

R2 R3

#

! D k k k k #

R2

k k k k k # kk # k2 D k k2 C k k2 # 2k k k k #

(u1, u2)

(v1, v2)

||u – v||

||v||

||u|| !

T

Figura 4.4: Subespacios fundamentales determinados por Amn

La aplicación asociada a una matrizA 2 Rmn es suprayectiva si rango.A/ D m. Para una matrizA 2 Kmnse cumple que

dim.ker.A//C rango.A/ D n ;o, alternativamente, dim.ker.A// D n rango.A/. La aplicación lineal asociada a A es, por tanto, inyectiva,si y sólo si rango.A/ D n. Por otro lado dim.ker.AT //C rango.AT / D m.El producto exterior uvT de un vector columna n 1 por un vector fila 1 n es una matriz Ann de rango 1.

A D uvT D

264u1v1 u1v2 u1vnu2v1 u2v2 u2vn:::

:::unv1 unv2 unvn

375

4.1 Normas de matrices

Aun cuando en lo que sigue nos limitaremos a matrices cuadradas, la mayor parte de las definiciones y resul-tados son extensibles a matrices rectangulares; también supondremos que las matrices son reales.Las matrices cuadradas de orden n forman un espacio vectorial con un producto, esto es, un álgebra. Unanorma matricial es una norma vectorial compatible con el producto. Se define formalmente sobre Rmn comouna aplicación k k W Rmn ! R que cumple:

1) kAk D 0 H) A D 0:2) kAk D jj kAk:3) kA CBk kAk C kBk:4) kABk kAk kBk:

Existen normas sobre el espacio Rmn que no son normas matriciales pues no cumplen la propiedad 4). Así, sise define

kAk D mKax1i;jn jaij j ;

se satisfacen 1), 2) y 3); sin embargo, tomandoA D B Dh1111

i, es fácil ver que kABk D 2 > kAkkBk D 1,

por lo que no se cumple 4).Un ejemplo importante de norma matricial es la norma de Frobenius, definida como:

kAk2F DX

1i;jna2ij D traza.ATA/;

donde la traza de una matrizA de orden n esPniD1 ai i . Es fácil ver que esta norma deriva del producto escalar

hAjBi D traza.ATB/, que configura al espacio de las matrices cuadradas como un espacio prehilbertiano. Lanorma de Frobenius cumple que

kABkF kAkF kBkF :

12

Page 15: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

4 Matrices

Una norma matricial k k sobre Rmn se dice consistente con una norma vectorial k k0 sobre Rn cuando paracada matriz A y cada vector x se cumple que

kAxk0 kAk kxk0 :Por ejemplo, la norma de Frobenius y la norma euclídea de Rn son consistentes pues

kAxk2 kAkF kxk2 :Se demuestra que para toda norma matricial es posible construir una norma vectorial consistente. Recípro-camente, a toda norma vectorial sobre Rn se le puede asociar una norma matricial consistente. Una normamatricial consistente con una cierta norma vectorial k k se construye mediante la definición

kAk D sup0¤x2Rn

kAxkkxk :

Esta norma matricial se dice inducida por la norma vectorial. Ejemplo: la norma matricial inducida por la normaeuclídea de Rn es la norma espectral:

kAk2 D sup0¤x2Rn

"xTATAx

xTx

#1=2Dqmax.ATA/ D max.A/;

donde designa un valor propio de A y un valor singular. Si k k es la norma inducida por una cierta normavectorial y k k0 es una norma matricial cualquiera consistente con esa norma vectorial, se cumple, para todamatriz A, que kAk kAk0. En particular, para la norma espectral y la norma de Frobenius, se cumple que

kAk2 kAkF pnkAk2 :

También que kABkF kAkF kBk2 y kABkF kAk2 kBkF . Como casos particulares, kIk2 D 1 y parauna matriz diagonal, kDk2 D mKaxi jdi j.Las normas matriciales inducidas más usadas son

kAk1 D mKax1jn

mXiD1jaij j y

kAk1 D mKax1im

nXjD1jaij j :

Ejemplo 4.1 El efecto que produce aplicar la transformación lineal basada en la matriz

A D"1 2

0 2

#

sobre la bola unidad definida a partir de las normas k k1, k k2 y k k1 en R2, se representa en la figura 4.5. Laaplicación transforma el vector e1 D Œ1; 0T en sí mismo y e2 D Œ0; 1T en Œ2; 2T . Con la norma 1, el vectorunitario que más se amplifica al aplicarle la transformación es Œ0; 1T (o Œ0;1T ), que pasa a ser Œ2; 2T . Sufactor de amplificación, en términos de la norma 1, es 4.Con la norma 2, el vector unitario que más se amplifica es el que se representa en la figura con una rectadiscontinua. El factor de amplificación es 2,9208.Para la norma 1, igualmente, el vector unitario que más se amplifica es el que se representa también con larecta discontinua: Œ1; 1T , que pasa a transformarse en Œ3; 2T . El factor de amplificación correspondiente es eneste caso 3 ya que Œ1; 1T 1 D 1 Œ3; 2T 1 D 3: u

13

Page 16: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

4 Matrices

h i j

d e f g

a b c

10 8 7

9 4 6 5

1 2 3

39/63

[0, 1]T

[1, 0]T

[1, 0]T

[2, 2]T

norma ∞

norma 2

norma 1

‖A‖2 ≈ 2,9208

‖A‖∞ = 3

‖A‖1 = 4

norma 1

norma 2

norma 1

– La aplicación transforma el vector e1 D Œ1; 0T en sí mismo ye2 D Œ0; 1T en Œ2; 2T .Figura 4.5: Efecto de una aplicación lineal sobre la bola unidad para diferentes normas

Además de las normas vectoriales y matriciales ya presentadas, otra norma vectorial que se utiliza en el cursoes

kxkA D A1=2x

2DphAxjxi D

pxTAx;

denominada norma A o norma de energía7 del vector x, para una matriz A simétrica y definida positiva. AhxjyiA D hAxjyi se le denomina producto interior de A o producto escalar de energía. La matriz A1=2 esla única matriz definida positiva solución de la ecuación matricial X2 D X X D A.

4.2 Matrices ortogonales, unitarias, simétricas, Hessenberg, de permutación y de proyección

Una matrizQ 2 Rmn se dice ortogonal si verifica queQTQ D I ; es decir, cuando sus vectores columna sonortogonales dos a dos y de norma euclídea unitaria (ortonormales). Si Q 2 Rnn es ortogonal, se cumple queQQT D QTQ D I .Las matrices ortogonalesQ 2 Rmn verifican:

kQk2 D 1kQkF D n1=2kQAk2 D kAk2kQAkF D kAkF

9>>>>>=>>>>>;

si m n y

kQk2 D 1kQkF D m1=2kAQk2 D kAk2kAQkF D kAkF

9>>>>=>>>>;

si m n:

Una matriz ortogonal no modifica ni los ángulos ni las normas, .Qx/H .Qy/ D xHQHQy D xHy . Siy D x, jjQxjj2 D jjxjj2.La extensión de las matrices ortogonales al campo complejo son las matrices unitarias. Son matrices, U 2Cnn, cuya inversa es su compleja conjugada: UHU D UUH D I : Todos los valores propios de las matricesunitarias tienen módulo unidad. Como las ortogonales, una matriz unitaria no modifica ni los ángulos ni lasnormas, .Ux/H .Uy/ D xHUHUy D xHy . Si y D x, jjUxjj2 D jjxjj2.Una matriz de permutación es una matriz cuadrada cuyas columnas están formadas por las de la matriz unidadpermutadas. Una matriz de permutación es una matriz ortogonal.

7Pues suele corresponder con la energía física de ciertos sistemas.

14

Page 17: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

4 Matrices

Una matriz se dice simétrica si se verifica que A D AT . Para una matriz cualquiera A 2 Rmn, la matrizATA es simétrica. Si A 2 Cnn es igual a su traspuesta conjugada, A D B D AH , bij D Naj i , se dicehermítica.Una matriz A se dice definida positiva si xTAx > 0 para todo vector x ¤ 0. De forma similar se definenmatrices semidefinida positiva, definida negativa y semidefinida negativa, si xTAx 0, < 0 y 0, res-pectivamente, para todo vector x ¤ 0. La matriz A se dice indefinida si xTAx es positivo para algún x ynegativo para otros. También A 2 Cnn se dice definida positiva si para todo x 2 Cn;x ¤ 0, se cumple quexHAx > 0.Si A 2 Rnn es simétrica y definida positiva se puede descomponer de la formaA D QDQT donde Qes una matriz ortogonal y D, diagonal, tiene todos sus coeficientes positivos por lo que A

12 D QD

12QT

satisfaciéndose que A12A

12 D A.

Se dice que una matriz A 2 Cnn de coeficientes aij es de diagonal dominante por filas cuando cumple que

jai i j nX

jD1;j¤ijaij j; i D 1; : : : ; n:

Análogamente, se dice diagonal dominante por columnas si

jai i j nX

jD1;j¤ijaj i j; i D 1; : : : ; n:

Si las desigualdades se verifican estrictamente la matriz A se denomina diagonal estrictamente dominante.

Lema 4.1 Para que una matriz simétrica sea definida positiva es necesario que todos los coeficientes de ladiagonal principal sean positivos.

Lema 4.2 Para que una matriz simétrica A sea definida positiva es necesario que el coeficiente de mayorvalor absoluto esté en la diagonal principal. Más concretamente,

mKaxi¤jjaij j < mKax

kakk :

Lema 4.3 Si en cada fila de una matriz simétrica A el coeficiente de la diagonal principal es mayor que lasuma de los valores absolutos de todos los demás coeficientes de la fila, es decir, si

akk >

nXjD1

j¤k

jakj j k D 1; : : : ; n;

A es definida positiva.

Es importante destacar que este último criterio define una condición suficiente, no necesaria. En efecto, lamatriz

Q D243 2 22 3 2

2 2 3

35

es definida positiva pues

xTQx D x21 C x22 C x23 C 2.x1 C x2 C x3/2

cualquiera que sea x ¤ 0, es siempre positiva. Esa matriz, sin embargo, no satisface el lema 4.3.Una matriz de Vandermonde —por Alexandre-Théophile Vandermonde, Francia 1735-1796— es una matriz

15

Page 18: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

4 Matrices

que presenta una progresión geométrica en cada fila; como esta:

V D

2666664

1 ˛1 ˛21 : : : ˛

n11

1 ˛2 ˛22 : : : ˛

n12

1 ˛3 ˛23 : : : ˛

n13

:::::::::: : :

:::

1 ˛n ˛2n : : : ˛

n1n

3777775:

Una matriz de Hankel —por Hermann Hankel, Alemania 1839-1873— es una matriz cuadrada con todas susdiagonales de derecha a izquierda paralelas numéricamente. Es decir, tiene la forma

H D

266664

a b c d e

b c d e f

c d e f g

d e f g h

e f g h i

377775 :

Una matriz de Hessenberg —por Karl Adolf Hessenberg, Alemania 1904-1959— es una matriz triangularexcepto por una subdiagonal adyacente a la diagonal principal.Una matriz de Hessenberg —por Karl Adolf Hessenberg, Alemania 1904-1959— es una matriz triangular ex-cepto por una subdiagonal adyacente a la diagonal principal.

@@

@@

@@

@@@

0

Cualquier matriz se puede reducir a la forma de Hessenberg mediante trans-formaciones ortogonales de Householder o Givens. Si la matriz original es si-métrica, al reducirla a la forma de Hessenberg se obtendrá una tridiagonal.

Se denomina proyector o matriz de proyección a una matriz P 2 Rnn queverifica que P2 D P . Si P además es simétrica, se denomina proyector ortogo-nal o matriz de proyección ortogonal. Si, en este último caso, F es el subespacioimagen de la matriz P (el mismo que el de la matriz PT ), Px define la proyec-ción ortogonal del vector x sobre F .

Se denomina proyector suplementario de P al proyector S D I P . Si F D Im.P/ y G D ker.P/,entonces F D ker.S/ y G D Im.S/.

En el caso de un proyector ortogonal P en el que F D Im.P/, se tiene que Rn D F ˚ F?, verificándoseque kPxk2 kxk2 y que

kx Pxk2 D mKıny2Im.P/DF

kx yk2:

4.3 Valores propios, valores singulares y formas cuadráticas

4.3.1 Valores propiosSiA es una matriz cuadrada de orden n y coeficientes en K (R o C), un vector no nulo u 2 Kn se denomina

vector propio de A si para algún 2 K se cumple que

Au D u :A este se le denomina valor propio o autovalor de la matrizA. El conjunto de los valores propios de una ma-triz A se denomina espectro de A, designándose por ƒ.A/. El radio espectral, .A/, se define de la siguientemanera:

.A/ D mKax1in ji j:

Para que un número sea valor propio de A, el sistema lineal y homogéneo de ecuaciones dado por .I A/x D 0 debe tener soluciones distintas de la trivial x D 0. Esto equivale a que

det.A I/ D 0 :Esta es una ecuación polinómica de grado n en que se denomina ecuación característica, o polinomio carac-terístico, de la matrizA. La ecuación característica admite la raíz D 0 si y sólo si det.A/ D 0. Una matriz esinvertible, por tanto, si y sólo si no admite al cero como vector propio.

Para que exista una solución distinta de la trivial x D 0, el valor propio deberá ser raíz del polinomiocaracterístico de grado n asociado aA, esto es det.AI/ D 0. Lo que es igual a nC g1n1C g2n2C C gn D 0:

El Teorema fundamental del álgebra establece que cada ecuación polinómica de grado n, con coeficientescomplejos, tiene n raíces en el cuerpo de los complejos.

La multiplicidad algebraica del valor propio deA es la multiplicidad de la raíz correspondiente del polino-mio característico asociado aA. La multiplicidad geométrica de es el número de vectores propios linealmenteindependientes que se corresponden con . La multiplicidad geométrica de un valor propio es menor o igualque su multiplicidad algebraica.

Por ejemplo, siA D I , D 1 es un valor propio con multiplicidad algebraica y geométrica n. El polinomiocaracterístico deA es p.z/ D .z1/n y ei 2 Cn, i D 1; : : : ; n, sus vectores propios. Si el valor propio tieneuna multiplicidad geométrica menor que la algebraica, se dice defectuoso. Se dice que una matriz es defectuosasi tiene al menos un valor propio defectuoso. La matriz2

42 1 00 2 10 0 2

35

16

Cualquier matriz se puede reducir a la forma de Hessenberg mediante transforma-ciones ortogonales de Householder o Givens. Si la matriz original es simétrica, alreducirla a la forma de Hessenberg se obtendrá una tridiagonal.Se denomina proyector o matriz de proyección a una matriz P 2 Rnn que verificaque P2 D P . Si P además es simétrica, se denomina proyector ortogonal o matrizde proyección ortogonal. Si, en este último caso, F es el subespacio imagen de lamatriz P (el mismo que el de la matriz PT ), Px define la proyección ortogonal delvector x sobre F .Se denomina proyector suplementario de P al proyector S D I P . Si F D Im.P/

y G D ker.P/, entonces F D ker.S/ y G D Im.S/.En el caso de un proyector ortogonal P en el que F D Im.P/, se tiene que Rn D F ˚ F?, verificándose quekPxk2 kxk2 y que

kx Pxk2 D mKıny2Im.P/DF

kx yk2:

4.3 Valores propios, valores singulares y formas cuadráticas

4.3.1 Valores propiosSi A es una matriz cuadrada de orden n y coeficientes en K (R o C), un vector no nulo u 2 Kn se denominavector propio de A si para algún 2 K se cumple que

Au D u :

A este se le denomina valor propio o autovalor de la matrizA. El conjunto de los valores propios de una ma-triz A se denomina espectro de A, designándose por ƒ.A/. El radio espectral, .A/, se define de la siguientemanera:

.A/ D mKax1in ji j:

Para que un número sea valor propio de A, el sistema lineal y homogéneo de ecuaciones dado por .I A/x D 0 debe tener soluciones distintas de la trivial x D 0. Esto equivale a que

det.A I/ D 0 :

Esta es una ecuación polinómica de grado n en que se denomina ecuación característica, o polinomio carac-terístico, de la matrizA. La ecuación característica admite la raíz D 0 si y sólo si det.A/ D 0. Una matriz esinvertible, por tanto, si y sólo si no admite al cero como vector propio.

16

Page 19: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

4 Matrices

Para que exista una solución distinta de la trivial x D 0, el valor propio deberá ser raíz del polinomiocaracterístico de grado n asociado aA, esto es det.AI/ D 0. Lo que es igual a nC g1n1C g2n2C C gn D 0:El Teorema fundamental del álgebra establece que cada ecuación polinómica de grado n, con coeficientescomplejos, tiene n raíces en el cuerpo de los complejos.La multiplicidad algebraica del valor propio deA es la multiplicidad de la raíz correspondiente del polinomiocaracterístico asociado a A. La multiplicidad geométrica de es el número de vectores propios linealmenteindependientes que se corresponden con . La multiplicidad geométrica de un valor propio es menor o igualque su multiplicidad algebraica.Por ejemplo, si A D I , D 1 es un valor propio con multiplicidad algebraica y geométrica n. El polinomiocaracterístico deA es p.z/ D .z1/n y ei 2 Cn, i D 1; : : : ; n, sus vectores propios. Si el valor propio tieneuna multiplicidad geométrica menor que la algebraica, se dice defectuoso. Se dice que una matriz es defectuosasi tiene al menos un valor propio defectuoso. La matriz

242 1 00 2 10 0 2

35

tiene un valor propio, 2, de multiplicidad algebraica 3 y multiplicidad geométrica 1; u D Œ100T . Si una matrizA 2 Cnn no es defectuosa, dispone de un conjunto de n vectores propios linealmente independientes.Un resultado interesante debido a dos matemáticos del siglo XIX, Arthur Cayley, británico, 1821-2895, y Wi-lliam Rowan Hamilton, irlandés, 1805-1865, dice que cualquier matrizA 2 Cnn satisface su propia ecuacióncaracterística. Es decir,

An C g1An1 C g2An2 C C gnI D 0:Si A es invertible, como consecuencia de ello,

A1 D 1gnAn1 g1

gnAn2 gn1

gnI :

A partir del teorema de Cayley-Hamilton también es fácil comprobar que existe un polinomio p de gradomáximo n 1 tal que A1 D p.A/. Como ejemplo, la matriz

1 23 4

tiene como polinomio característico

x2 5x 2. El teorema de Cayley-Hamilton dice que A2 5A 2I D 0, lo cual se puede comprobarinmediatamente. La inversa de A se puede obtener de esta ecuación a partir de A .A 5I/ D 2I . En efecto,A1 D 1

2.A 5I/.

Para A 2 Cnn y 0 ¤ b 2 Cn1, al subespacio Kj .A;b/ D Genfb;Ab; : : : ;Aj1bg se le denominasubespacio de Krylov.Igual que cualquier matriz tiene asociado un polinomio característico, cualquier polinomio tiene asociado unamatriz compañera. La matriz compañera de un polinomio mónico8 p.t/ D c0 C c1t C C cn1tn1 C tn es

C .p/ D

2666664

0 0 : : : 0 c01 0 : : : 0 c10 1 : : : 0 c2::::::: : :

::::::

0 0 : : : 1 cn1

3777775

Los valores propios de esta matriz C .p/ son las raíces del polinomio p.t/. El polinomio mínimo q.t/ de unamatriz A es el polinomio mónico único de grado mínimo tal que q.A/ D 0.Una matriz real de orden n no tiene necesariamente valores propios reales pero, como consecuencia del teo-rema fundamental del álgebra, cualquier matriz compleja tiene al menos un valor propio complejo. El númeromáximo de valores propios es n.Al aplicársele a cualquier vector la transformación que representa A ese vector tiende a orientarse en la direc-ción del vector propio dominante de A. Si aquel vector está en la dirección de alguno de los vectores propios

8Un polinomio a0 C a1x C a2x2 C : : :C anxn se dice que es mónico si an D 1.

17

Page 20: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

4 Matrices

deA, se expande o contrae por un factor que determina el correspondiente valor propio. La matrizA D 2 11 2

tiene como valores propios 3 y 1. Los vectores propios asociados son Œ1 1T y Œ1 1T . El efecto de aplicarlasobre distintos vectores se puede ver en la figura 4.6: en magenta y azul los vectores propios; otros en rojo.

Figura 4.6: Efecto de aplicársele a diversos vectores la transformación que representa la matriz AD 2 11 2

Siendo un valor propio de una matriz A, el conjunto de soluciones del sistema de ecuaciones

.I A/x D 0

es un subespacio de Kn que se denomina subespacio propio asociado al valor propio , designándose con E.Si n es la multiplicidad de como raíz de la ecuación característica de A, se cumple que

dim.E/ n :

La intersección de subespacios propios correspondientes a valores propios distintos se reduce al subespacionulo; esto es ¤ H) E \E D ;.De este modo, la suma de subespacios propios es directa. Se cumple que

L2ƒ.A/E D Kn si y sólo si para

cada 2 ƒ.A/, dim.E/ D n; en ese caso existe una base de Kn formada toda ella por vectores propios deA.El teorema central en el estudio de los métodos y algoritmos numéricos para el cálculo y análisis de valores yvectores propios es el de la descomposición de Schur —por Issai Schur, Alemania 1875-1941—.

Teorema 4.4 Descomposición o triangularización de Schur Para cualquier A 2 Cnn existe una matrizunitaria U y una matriz triangular superior, T , tal que

AU D UT o UHAU D T .Los valores propios de A son entonces los coeficientes de la diagonal principal de R.

Teorema 4.5 Para cualquier matriz hermítica A 2 Cnn existe una matriz unitaria U tal queUHAU D D,

dondeD es una matriz diagonal.

1. Los valores propios de A son números reales.

2. Se pueden obtener vectores propios de A que sean ortonormales.

En este caso se dice que la matriz A es semejante a una matriz diagonal: la matriz A es diagonalizable porsemejanza. Dos matrices semejantes tienen el mismo polinomio característico y los mismos valores propios.Una matriz A 2 Cnn es normal, es decir AAH D AHA, si y sólo si A D UƒUH , donde U es una matrizunitaria yƒ una diagonal cuyos coeficientes son los valores propios deA. Los vectores propios son los vectorescolumna de U .Toda matriz real y simétrica tiene todos sus valores propios reales y es diagonalizable por semejanza. Se de-muestra además que los subespacios propios correspondientes a valores propios distintos son ortogonales. De

18

Page 21: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

4 Matrices

aquí se sigue que es siempre posible formar una base ortonormalizada de vectores propios para una matrizreal y simétrica A. Existe entonces una matriz ortogonal Q tal que verifica QTAQ D D, con QT D Q1y, de aquí que, toda matriz real y simétrica es congruente ortogonal con su reducida diagonal. Este resultadofundamental de la teoría de matrices es la versión elemental del denominado teorema espectral.Una matriz simétrica definida positiva tiene todos sus valores propios reales y positivos; si es semidefinida,alguno es cero. Si la matriz es negativa definida, todos sus valores propios son negativos.Si A es hermítica, el producto xHAx es un número real. Los valores propios de una matriz hermítica, enconsecuencia, son números reales. En una matriz hermítica los vectores propios correspondientes a dos valorespropios distintos son ortogonales entre sí.

Teorema 4.6 Descomposición de Jordan Para una matriz A 2 Cnn existe una matriz regular X 2 Cnntal que X1AX D diag.J 1; : : : ;J k/ donde

J i D

2666664

i 1

i 1 0

0 1i

37777752 Cnini

y n1 C nk D n. Las J i son las matrices o bloques de Jordan y los i los valores propios de A.

Un resultado muy interesante para averiguar el orden de magnitud de los valores propios de una matriz es elteorema de Gerschgorin, que dice que siA 2 Rnn es una matriz simétrica con valores propios 1; 2; : : : ; n,

mKın1ini mKın

1in

8<:ai i

nXjD1;j¤i

jaij j9=; y mKax

1kni mKax

1kn

8<:akk C

nXjD1;j¤k

jakj j9=; :

4.3.2 Valores singularesLa noción de valor propio, o autovalor, no tiene significado para matrices rectangulares. En éstas, por el con-trario, si lo tiene, como en las cuadradas, el concepto de valor singular. Si A es una matriz cualquiera m ncon coeficientes en R, se definen sus valores singulares i ; i D 1; : : : ;mKınfm; ng, como las raíces cuadradaspositivas de los valores propios de la matriz cuadrada ATA 2 Rnn.

Teorema 4.7 Descomposición en valores singulares SiA 2 Rmn es una matriz de rango r existen matricesortogonales U 2 Rmm y V 2 Rnn tales que

A D U†V T ,donde † D

h†r 00 0

i, † 2 Rmn y †r D diag.1, 2; : : : ; r/, con 1 2 r > 0. Si las matrices

U y V se escriben como U D Œu1; : : : ;um y V D Œv1; : : : ; vn, los ui y vi son los vectores singularesizquierdos y derechos, respectivamente, correspondientes a los valores singulares i , i D 1; : : : ; r .

DEMOSTRACIÓN. Sean x 2 Rn e y 2 Rm dos vectores tales que

kxk2 D kyk2 D 1 y Ax D y; con D kAk2:

La existencia de estos vectores x e y está garantizada por la definición de kAk2.Sean las dos matrices ortogonales

V D Œx V 1 2 Rnn y U D Œy U 1 2 Rmm

(siempre es posible ampliar un conjunto de vectores ortogonales hasta formar una base ortonormal de Rn).Como U T1Ax D U T1 y D 0, la matriz U TAV tiene la siguiente estructura:

A1 D U TAV D"yT

U T1

#A Œx V 1 D

" wT

0 B

#;

19

Page 22: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

4 Matrices

donde B D U T1AV 1 2 R.m1/.n1/ y wT D yTAV 1. Dado que kA1 Πw k2 D h2CwT w

Bw

i 2 2 C

wTw, como

kA1 Πw k2 kA1k2 kΠw k2 D kA1k2q2 CwTw2;

se cumple que kA1k2 .2 CwTw/1=2. Como las matrices U y V son ortogonales, kA1k2 D kAk2 D ypor consiguiente w D 0. La argumentación de la demostración se completa por inducción.

Los valores singulares de A son las longitudes de los semiejes del hiperelipsoide E definido, a partir de laesfera unidad y el operador A, por

E D fy W y D Ax; kxk2 D 1g :

En la figura 4.7 se describe gráficamente el caso en que m D n D 2.

xAx

σ1σ2

Ax

Figura 4.7: Representación en dos dimensiones de una transformación lineal de la esfera unidad

Si A es una matriz n n, j det.A/j D 1 2 n. Para una matriz A 2 Rmn cuya descomposición envalores singulares es A D U†V T , se define su matriz pseudoinversa, A, como

A D V †U T ;

donde† D diag.11 ; : : : ; 1r ; 0; : : : ; 0/ 2 Rnm :

Si A 2 Rmn es de rango completo y m > n, A D ATA1AT ; si m < n, A D AT AAT 1.Para cualquier matrizA 2 Rmn, la matrizAA es la matriz nn de proyección ortogonal sobre el subespaciode los vectores fila de A, AA la m m de proyección ortogonal sobre la imagen de la matriz A (subespaciode sus vectores columna) y .I AA/ la de proyección ortogonal sobre el núcleo de A, ker.A/.La matriz Amn D U†V T , de rango r , se puede escribir como la suma de r matrices de rango uno así

A DrXiD1

iuivTi ;

donde los ui y vi son los vectores columna i -ésimos de U y V . Dada la descomposición en valores singularesde A, de rango r , los vectores singulares izquierdos fu1; : : : ;urg conforman una base ortonormal de Im.A/y furC1; : : : ;umg otra base ortonormal de ker.AT /. Igualmente, fvrC1; : : : ; vng es una base ortonormal deker.A/ y fv1; : : : ; vrg una base ortonormal de Im.AT /.

4.3.3 Formas cuadráticasUna forma cuadrática en n variables es un polinomio de segundo grado en esas variables. La expresión másgeneral de una forma cuadrática es

q.x/ D xTQx ;

20

Page 23: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

5 Teorema de la proyección

donde Q D QT es una matriz simétrica de orden n. Nos limitaremos al análisis de formas cuadráticas concoeficientes reales.Mediante una transformación lineal de variables, x D T y , una forma cuadrática se puede reducir a la formacanónica de suma de cuadrados siguiente:

q.x/ DpXiD1

y2i pCqXiDpC1

y2i :

El rango de la forma es p C q y la signatura p q (p números positivos y q negativos).Una forma cuadrática real es definida positiva si para todo vector x ¤ 0, q.x/ > 0. El rango y signatura deuna forma cuadrática definida positiva valen n. SiQ la forman los coeficientes qij y se introducen los númerosmenores como

i D det

2664q11 q12 q1iq21 q22 q2i:::

:::: : :

:::qi1 qi2 qi i

3775 ;

la forma cuadrática asociada aQ es definida positiva si y sólo si todos los menores i son positivos.Sean 1; : : : ; n los valores propios —que sabemos son reales— de la matrizQ. Por el teorema espectral, existeuna matriz ortogonal P tal que PTQP D diag.1; : : : ; n/. Haciendo en la forma cuadrática q.x/ D xTQxel cambio de variables x D Py , se tiene que

q.x/ D yTPTQPy D 1y21 C C ny2n ;lo que hace ver que el rango de la forma cuadrática es el número total —teniendo en cuenta las multiplicidades—de valores propios no nulos de Q, mientras que la signatura coincide con la diferencia entre los números devalores propios positivos y negativos. En particular, la forma cuadrática asociada a Q es definida positiva si ysólo si todos los valores propios deQ son positivos.En ciertos casos es importante acotar el cociente de una forma cuadrática al cuadrado de la norma euclídea, esdecir, el cociente

r.x/ D xTQx

xTx; x ¤ 0 :

Mediante una transformación ortogonal x D Py , este cociente se escribe como

r.x/ D 1y21 C C ny2ny21 C C y2n

;

de manera que se deducen las acotaciones

min.Q/ xTQx

xTx max.Q/ :

Estas acotaciones no se pueden mejorar ya que siQv D v, vT Qv

vT vD .

5 Teorema de la proyección

G RAN parte de las teorías de sistemas de ecuaciones y de optimización que se estudian en la asignaturaestán basadas en unos pocos resultados simples e intuitivos. Entre estos, quizás el más sencillo yusado sea el teorema de la proyección. Su aplicación en la teoría de mínimos cuadrados lineales esfundamental. En un espacio Euclídeo ordinario de tres dimensiones determina que la distancia más

corta de un punto exterior a un plano a ese plano la proporciona la perpendicular al plano desde dicho punto.La expresión formal de este teorema en espacios de Hilbert es la que sigue.

Teorema 5.1 Sea H un espacio de Hilbert y M un subespacio cerrado de H . Para todo vector x 2 H existeun único vector m0 2 M tal que kx m0k2 kx mk2, para todo m 2 M . La condición necesaria ysuficiente además para quem0 2M sea el vector mínimo único es que x m0 sea ortogonal a M .

21

Page 24: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

5 Teorema de la proyección

DEMOSTRACIÓN. Primero probaremos que si m0 es un vector que minimiza kx mk, x m0 es ortogonala M . Supongamos para ello, por el contrario, que existe un m que no es ortogonal a x m0; sin pérdida degeneralidad podemos suponer que kmk D 1 y que hx m0jmi D ı ¤ 0. Definamos el vector m1 2 M comom1 D m0 C ım. Tendremos que

kx m1k22 D kx m0 ımk22 D kx m0k22 hx m0jımi hımjx m0i C jıj2D kx m0k22 jıj2 < kx m0k22:

De esta manera, si x m0 no es ortogonal a M ,m0 no es el mínimo que decíamos.Veamos ahora cómo, si x m0 es ortogonal al subespacio M , m0 es el único vector de M que minimizakx mk2. En efecto, para todom 2M , el teorema de Pitágoras dice que

kx mk22 D kx m0 Cm0 mk22 D kx m0k22 C km0 mk22:

Por lo tanto kx mk2 > kx m0k2 param ¤ m0.Demostraremos ahora la existencia de un m0 que minimiza kx mk2. Si x 2 M , entonces m0 D x y todoestaría probado como es obvio. Si x … M , definamos un ı D Kınfm2M kx mk2; lo que queremos es obtenerunm0 2M tal que kx m0k2 D ı.A tal fin, sea fm.i/g una sucesión de vectores en M tal que kx m.i/k2 ! ı. Por la ley del paralelogramo9 setiene que

.m.j / x/C .x m.i// 22C .m.j / x/ .x m.i//

22D 2

m.j / x 22C 2

x m.i/ 22:

Reordenando, se obtiene

m.j / m.i/ 22D 2

m.j / x 22C 2

x m.i/ 22 4

x m.i/ Cm.j /

2

2

2

:

Para todo i; j , el vector .m.i/ Cm.j //=2 está en M pues éste es un espacio vectorial (lineal). De la definiciónde ı se deduce que kx .m.i/ Cm.j //=2k2 ı, por lo que

m.j / m.i/ 22 2

m.j / x 22C 2

x m.i/ 22 4ı2:

Como km.i/ xk22 ! ı2 cuando i ! 1, km.j / m.i/k22 ! 0 cuando i; j ! 1. Es decir, fm.i/g es unasucesión de Cauchy; como M es un subespacio cerrado, la sucesión fm.i/g tiene un límite m0 en M y, debidoa la continuidad de la norma, kx m0k2 ! ı.

Como km.i/xk22 ! ı2 cuando i !1, km.j /m.i/k22 ! 0 cuando i; j !1. Es decir, fm.i/g esuna sucesión de Cauchy; como M es un subespacio cerrado, la sucesión fm.i/g tiene un límitem0 enM y, debido a la continuidad de la norma, kx m0k2 ! ı.

El teorema de la proyección pone en evidencia que la solución del problema

minimizart

ktx yk

es el vector proyección ortogonal de y sobre x: tx en la figura.

Exercise

given two n-vectors x 6= 0, y

minimize (over t) ‖tx − y‖

geometrically, tx is the projection of a vector y on the line through 0 and x

0

Vectors 1-20

y

tx

x

8 Conjuntos convexos

Un conjunto C Rn se dice convexo si y sólo si para todo par de puntos x1;x2 2 C todas lascombinaciones de la forma x D x1 C .1 /x2, con 0 1, están en C . Es decir, cuando paracada par de puntos del conjunto convexo, todos los puntos de la recta que los une están en el conjunto.

tal que jx xj < . Si f .x/ > f .x/ para todo x 2 , x ¤ x, a una distancia menor que dex, se dice que x es un mínimo relativo estricto de f en .

Proposición 8.1 (Condiciones necesarias de primer orden) Sea un subconjunto de Rn y unafunción f W ! R, f 2 C 1. Si x en un mínimo relativo de f en, para toda dirección d 2 Rn,factible desde x, se cumple que rf .x/d 0.

Corolario 8.2 Sea un subconjunto de Rn y una función f W ! R, f 2 C 1. Si x es unmínimo relativo de f en y x es un punto interior de , se cumple que rf .x/ D 0.

Proposición 8.3 (Condiciones necesarias de segundo orden) Sea un subconjunto de Rn y unafunción f W ! R, f 2 C 2. Si x en un mínimo relativo de f en, para toda dirección d 2 Rn,factible desde x, se cumple que:

rf .x/d 0:Si rf .x/d D 0; entonces dTr2f .x/d 0:

Proposición 8.4 (Condiciones necesarias de segundo orden) Sea x un punto interior de y su-póngase que también un mínimo relativo de f W ! R, f 2 C 2. Entonces:

rf .x/ D 0:Para todo d ; dTr2f .x/d 0:

Proposición 8.5 (Condiciones suficientes de segundo orden) Sea f 2 C 2 una función definida enuna región en la cual x es un punto interior. Supóngase además que:

rf .x/ D 0:La matriz Hessiana r2f .x/ es definida positiva:

x es entonces un mínimo relativo estricto de f .

9 Conjuntos convexos

Un conjunto C Rn se dice convexo si y sólo si para todo par de puntos x1;x2 2 C todas lascombinaciones de la forma x D x1 C .1 /x2, con 0 1, están en C . Es decir, cuando paracada par de puntos del conjunto convexo, todos los puntos de la recta que los une están en el conjunto.

La expresión x D x1 C .1 /x2, 0 1, define la combinación convexa de x1 y x2. Si0 < < 1, es decir 2 .0; 1/, la combinación se denomina estrictamente convexa.

25

Conjunto convexo Conjunto no convexo

La expresión x D x1 C .1 /x2, 0 1, define la combinación convexa de x1 y x2. Si0 < < 1, es decir 2 .0; 1/, la combinación se denomina estrictamente convexa.

El concepto de combinación convexa se puede generalizar a cualquier número finito de puntos dela siguiente manera:

x DpXiD1

ixi ;

dondepXiD1

i D 1; i 0; i D 1; : : : ; p:

El conjunto intersección de todos los conjuntos convexos que contienen a un subconjunto S Rnse llama envoltura convexa de S y se designa por conv.S/.

23

Figura 5.8: Solución de minimizart ktx yk

El teorema de la proyección pone en evidencia que la solución del problema

minimizart

ktx yk

es el vector proyección ortogonal de y sobre x: tx en la figura 5.8.

9Para u, w 2M , juCwj2 C ju wj2 D 2juj2 C 2jwj2.

22

Page 25: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

6 Funciones

6 Funciones

R ECORDEMOS que una función es un caso particular de aplicación donde los conjuntos origen eimagen son conjuntos de números.Una función f W Rn ! R se dice continua en x si para toda sucesión fx.k/g que converge a x

(expresado x.k/ ! x), se cumple que f .x.k// ! f .x/. De forma equivalente, f se dice continua en x sidado un " > 0, existe un ı > 0 tal que

ky xk < ı H) kf .y/ f .x/k < " :Una función f W R! R tiene como derivada la función

f 0.x/ D df .x/

dxD lKımh!0

f .x C h/ f .x/h

;

supuesto ese límite existe. Una función f que es derivable en un punto x D a es continua en a.Una función f W R! R se dice satisface la condición de Lipschitz con constante en un conjunto X , si paratodo x e y pertenecientes a X se cumple que

jf .x/ f .y/j jx yj:Una función que satisface la condición de Lipschitz en un conjunto X se dice continua -Lipschitz en ese X ,designándose f 2 Lip .X/.Dada una norma vectorial k k en Rn y otra matricial k k en Rmn,m; n > 0, una función g W Rn ! Rmn sedice satisface la condición de Lipschitz con constante en un abiertoD Rn, si para todo x e y pertenecientesa D se cumple que

kg.x/ g.y/k kx yk:Una función g que satisface la condición de Lipschitz enD se dice continua -Lipschitz en eseD, designándoseg 2 Lip .D/.Un resultado muy interesante referido a funciones continuas es el teorema de Weierstrass, que dice que unafunción continua definida en un conjunto compacto S tiene un punto donde alcanza un mínimo en S . Es decir,existe un x 2 S tal que para todo x 2 S , f .x/ f .x/.Un conjunto de funciones f1; f2; : : : ; fm de Rn en R se puede considerar como una función vectorial

f D Œf1; f2; : : : ; fmT :Esta función asigna a todo vector x 2 Rn otro vector f .x/ D Œf1.x/; f2.x/; : : : ; fm.x/T de Rm. Tal funciónvectorial se dice continua si lo es cada uno de sus componentes f1; f2; : : : ; fm.Si cada una de las funciones de f D Œf1; f2; : : : ; fm

T es continua en algún conjunto abierto de Rn, se dicef 2 C . Si además cada función componente tiene derivadas parciales de primer orden continuas en ese abierto,se dice que f 2 C 1. En general, si las funciones componentes tienen derivadas parciales de orden p continuas,se indica f 2 Cp.Si f W Rn ! R y f 2 C 1, se define el vector gradiente de f como el vector

rf .x/ D@f .x/

@x1;@f .x/

@x2; : : : ;

@f .x/

@xn

T:

También se puede ver expresado alguna vez como fx.x/.Si f 2 C 2, se define la matriz Hessiana de f en x —por Ludwig Otto Hesse, Alemania 1811-1874— comola matriz n n

r2f .x/ D

266666666664

@2f .x/

@2x1

@2f .x/

@x1@x2 @

2f .x/

@x1@xn

@2f .x/

@x2@x1

@2f .x/

@2x2 @

2f .x/

@x2@xn:::

:::: : :

:::

@2f .x/

@xn@x1

@2f .x/

@xn@x2 @

2f .x/

@2xn

377777777775

:

23

Page 26: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

6 Funciones

A esta matriz también se la puede ver designada como F .x/.Para la función vectorial f D Œf1; f2; : : : ; fm

T , f 2 C 1, se define la matriz Jacobiana —por Carl GustavJacob Jacobi, Alemania 1804-1851— como la matriz m n

rf .x/ D J .x/ D

26666666664

@f1.x/

@x1

@f1.x/

@x2 @f1.x/

@[email protected]/

@x1

@f2.x/

@x2 @f2.x/

@xn:::

:::: : :

:::

@fm.x/

@x1

@fm.x/

@x2 @fm.x/

@xn

37777777775:

Si f 2 C 2, es posible definir m Hessianas F1.x/;F2.x/; : : : ;Fm.x/ para cada una de las f1; : : : ; fm.Una función f W Rn ! Rm es afín si es la suma de una función lineal y una constante; es decir, tiene la formaf .x/ D Ax C b, donde A 2 Rmn y b 2 Rm.

Teorema 6.1 Teorema de Taylor Si f W Rn ! R y f 2 C 1 en una región que contiene el segmentoŒx1; x2, es decir puntos ˛x1C .1 ˛/x2; 0 ˛ 1, existe un , 0 1, tal que

f .x2/ D f .x1/CrT fx1 C .1 /x2

.x2 x1/:

Además, si f 2 C 2, existe un ; 0 1, tal que

f .x2/ D f .x1/CrT f .x1/.x2 x1/C 1

2.x2 x1/TF

x1 C .1 /x2

.x2 x1/ ;

donde F denota la matriz Hessiana de f .Si la función f W R! R es continua y derivable k C 1 veces en un intervalo, o segmento, Œx; x0, existe unb entre x y x0 tal que

f .x/ D f .x0/C f 0.x0/x x0

C f 00.x0/2Š

x x0

2 C f 000.x0/3Š

x x0

3 C Cf

.k/.x0/

x x0

k C f .kC1/.b/.k C 1/Š

x x0

kC1:

Las aproximaciones por este teorema para una función concreta, sen.x/, se pueden ver en la figura 6.9.Una función f W Rn ! R se dice convexa (figura 6.10) si cumple que f .˛x C ˇy/ f .x/C f .y/ paratodo x;y 2 Rn y todo ˛; ˇ 2 R, con ˛ C ˇ D 1, ˛ 0, ˇ 0. Si S Rn es un conjunto convexo yf W Rn ! Rm es una función afín, la imagen de f .S/ D ff .x/ W x 2 Sg es un conjunto convexo. De formasimilar, si f W Rk ! Rn es una función afín, la imagen inversa f 1.S/ D fx W f .x/ 2 Sg también esconvexa.

Teorema 6.2 Teorema del valor intermedio Si f W R ! R es una función continua en el intervalo Œa; b,toma todos los valores entre f .a/ y f .b/. Más concretamente, si y es un número entre f .a/ y f .b/, existeun número c dentro de Œa; b, es decir, tal que a c b, en el que f .c/ D y.

Teorema 6.3 Teorema del valor medio Si f W R ! R es una función continua y derivable en el intervaloŒa; b, existe un número c entre a y b tal que f 0.c/ D f .b/ f .a/=.b a/.Teorema 6.4 Teorema de Rolle Si f W R ! R es una función continua y derivable en el intervalo Œa; b ysuponemos que f .a/ D f .b/, existe entonces un número c, entre a y b, tal que f 0.c/ D 0. GENERALIZA-CIÓN Si f W R! R es continua y derivable n1 veces en Œa; b y la derivada de orden n existe en el abierto.a; b/, y existen n intervalos a1 < b1 a2 < b2 : : : an < bn en Œa; b, tales que f .ak/ D f .bk/ paratodo k D 1 : : : n, existe un número c en .a; b/ tal que la derivada de orden n de f en c es cero.

24

Page 27: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

6 Funciones

Figura 6.9: Función sen.x/ y, en x D 0, las aproximaciones por Taylor de primer orden, de orden 3, 5, 7, 9, 11y 13

7.4 Convex and Concave Functions 193

y = f(x)

xconvex

(a)

f

xnonconvex

(c)

f

xconvex

(b)

Fig. 7.3 Convex and nonconvex functions

y

Figura 6.10: Función convexa

Teorema 6.5 Primer teorema del valor medio de las integrales Si f W R! R es una función continua en elintervalo Œa; b, existe entonces al menos un número c entre a y b tal que

Z b

a

f .x/ dx D f .c/.b a/:

Figura 6.11: Teorema del valor intermedio

20 | CHAPTER 0 Fundamentals

a b

y

c

(a)

a bc

f (c)

(b)

a b

f (c)

c

(c)

Figure 0.1 Three important theorems from calculus. There exist numbers c between

a and b such that: (a) f (c) = y, for any given y between f (a) and f (b), by Theorem

0.4, the Intermediate Value Theorem (b) the instantaneous slope of f at c equals

(f (b) − f (a))/(b − a) by Theorem 0.6, the Mean Value Theorem (c) the vertically shaded

region is equal in area to the horizontally shaded region, by Theorem 0.9, the Mean

Value Theorem for Integrals, shown in the special case g(x) = 1.

THEOREM 0.4 (Intermediate Value Theorem) Let f be a continuous function on the interval [a,b]. Thenf realizes every value between f (a) and f (b). More precisely, if y is a number betweenf (a) and f (b), then there exists a number c with a ≤ c ≤ b such that f (c) = y.

EXAMPLE 0.7 Show that f (x) = x2 − 3 on the interval [1,3] must take on the values 0 and 1.

Because f (1) = −2 and f (3) = 6, all values between −2 and 6, including 0 and1, must be taken on by f . For example, setting c = √

3, note that f (c) = f (√

3) = 0, andsecondly, f (2) = 1.

THEOREM 0.5 (Continuous Limits) Let f be a continuous function in a neighborhood of x0, and assumelimn→∞ xn = x0. Then

limn→∞f (xn) = f

(lim

n→∞xn

)= f (x0).

In other words, limits may be brought inside continuous functions.

THEOREM 0.6 (Mean Value Theorem) Let f be a continuously differentiable function on the interval[a,b]. Then there exists a number c between a and b such that f ′(c) = (f (b) − f (a))/

(b − a).

EXAMPLE 0.8 Apply the Mean Value Theorem to f (x) = x2 − 3 on the interval [1,3].The content of the theorem is that because f (1) = −2 and f (3) = 6, there must

exist a number c in the interval (1,3) satisfying f ′(c) = (6 − (−2))/(3 − 1) = 4. It is easyto find such a c. Since f ′(x) = 2x, the correct c = 2.

The next statement is a special case of the Mean Value Theorem.

THEOREM 0.7 (Rolle’s Theorem) Let f be a continuously differentiable function on the interval [a,b],and assume that f (a) = f (b). Then there exists a number c between a and b such thatf ′(c) = 0.

25

Page 28: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

6 Funciones20 | CHAPTER 0 Fundamentals

a b

y

c

(a)

a bc

f (c)

(b)

a b

f (c)

c

(c)

Figure 0.1 Three important theorems from calculus. There exist numbers c between

a and b such that: (a) f (c) = y, for any given y between f (a) and f (b), by Theorem

0.4, the Intermediate Value Theorem (b) the instantaneous slope of f at c equals

(f (b) − f (a))/(b − a) by Theorem 0.6, the Mean Value Theorem (c) the vertically shaded

region is equal in area to the horizontally shaded region, by Theorem 0.9, the Mean

Value Theorem for Integrals, shown in the special case g(x) = 1.

THEOREM 0.4 (Intermediate Value Theorem) Let f be a continuous function on the interval [a,b]. Thenf realizes every value between f (a) and f (b). More precisely, if y is a number betweenf (a) and f (b), then there exists a number c with a ≤ c ≤ b such that f (c) = y.

EXAMPLE 0.7 Show that f (x) = x2 − 3 on the interval [1,3] must take on the values 0 and 1.

Because f (1) = −2 and f (3) = 6, all values between −2 and 6, including 0 and1, must be taken on by f . For example, setting c = √

3, note that f (c) = f (√

3) = 0, andsecondly, f (2) = 1.

THEOREM 0.5 (Continuous Limits) Let f be a continuous function in a neighborhood of x0, and assumelimn→∞ xn = x0. Then

limn→∞f (xn) = f

(lim

n→∞xn

)= f (x0).

In other words, limits may be brought inside continuous functions.

THEOREM 0.6 (Mean Value Theorem) Let f be a continuously differentiable function on the interval[a,b]. Then there exists a number c between a and b such that f ′(c) = (f (b) − f (a))/

(b − a).

EXAMPLE 0.8 Apply the Mean Value Theorem to f (x) = x2 − 3 on the interval [1,3].The content of the theorem is that because f (1) = −2 and f (3) = 6, there must

exist a number c in the interval (1,3) satisfying f ′(c) = (6 − (−2))/(3 − 1) = 4. It is easyto find such a c. Since f ′(x) = 2x, the correct c = 2.

The next statement is a special case of the Mean Value Theorem.

THEOREM 0.7 (Rolle’s Theorem) Let f be a continuously differentiable function on the interval [a,b],and assume that f (a) = f (b). Then there exists a number c between a and b such thatf ′(c) = 0.

Figura 6.12: Teorema del valor medio

Figura 6.13: Teorema de Rolle

Teorema 6.6 Segundo teorema del valor medio de las integrales Si f W R! R es una función continua enel intervalo Œa; b y g W R ! R una función integrable que no cambia de signo en Œa; b, existe entonces unnúmero c entre a y b tal que Z b

a

f .x/g.x/ dx D f .c/Z b

a

g.x/ dx:20 | CHAPTER 0 Fundamentals

a b

y

c

(a)

a bc

f (c)

(b)

a b

f (c)

c

(c)

Figure 0.1 Three important theorems from calculus. There exist numbers c between

a and b such that: (a) f (c) = y, for any given y between f (a) and f (b), by Theorem

0.4, the Intermediate Value Theorem (b) the instantaneous slope of f at c equals

(f (b) − f (a))/(b − a) by Theorem 0.6, the Mean Value Theorem (c) the vertically shaded

region is equal in area to the horizontally shaded region, by Theorem 0.9, the Mean

Value Theorem for Integrals, shown in the special case g(x) = 1.

THEOREM 0.4 (Intermediate Value Theorem) Let f be a continuous function on the interval [a,b]. Thenf realizes every value between f (a) and f (b). More precisely, if y is a number betweenf (a) and f (b), then there exists a number c with a ≤ c ≤ b such that f (c) = y.

EXAMPLE 0.7 Show that f (x) = x2 − 3 on the interval [1,3] must take on the values 0 and 1.

Because f (1) = −2 and f (3) = 6, all values between −2 and 6, including 0 and1, must be taken on by f . For example, setting c = √

3, note that f (c) = f (√

3) = 0, andsecondly, f (2) = 1.

THEOREM 0.5 (Continuous Limits) Let f be a continuous function in a neighborhood of x0, and assumelimn→∞ xn = x0. Then

limn→∞f (xn) = f

(lim

n→∞xn

)= f (x0).

In other words, limits may be brought inside continuous functions.

THEOREM 0.6 (Mean Value Theorem) Let f be a continuously differentiable function on the interval[a,b]. Then there exists a number c between a and b such that f ′(c) = (f (b) − f (a))/

(b − a).

EXAMPLE 0.8 Apply the Mean Value Theorem to f (x) = x2 − 3 on the interval [1,3].The content of the theorem is that because f (1) = −2 and f (3) = 6, there must

exist a number c in the interval (1,3) satisfying f ′(c) = (6 − (−2))/(3 − 1) = 4. It is easyto find such a c. Since f ′(x) = 2x, the correct c = 2.

The next statement is a special case of the Mean Value Theorem.

THEOREM 0.7 (Rolle’s Theorem) Let f be a continuously differentiable function on the interval [a,b],and assume that f (a) = f (b). Then there exists a number c between a and b such thatf ′(c) = 0.

Figura 6.14: Teorema del valor medio de las integrales

Teorema 6.7 Si f W R! R es una función continua en el intervalo Œa; b y a c b, entonces

d

dx

Z x

c

f .t/ dt D f .x/

para todo x en Œa; b.

26

Page 29: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

6 Funciones

Teorema 6.8 Integración por partes Sean u.x/ y v.x/ funciones reales continuas con derivadas continuas.Entonces Z

u0.x/v.x/ dx D u.x/v.x/ Zu.x/v0.x/ dx:

6.1 Condiciones necesarias y suficientes de primer y segundo orden que ha de cumplir un puntomínimo

Se trata de definir condiciones necesarias y suficientes para determinar si dada f W ! R, 2 Rn, un puntox cumple

minimizarx

f .x/:

Un punto x 2 se dice que es un mínimo local de la función f W ! R si existe un > 0 tal quef .x/ f .x/ para todo x 2 a una distancia menor que de x. Es decir, para todo x 2 tal quejx xj < . Si f .x/ > f .x/ para todo x 2 , x ¤ x, a una distancia menor que de x, se dice que xes un mínimo local estricto de f en .

Teorema 6.9 Condiciones necesarias de primer orden Sea un subconjunto de Rn y una función f W !R, f 2 C 1. Si x en un mínimo local de f en , se cumple que rf .x/ D 0.

Si en x se cumple que rf .x/ D 0, al punto x se le denomina estacionario.

Teorema 6.10 Condiciones necesarias de segundo orden Sea un subconjunto de Rn y una función f W ! R, f 2 C 2. Si x en un mínimo local de f en , se cumple que rf .x/ D 0 y r2f .x/ essemidefinida positiva.

Teorema 6.11 Condiciones suficientes de segundo orden Sea un subconjunto de Rn y una función f W ! R, f 2 C 2. Si se cumple que rf .x/ D 0 y r2f .x/ es definida positiva, x en un mínimo localestricto de f en .

Teorema 6.12 Si f es convexa, cualquier mínimo local x es un mínimo global de f . Si además f esderivable, cualquier mínimo local x es un mínimo global de f .

6.2 Teorema de la función implícita

Teorema 6.13 Sea x0 D Œx01; x02

; : : : ; x0nT un punto de Rn que satisface estas condiciones:

(a) Las m funciones fi 2 Cp, i D 1; 2; : : : ; m, en algún entorno de x0, para alguna p 1.

(b) fi .x0/ D 0; i D 1; 2; : : : ; m:

(c) La matriz Jacobiana de la función vectorial, rf .x0/ D

26664

@f1.x0/

@x1 @f1.x0/

@xm:::: : :

:::@fm.x0/

@x1 @fm.x0/

@xm

37775, es regular.

Entonces existe un entorno de Ox0 D Œx0mC1; x0mC2

; : : : ; x0nT 2 Rnm tal que para Ox D

ŒxmC1; xmC2; : : : ; xnT en ese entorno existen funciones i . Ox/, i D 1; 2; : : : ; m tales que:

(i) i 2 Cp.

(ii) x0iD i . Ox0/; i D 1; 2; : : : ; m.

(iii) fi .1. Ox/; 2. Ox/; : : : ; m. Ox/; Ox/ D 0; i D 1; 2; : : : ; m.

27

Page 30: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

7 Optimización y Programación Matemática

Este teorema10 es muy útil para respaldar la caracterización de puntos óptimos en programación matemáticacon y sin condiciones, solución de ecuaciones lineales y no lineales y muchos otros aspectos que analizamosen la asignatura.Supóngase que se tiene una función vectorial f W Rn ! Rm que cumple que fi .x/ D 0, i D 1; 2; : : : ; m: Elteorema de la función implícita estudia, si n m de las variables son fijas, si el problema se puede resolver enm incógnitas. Es decir, si x1, x2; : : : ; xm se pueden expresar en función de las restantes n m de la forma

xi D i .xmC1; xmC2; : : : ; xn/ ; i D 1; 2; : : : ; m:A las funciones i W Rnm ! R, si existen, se las denomina funciones implícitas.

Ejemplo 6.1 Consideremos la ecuación x21 C x2 D 0. Una solución de la misma es x1 D, x2 D 0. En unentorno de esta solución, sin embargo, no hay función tal que x1 D .x2/. En esta solución no se cumple lacondición .c/ del teorema de la función implícita. En cualquier otra solución si existe dicha . uEjemplo 6.2 Sea A una matriz m n y considérese el sistema de ecuaciones lineales Ax D b. Si A seestructura así,A D ŒB;C , dondeB esmm, entonces se satisface la condición .c/ del teorema de la funciónimplícita si, y sólo si, B es regular. Esta condición se corresponde con los requisitos y enunciados de la teoríade ecuaciones lineales. La función implícita se puede considerar como una generalización no lineal de la teoríalineal. u7 Optimización y Programación Matemática

L A OPTIMIZACIÓN o Programación Matemática tiene por objeto de estudio el problema general

minimizarx2Rn

f .x/

sujeta a ci .x/ D 0; i 2 E ;cj .x/ 0; j 2 I:

Las función objetivo f y las condiciones ci y cj son, en general, no lineales, continuas y tienen derivadas par-ciales continuas hasta al menos primer orden. Los conjuntos E y I contienen los índices de las condiciones queson de igualdad y de desigualdad, respectivamente. El conjunto de puntos que satisfacen todas las condicionesse denomina región factible.Para caracterizar las soluciones de estos problemas y definir sus algoritmos y procedimientos de resolución laoptimización presta una atención fundamental a los conjunto convexos.

Examples of convex sets• A line segment is a convex set.

Fig. 4.9. Convex setswith pairs of pointsjoined by line segments.

Title Page 38 of 156 Go Back Full Screen Close Quit

Examples of non-convex sets• The union of two non-overlapping line segments is non-convex.• Non-convex sets can have “indentations.”

Fig. 4.10. Non-convexsets.

Title Page 39 of 156 Go Back Full Screen Close QuitFigura 7.15: Conjuntos convexos –izquierda–; no convexos –derecha–

7.1 Conjuntos convexos

Un conjunto C Rn se dice convexo si y sólo si para todo par de puntos x1;x2 2 C todas las combinacionesde la forma x D x1 C .1 /x2, con 0 1, están en C . Es decir, cuando para cada par de puntos delconjunto convexo todos los de la recta que los une están en el conjunto.

10Sus orígenes están asociados a Newton, Leibnitz y Lagrange, aunque fue formulado por Cauchy

28

Page 31: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

7 Optimización y Programación Matemática

La expresión x D x1 C .1 /x2, 0 1, define la combinación convexa de x1 y x2. Si 0 < < 1, esdecir 2 .0; 1/, la combinación se denomina estrictamente convexa.El concepto de combinación convexa se puede generalizar a cualquier número finito de puntos de la siguientemanera:

x DpXiD1

ixi ;

dondePpiD1 i D 1, i 0, i D 1; : : : ; p.

El conjunto intersección de todos los conjuntos convexos que contienen a un subconjunto S Rn se llamaenvoltura convexa de S (figura 7.16) y se designa por conv.S/.

24 2 Convex sets

Figure 2.2 Some simple convex and nonconvex sets. Left. The hexagon,which includes its boundary (shown darker), is convex. Middle. The kidneyshaped set is not convex, since the line segment between the two points inthe set shown as dots is not contained in the set. Right. The square containssome boundary points but not others, and is not convex.

Figure 2.3 The convex hulls of two sets in R2. Left. The convex hull of aset of fifteen points (shown as dots) is the pentagon (shown shaded). Right.The convex hull of the kidney shaped set in figure 2.2 is the shaded set.

Roughly speaking, a set is convex if every point in the set can be seen by every otherpoint, along an unobstructed straight path between them, where unobstructedmeans lying in the set. Every affine set is also convex, since it contains the entireline between any two distinct points in it, and therefore also the line segmentbetween the points. Figure 2.2 illustrates some simple convex and nonconvex setsin R2.

We call a point of the form θ1x1 + · · · + θkxk, where θ1 + · · · + θk = 1 andθi ≥ 0, i = 1, . . . , k, a convex combination of the points x1, . . . , xk. As with affinesets, it can be shown that a set is convex if and only if it contains every convexcombination of its points. A convex combination of points can be thought of as amixture or weighted average of the points, with θi the fraction of xi in the mixture.

The convex hull of a set C, denoted convC, is the set of all convex combinationsof points in C:

convC = θ1x1 + · · · + θkxk | xi ∈ C, θi ≥ 0, i = 1, . . . , k, θ1 + · · · + θk = 1.

As the name suggests, the convex hull convC is always convex. It is the smallestconvex set that contains C: If B is any convex set that contains C, then convC ⊆B. Figure 2.3 illustrates the definition of convex hull.

The idea of a convex combination can be generalized to include infinite sums, in-tegrals, and, in the most general form, probability distributions. Suppose θ1, θ2, . . .

Figura 7.16: Envoltura convexa de dos conjuntos de R2. La de la izquierda de 15 puntos; la de la derecha deun conjunto no convexo

Por qué nos interesan en este curso los conjuntos convexos.Optimizing a Convex Function Over a

Convex and a Non-Convex Set

f(x,y) = - x - y

Óptimo global

Óptimo local

Figura 7.17: Optimización de f .x; y/ D x y en un conjunto convexo y en otro que no lo es.

Un conjunto C Rn se dice que es afín (también se dice que C es una variedad afín o una variedad lineal)si para cualesquiera x;y 2 C y cualquier 2 R se tiene que .1 /x C y 2 C . El conjunto vacío esafín. Una combinación afín de vectores v1; v2; : : : ; vn es una combinación lineal c1v1 C C cnvn en la quec1 C C cn D 1.Un conjuntoC Rn es afín si y sólo si es de la formaC D faC l W a 2 Rn; l 2 Lg, dondeL es un subespaciovectorial de Rn asociado a C . Es decir, un conjunto afín es un subespacio desplazado del origen. La dimensiónde un conjunto afín xCL es la de su correspondiente subespacio L. Un plano afín en Rn es un traslado de unsubespacio de Rn. Una recta en Rn es un plano afín de dimensión 1. Es evidente que cualquier conjunto afínes convexo aunque el recíproco no es cierto en general.Si S Rn, la envoltura afín de S , aff.S/, es la intersección de todos los conjuntos afines que contienen a S .Como se puede comprobar, aff.S/ D aff.conv.S//.Un conjunto de puntos o vectores fv1; : : : ; vpg de Rn es afínmente dependiente si existen números realesc1; : : : ; cp no todos cero tales que c1 C C cp D 0 y c1v1 C C cpvp D 0. De lo contrario será afínmenteindependiente.Un simplex o simplejo es la envolvente convexa de un conjunto finito de vectores afínmente independientes.

29

Page 32: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

7 Optimización y Programación Matemática

Para construir un simplex k-dimensional —o k-simplex— se procede como sigue (ver figura 7.18):

0-simplex S0: un solo punto fv1g1-simplex S1: conv.S0 [ fv2g/ con v2 no en aff.S0/

2-simplex S2: conv.S1 [ fv3g/ con v3 no en aff.S1/:::

k-simplex Sk: conv.Sk1 [ fvkC1g/ con vkC1 no en aff.Sk1/.

S 0

v1

v1 v1 v1 v4

v2 v2 v3 v2 v3

S 1 S 2 S 3

S3 4 S2

S2

S2 S1

S1

2 3 1

3 S1 S2

S3

S2 S2

4 S2 S3

S3 S2

S4

S4 S3

5 S3

S4

1 2 4 5 2 3 4 5

v4

v3

v5

v2

v1

v4

v3

v5

v2

v1 v4

v3

v5

v2

v1

4 S4 R2

Figura 7.18: El simplex S1 es un segmento de recta. El triángulo S2 proviene de seleccionar un punto v3que no está en la recta que contiene a S1 y después formar la envolvente convexa con S1. El tetraedro S3 seproduce al elegir un punto v4 que no esté en el plano de S2 y después formar la envolvente convexa con S2

Sea S D fv1; : : : ; vkg un conjunto afínmente independiente. Para cada punto p en aff.S/ los coeficientesc1; : : : ; ck de la representación11 p D c1v1 C C ckvk son las coordenadas baricéntricas de p. Estascoordenadas tienen interpretaciones físicas y geométricas de interés. Fueron originalmente definidas en 1827por August F. Möbius, Alemania 1790-1868. Si a D

17

, b D

30

, c D

93

y p D

53

, el punto p en el

centro de la figura 7.19 tiene por coordenadas baricéntricas tres números no negativos ma, mb y mc tales quep es el centro de masa de un sistema que consiste en le triángulo (sin masa) y las masas ma, mb y mc en losvértices correspondientes. Las masas están unívocamente determinadas al requerir que su suma sea 1.

D!1

7

"D!3

0

"D!9

3

"D!5

3

"

f ; ; g

' Q Q Q Q ( D24 1 3 9 5

7 0 3 3

1 1 1 1

35 #

24 1 1 1 1

1 3 9 5

7 0 3 3

35

#

26641 0 0 1

4

0 1 0 13

0 0 1 512

3775

14

13

512

D 14C 1

3C 5

12

m ;m m

m m m

" " " "

." / D 1

4! ." /

." / D 1

3! ." /

." / D 5

12! ." /

área = s área(!abc )

a

b

cp

D r C s C t r D 14

s D 13t D 5

12

R3

R3

·

área = r área(!abc ) ·

área = t área(!abc ) ·

Figura 7.19: Punto p D raC sbC tc. En este caso r D 14

, s D 13

y t D 512:

Proposición 7.1 El conjunto de soluciones de un sistema de ecuaciones lineales, C D fx W Ax D b;A 2Rmn;b 2 Rmg, es un conjunto afín.

DEMOSTRACIÓN. En efecto, supongamos que x1;x2 2 C , es decir, Ax1 D b, Ax2 D b. Entonces, paracualquier ,

A .x1 C .1 /x2/ D Ax1 C .1 /Ax2D bC .1 /bD b;

11Única.

30

Page 33: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

7 Optimización y Programación Matemática

lo que prueba que la combinación afín x1C .1 /x2 está también en el conjunto C . El subespacio asociadocon el conjunto afín C en este caso es el espacio nulo de A, ker.A/.

Un conjunto C Rn se dice un cono si para todo x 2 C , x 2 C , para todo escalar 2 R tal que 0. Un

516 Appendix B Convex Sets

convex nonconvex

x1

x2x2

x1

Fig. B.1 Convexity

C

C

CD

D

C + D

2 . C

0 0

Fig. B.2 Properties of convex sets

Definition. Let S be a subset of En. The convex hull of S, denoted co(S), isthe set which is the intersection of all convex sets containing S. The closedconvex hull of S is defined as the closure of co(S).

Finally, we conclude this section by defining a cone and a convex cone. Aconvex cone is a special kind of convex set that arises quite frequently.

0

Not convex

0

Not convex0

Convex

Fig. B.3 ConesFigura 7.20: Tres conos: el primero y el segundo no son convexos; el tercero si

cono que también es convexo se denomina cono convexo (figura 7.20). En este caso, para todo x1;x2 2 C y1; 2 0, 1x1 C 2x2 2 C .El conjunto fx 2 Rm W x D A˛;A 2 Rmn;˛ 2 Rn;˛ 0g es un cono convexo generado por los vectorescolumna de la matriz A.El conjunto de todas las combinaciones cónicas, 1x1 C C kxk , 1; : : : ; k 0, de los puntos de unconjunto C es la envoltura cónica de C , cone.C /.

26 2 Convex sets

0

x1

x2

Figure 2.4 The pie slice shows all points of the form θ1x1 + θ2x2, whereθ1, θ2 ≥ 0. The apex of the slice (which corresponds to θ1 = θ2 = 0) is at0; its edges (which correspond to θ1 = 0 or θ2 = 0) pass through the pointsx1 and x2.

00

Figure 2.5 The conic hulls (shown shaded) of the two sets of figure 2.3.

Figura 7.21: Envoltura cónica de los dos conjuntos de la figura 7.16

Un punto x es un punto extremo o vértice de un conjunto convexo C si y sólo si no es interior a un segmentode recta contenido en C . Es decir, si y sólo si

x D .1 ˇ/y C ˇz con 0 < ˇ < 1 y y; z 2 C ) x D y D z:

Dos resultados importantes debidos a Constantin Carathéodory, Alemania, 1873-1950, dicen que si X Rn

y x 2 cone.X/, existen xi y i , i D 1; : : : ; n, tales que x D PniD1 ixi . Es decir, cualquier elemento de

la envoltura cónica de X es combinación cónica de, a lo sumo, n puntos de X . Igualmente, si X Rn yx 2 conv.X/, existen xi y i , i D 1; : : : ; nC 1, tales que x DPnC1

iD1 ixi . Es decir, cualquier elemento de laenvoltura convexa de X es combinación convexa de, a lo sumo, nC 1 puntos de X . La figura 7.22 ilustra estosresultados.

26 2 Convex sets

0

x1

x2

Figure 2.4 The pie slice shows all points of the form θ1x1 + θ2x2, whereθ1, θ2 ≥ 0. The apex of the slice (which corresponds to θ1 = θ2 = 0) is at0; its edges (which correspond to θ1 = 0 or θ2 = 0) pass through the pointsx1 and x2.

00

Figure 2.5 The conic hulls (shown shaded) of the two sets of figure 2.3.

Figura 8.8: Envoltura cónica de los dos conjuntos de la figura 8.6

Un punto x es un punto extremo de un conjunto convexo C si y sólo si no es interior a un segmento de recta contenidoen C . Es decir, si y sólo si

x D .1 ˇ/y C ˇz con 0 < ˇ < 1 y y; z 2 C ) x D y D z:

Dos resultados importantes debido a Carathéodory dicen que si X Rn y x 2 cone.X/, existen xi y i , i D 1; : : : ; n,tales que x DPn

iD1 ixi . Es decir, cualquier elemento de la envoltura cónica de X es combinación cónica de, a lo sumo,n puntos de X . Igualmente, si X Rn y x 2 conv.X/, existen xi y i , i D 1; : : : ; n C 1, tales que x D PnC1

iD1 ixi .Es decir, cualquier elemento de la envoltura convexa de X es combinación convexa de, a lo sumo, nC 1 puntos de X . Lafigura 8.9 ilustra estos resultados.

Aspectos geométricos y topológicos en Optimización Lineal 95

donde R+ := [0,+∞[, y supp (λ) := i ∈ I | λ (i) , 0 , es el soporte de λ. Denota-mos λi := λ (i).

Observación 2.1. Si X := xi , i ∈ I ⊂ Rn para cierto conjunto de índices I,entonces un elemento de conv (X) se puede escribir como

∑i∈Iλixi, para λ ∈ R(I)

+ con∑i∈Iλi = 1. Análogamente, un elemento de cone (X) se puede poner como

∑i∈Iλixi,

para cierto λ ∈ R(I)+ .

Definición 2.8. Llamamos envoltura afín de X ⊂ Rn al menor subconjunto afínque contiene a X, es decir,

a f f (X) :=⋂

A ⊂ Rn : A es afín y X ⊂ A.

Análogamente a los resultados anteriores tenemos que:

Proposición 2.5. Dado X ⊂ Rn, se tiene que:

a f f (X) =

k∑

i=1

λixi : k ∈ N, xi ∈ X, λi ∈ R, i = 1, 2, . . . , k ;k∑

i=1

λi = 1

Teorema de Carathéodory para conos

Teorema 2.1. Si X ⊂ Rn y x ∈ cone (X), existen xi ∈ X y λi ≥ 0, i = 1, 2, · · · , n,

tales que x =n∑

i=1λixi. Es decir, cualquier elemento de la envoltura cónica de X es

combinación cónica de, a lo sumo, n elementos de X.

Teorema de Carathéodory para convexos

Teorema 2.2. Si X ⊂ Rn y x ∈ conv (X), existen xi ∈ X y λi ≥ 0, i = 1, . . . , n + 1,

conn+1∑i=1λi = 1, tales que x =

n+1∑i=1λixi. Es decir, cualquier elemento de la envoltura

convexa de X es combinación convexa de, a lo sumo, n + 1 puntos de X.

Aspectos geométricos y topológicos en Optimización Lineal 95

donde R+ := [0,+∞[, y supp (λ) := i ∈ I | λ (i) , 0 , es el soporte de λ. Denota-mos λi := λ (i).

Observación 2.1. Si X := xi , i ∈ I ⊂ Rn para cierto conjunto de índices I,entonces un elemento de conv (X) se puede escribir como

∑i∈Iλixi, para λ ∈ R(I)

+ con∑i∈Iλi = 1. Análogamente, un elemento de cone (X) se puede poner como

∑i∈Iλixi,

para cierto λ ∈ R(I)+ .

Definición 2.8. Llamamos envoltura afín de X ⊂ Rn al menor subconjunto afínque contiene a X, es decir,

a f f (X) :=⋂

A ⊂ Rn : A es afín y X ⊂ A.

Análogamente a los resultados anteriores tenemos que:

Proposición 2.5. Dado X ⊂ Rn, se tiene que:

a f f (X) =

k∑

i=1

λixi : k ∈ N, xi ∈ X, λi ∈ R, i = 1, 2, . . . , k ;k∑

i=1

λi = 1

Teorema de Carathéodory para conos

Teorema 2.1. Si X ⊂ Rn y x ∈ cone (X), existen xi ∈ X y λi ≥ 0, i = 1, 2, · · · , n,

tales que x =n∑

i=1λixi. Es decir, cualquier elemento de la envoltura cónica de X es

combinación cónica de, a lo sumo, n elementos de X.

Teorema de Carathéodory para convexos

Teorema 2.2. Si X ⊂ Rn y x ∈ conv (X), existen xi ∈ X y λi ≥ 0, i = 1, . . . , n + 1,

conn+1∑i=1λi = 1, tales que x =

n+1∑i=1λixi. Es decir, cualquier elemento de la envoltura

convexa de X es combinación convexa de, a lo sumo, n + 1 puntos de X.

Figura 8.9: El teorema de Carathéodory

Llamaremos hiperplano H de vector característico a 2 Rn; a ¤ 0, al conjunto H D fx 2 Rn W aTx D cg, conc 2 R. Un hiperplano es el conjunto de soluciones de una ecuación lineal en Rn.

Un hiperplano en Rn es un espacio afín o una variedad lineal .n 1/-dimensional.

Dado un hiperplanoH , aTx D c, llamaremos semiespacios cerrados de bordeH a los conjuntosHC D˚x 2 Rn W aTx c

yH D˚x 2 Rn W aTx c, y semiespacios abiertos de bordeH a

ıHCD

˚x 2 Rn W aTx > c y

ıHD

˚x 2 Rn W aTx < c.

Los semiespacios de borde H son convexos; la unión de HC y H es el espacio Rn.

En la figura 8.10 se representa el hiperplano x1C4x2 D 11, su vector característico a D Œ1; 4T y los semiespaciosHC y H.

En un hiperplano aTx D c, la constante c determina el desplazamiento del hiperplano del origen. Un hiperplano sepuede expresar de la forma fx W aT .x x0/ D 0g, donde x0 es cualquier punto del hiperplano (aTx0 D c). Esa últimaexpresión se puede trabajar un poco más pues fx W aT .xx0/ D 0g D x0C a?, donde a? es el complemento ortogonalde a, es decir fv W aT v D 0g. Lo que lleva a que un hiperplano consiste en un desplazamiento x0 más todos los vectoresortogonales al vector característico a: el conjunto de soluciones de aTx D c: x0 C ker.a/, recordemos.

Un politopo es un conjunto formado por la intersección de un número finito de semiespacios cerrados. Un politopocónico es un conjunto formado por la intersección de un número finito de semiespacios cerrados que pasan por un punto.

Un poliedro es un politopo acotado y no vacío. Es fácil comprobar que la intersección de conjuntos convexos es convexay que, por lo tanto, los politopos y los poliedros son conjuntos convexos. Si un politopo P es un poliedro, cualquier puntose puede expresar como combinación convexa de sus puntos extremos.

Teorema 8.1 Sea C un conjunto convexo e y un punto exterior a la adherencia de C . Existe un vector a tal queaTy < Kınfx2C aTx.

21

Figura 7.22: El teorema de Carathéodory

31

Page 34: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

7 Optimización y Programación Matemática

Llamaremos hiperplano H de vector característico a 2 Rn; a ¤ 0, al conjunto H D fx 2 Rn W aTx D cg,con c 2 R. Un hiperplano es el conjunto de soluciones de una ecuación lineal en Rn.Un hiperplano en Rn es un espacio afín o una variedad lineal .n 1/-dimensional.Dado un hiperplano H , aTx D c, llamaremos semiespacios cerrados de borde H a los conjuntos HC D˚x 2 Rn W aTx c y H D

˚x 2 Rn W aTx c. De forma similar, semiespacios abiertos de borde H a

VHC D˚x 2 Rn W aTx > c y VH D

˚x 2 Rn W aTx < c. Los semiespacios de borde H son convexos; la

unión de HC y H es el espacio Rn. En la figura 7.23 se representa el hiperplano x1 C 4x2 D 11, su vectorcaracterístico a D Œ1; 4T y los semiespacios HC y H.

x

H+

H−

H

x0y

a

a

Figura 8.10: Hiperplano x1 C 4x2 D 11 y los semiespacios en los que divide R2

En un hiperplano aTx D c, la constante c determina el desplazamiento del hiperplano del origen.Un hiperplano se puede expresar de la forma fx W aT .x x0/ D 0g, donde x0 es cualquier punto delhiperplano (aTx0 D c). Esa última expresión se puede trabajar un poco más pues fx W aT .xx0/ D0g D x0 C a?, donde a? es el complemento ortogonal de a, es decir fv W aT v D 0g. Lo que llevaa que un hiperplano consiste en un desplazamiento x0 más todos los vectores ortogonales al vectorcaracterístico a: el conjunto de soluciones de aTx D c: x0 C ker.a/, recordemos.

Un politopo es un conjunto formado por la intersección de un número finito de semiespacios cerra-dos. Un politopo cónico es un conjunto formado por la intersección de un número finito de semiespa-cios cerrados que pasan por un punto.

Un poliedro es un politopo acotado y no vacío. Es fácil comprobar que la intersección de conjuntosconvexos es convexa y que por lo tanto los politopos y los poliedros son conjuntos convexos. En estafigura se muestran varios politopos; el del centro es un poliedro.

B.3 Separating and Supporting Hyperplanes 519

Fig. B.5 Polytopes

It is easy to see that half spaces are convex sets and that the union of H+ andH− is the whole space.

Definition. A set which can be expressed as the intersection of a finite numberof closed half spaces is said to be a convex polytope.

We see that convex polytopes are the sets obtained as the family of solutionsto a set of linear inequalities of the form

aT1 x b1

aT2 x b2

· ·· ·· ·

aTmx bm

since each individual inequality defines a half space and the solution family isthe intersection of these half spaces. (If some ai = 0, the resulting set can still, asthe reader may verify, be expressed as the intersection of a finite number of halfspaces.)

Several polytopes are illustrated in Fig. B.5. We note that a polytope may beempty, bounded, or unbounded. The case of a nonempty bounded polytope is ofspecial interest and we distinguish this case by the following.

Definition. A nonempty bounded polytope is called a polyhedron.

B.3 SEPARATING AND SUPPORTINGHYPERPLANES

The two theorems in this section are perhaps the most important results related toconvexity. Geometrically, the first states that given a point outside a convex set, ahyperplane can be passed through the point that does not touch the convex set. Thesecond, which is a limiting case of the first, states that given a boundary point of aconvex set, there is a hyperplane that contains the boundary point and contains theconvex set on one side of it.

Si un politopo P es un poliedro, cualquier punto se puede expresar como combinación convexa desus puntos extremos.

Teorema 8.1 Sea C un conjunto convexo e y un punto exterior a la adherencia de C . Existe unvector a tal que aTy < Kınfx2C aTx.

DEMOSTRACIÓN. Seaı D Kınf

x2Ckx yk2 > 0:

26

Figura 7.23: Hiperplano x1 C 4x2 D 11 y los semiespacios en los que divide R2

En un hiperplano aTx D c la constante c determina el desplazamiento del hiperplano del origen. Un hiperplanose puede expresar de la forma fx W aT .xx0/ D 0g, donde x0 es cualquier punto del hiperplano (aTx0 D c).Esa última expresión se puede trabajar un poco más pues fx W aT .x x0/ D 0g D x0 C a?, donde a? esel complemento ortogonal de a, es decir fv W aT v D 0g. Lo que lleva a que un hiperplano consiste en undesplazamiento x0 más todos los vectores ortogonales al vector característico a: el conjunto de soluciones deaTx D c: x0 C ker.a/, recordemos.Un politopo es un conjunto formado por la intersección de un número finito de semiespacios cerrados. Unpolitopo cónico es un conjunto formado por la intersección de un número finito de semiespacios cerrados quepasan por un punto.Un poliedro es un politopo acotado y no vacío: ver figura 7.24. Es fácil comprobar que la intersección deconjuntos convexos es convexa y que, por lo tanto, los politopos y los poliedros son conjuntos convexos. Siun politopo P es un poliedro, cualquier punto se puede expresar como combinación convexa de sus puntosextremos o vértices.

B.3 Separating and Supporting Hyperplanes 519

Fig. B.5 Polytopes

It is easy to see that half spaces are convex sets and that the union of H+ andH− is the whole space.

Definition. A set which can be expressed as the intersection of a finite numberof closed half spaces is said to be a convex polytope.

We see that convex polytopes are the sets obtained as the family of solutionsto a set of linear inequalities of the form

aT1 x b1

aT2 x b2

· ·· ·· ·

aTmx bm

since each individual inequality defines a half space and the solution family isthe intersection of these half spaces. (If some ai = 0, the resulting set can still, asthe reader may verify, be expressed as the intersection of a finite number of halfspaces.)

Several polytopes are illustrated in Fig. B.5. We note that a polytope may beempty, bounded, or unbounded. The case of a nonempty bounded polytope is ofspecial interest and we distinguish this case by the following.

Definition. A nonempty bounded polytope is called a polyhedron.

B.3 SEPARATING AND SUPPORTINGHYPERPLANES

The two theorems in this section are perhaps the most important results related toconvexity. Geometrically, the first states that given a point outside a convex set, ahyperplane can be passed through the point that does not touch the convex set. Thesecond, which is a limiting case of the first, states that given a boundary point of aconvex set, there is a hyperplane that contains the boundary point and contains theconvex set on one side of it.

Figura 7.24: Diversos politopos: el del centro, un poliedro

Teorema 7.2 Sea C un conjunto convexo e y un punto exterior a la adherencia de C . Existe un vector a talque aT y < Kınfx2C aTx.

DEMOSTRACIÓN. Seaı D Kınf

x2C kx yk2 > 0:

Existe un x0 en la frontera de C tal que kx0yk2 D ı. Esto es así pues la función continua f .x/ D kxyk232

Page 35: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

7 Optimización y Programación Matemática

alcanza su mínimo en cualquier conjunto cerrado y acotado por lo que sólo es necesario considerar x en laintersección de la adherencia de C y la bola abierta de centro y y radio 2ı.A continuación probaremos que a D x0 y satisface las condiciones del enunciado del teorema. En efecto,para cualquier ˛, 0 ˛ 1, al ser C un conjunto convexo, el punto x0 C ˛.x x0/ 2 C , por lo que

kx0 C ˛.x x0/ yk22 kx0 yk22:

Desarrollando,2˛.x0 y/T .x x0/C ˛2kx x0k22 0:

Considerando esta expresión cuando ˛ ! 0C, se tiene que

.x0 y/T .x x0/ 0

o que

.x0 y/Tx .x0 y/Tx0 D .x0 y/T y C .x0 y/T .x0 y/D .x0 y/T y C ı2:

Haciendo a D x0 y queda probado el teorema.

La interpretación geométrica de este teorema es que dado un conjunto convexo C y un punto y exterior a laadherencia de C existe un hiperplano que contiene a y , sin tocar a C , estando C en uno de sus semiespaciosabiertos. Ese hiperplano, de vector característico a en el teorema, se denomina hiperplano separador de C e y .

2.5 Separating and supporting hyperplanes 47

E1

E2

E3

Figure 2.18 Three ellipsoids in R2, centered at the origin (shown as thelower dot), that contain the points shown as the upper dots. The ellipsoidE1 is not minimal, since there exist ellipsoids that contain the points, andare smaller (e.g., E3). E3 is not minimal for the same reason. The ellipsoidE2 is minimal, since no other ellipsoid (centered at the origin) contains thepoints and is contained in E2.

D

C

a

aT x ≥ b aT x ≤ b

Figure 2.19 The hyperplane x | aTx = b separates the disjoint convex setsC and D. The affine function aTx− b is nonpositive on C and nonnegativeon D.

Figura 7.25: Hiperplano separador entre C y D

Si C y D son dos conjuntos convexos disjuntos, C \ D D ;, existe entonces un a ¤ 0 y un b tales queaT x b, para todo x 2 C , y aTx b, para todo x 2 D. Dicho de otra manera, la función aTx b es nopositiva en C y no negativa en D. El hiperplano

˚x W aTx D b es un hiperplano separador de los conjuntos

C y D como se ve en la figura 7.25.Existen bastantes principios de dualidad que se usan en la asignatura (en especial en la teoría y técnicas deoptimización) que relacionan un problema en términos de vectores en un espacio vectorial con otro en térmi-nos de subespacios en ese espacio. En varios de esos principios está presente la relación que se ilustra en lafigura 7.26 que indica que la distancia más corta de un punto a un conjunto convexo es igual al máximo de lasdistancias desde el punto a los hiperplanos que separan el conjunto convexo del punto. El problema original deminimización sobre vectores se convierte en otro de maximización sobre hiperplanos.

Teorema 7.3 Sea C un conjunto convexo e y un punto frontera de C . Existe un hiperplano que contiene a yy a C en uno de sus semiespacios cerrados.

DEMOSTRACIÓN. Sea fy.k/g una sucesión de puntos exteriores a la adherencia de C . Sea fa.k/g la sucesiónde puntos normalizados, ka.k/k2 D 1, obtenida de aplicar el teorema anterior a la sucesión anterior, tales que,

a.k/

Ty.k/ < Kınf

x2C

a.k/

Tx:

33

Page 36: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

7 Optimización y Programación Matemática

2.5 Separating and supporting hyperplanes 47

E1

E2

E3

Figure 2.18 Three ellipsoids in R2, centered at the origin (shown as thelower dot), that contain the points shown as the upper dots. The ellipsoidE1 is not minimal, since there exist ellipsoids that contain the points, andare smaller (e.g., E3). E3 is not minimal for the same reason. The ellipsoidE2 is minimal, since no other ellipsoid (centered at the origin) contains thepoints and is contained in E2.

D

C

a

aTx ≥ b aTx ≤ b

Figure 2.19 The hyperplane x | aTx = b separates the disjoint convex setsC and D. The affine function aTx− b is nonpositive on C and nonnegativeon D.

Figura 8.14: Hiperplano separador entre C y D

Figura 8.15: Distancia más corta de un punto a un conjunto convexo en términos de la de a hiperplanos separadores

en ese espacio. En gran cantidad de esos principios está presente la relación que se ilustra en la figura 8.15. La distanciamás corta de un punto a un conjunto convexo es igual al máximo de las distancias desde el punto a los hiperplanos queseparan el conjunto convexo del punto. El problema original de minimización sobre vectores se convierte en otro demaximización sobre hiperplanos.

Teorema 8.3 Sea C un conjunto convexo e y un punto frontera de C . Existe un hiperplano que contiene a y y a C enuno de sus semiespacios cerrados.

DEMOSTRACIÓN. Sea fy.k/g una sucesión de puntos exteriores a la adherencia de C . Sea fa.k/g la sucesión de puntosnormalizados, ka.k/k2 D 1, obtenida de aplicar el teorema anterior a la sucesión anterior, tales que,

a.k/

Ty.k/ < Kınf

x2C

a.k/

Tx:

Como fa.k/g es una sucesión acotada, una subsucesión fa.k/g, k 2 H, convergerá a un límite a. Para este a se tiene que,para cualquier x 2 C ,

aTy D lKımk2H

a.k/

Ty.k/ lKım

k2H

a.k/

Tx D aTx:

Un hiperplano que contiene un conjunto convexo C en uno de sus semiespacios cerrados y que contiene algún puntofrontera de C se denomina hiperplano de apoyo de C .

De acuerdo con esta definición, el teorema anterior dice que, dado un conjunto convexo C y un punto frontera y de C ,existe un hiperplano de apoyo de C que contiene y .

En la figura 8.16˚x W aTx D aTx0

es el hiperplano de apoyo de C en el punto x0: el punto x0 y el conjunto C están

separados por el hiperplano˚x W aTx D aTx0

. Geométricamente quiere decir que el hiperplano

˚x W aTx D aTx0

es

tangente al conjunto C en x0 y el semiespacio˚x W aTx aTx0

contiene a C .

24

Figura 7.26: Distancia más corta de un punto a un conjunto convexo en términos de hiperplanos separadores

Como fa.k/g es una sucesión acotada, una subsucesión fa.k/g, k 2 H, convergerá a un límite a. Para este a setiene que, para cualquier x 2 C ,

aT y D lKımk2H

a.k/

Ty.k/ lKım

k2H

a.k/

Tx D aTx:

Un hiperplano que contiene un conjunto convexo C en uno de sus semiespacios cerrados y que contiene algúnpunto frontera de C se denomina hiperplano de apoyo de C .2.6 Dual cones and generalized inequalities 51

C

a

x0

Figure 2.21 The hyperplane x | aTx = aTx0 supports C at x0.

that the point x0 and the set C are separated by the hyperplane x | aTx = aTx0.The geometric interpretation is that the hyperplane x | aTx = aTx0 is tangentto C at x0, and the halfspace x | aTx ≤ aTx0 contains C. This is illustrated infigure 2.21.

A basic result, called the supporting hyperplane theorem, states that for anynonempty convex set C, and any x0 ∈ bdC, there exists a supporting hyperplane toC at x0. The supporting hyperplane theorem is readily proved from the separatinghyperplane theorem. We distinguish two cases. If the interior of C is nonempty,the result follows immediately by applying the separating hyperplane theorem tothe sets x0 and intC. If the interior of C is empty, then C must lie in an affineset of dimension less than n, and any hyperplane containing that affine set containsC and x0, and is a (trivial) supporting hyperplane.

There is also a partial converse of the supporting hyperplane theorem: If a setis closed, has nonempty interior, and has a supporting hyperplane at every pointin its boundary, then it is convex. (See exercise 2.27.)

2.6 Dual cones and generalized inequalities

2.6.1 Dual cones

Let K be a cone. The set

K∗ = y | xT y ≥ 0 for all x ∈ K (2.19)

is called the dual cone of K. As the name suggests, K∗ is a cone, and is alwaysconvex, even when the original cone K is not (see exercise 2.31).

Geometrically, y ∈ K∗ if and only if −y is the normal of a hyperplane thatsupports K at the origin. This is illustrated in figure 2.22.

Example 2.22 Subspace. The dual cone of a subspace V ⊆ Rn (which is a cone) isits orthogonal complement V ⊥ = y | yT v = 0 for all v ∈ V .

Figura 7.27: Hiperplano de apoyo de C en x0

De acuerdo con esta definición, el teorema anterior dice que dado un conjunto convexo C y un punto fronteray de C existe un hiperplano de apoyo de C que contiene y .En la figura 7.27

˚x W aTx D aTx0

es el hiperplano de apoyo de C en el punto x0: el punto x0 y el conjunto

C están separados por el hiperplano˚x W aTx D aTx0

. Geométricamente quiere decir que el hiperplano˚

x W aTx D aTx0

es tangente al conjunto C en x0 y el semiespacio˚x W aTx aTx0

contiene a C .

Si S es un politopo de dimensión 3 en R3 —un cubo– y H un plano que se traslada en R3 hasta que apenasse apoya en el cubo, pero no corta el interior de éste, hay tres posibilidades para H \ S dependiendo de laorientación de H . Se ven en la figura 7.28.

Lema 7.4 (Farkas) El sistema de ecuaciones

.I / Ax D b; x 0;

no tiene solución si y sólo si la tiene el sistema

.II / yTA 0T ; bT y > 0;

donde A 2 Rmn.

DEMOSTRACIÓN. El lema —por Farkas Bolyai, Hungría 1775-1856— se puede reformular de la siguiente ma-nera. Si existe un x 0 tal que Ax D b, no existe ningún y tal que yTA 0T y bT y > 0. Recíprocamente,si no existe ningún x 0 tal que Ax D b, existe un y tal que yTA 0T y bT y > 0.Supongamos que el sistema (I) tiene una solución x tal que Ax D b y x 0. Sea y un punto tal queyTA 0T . En este caso bT y D xTAT y 0 pues x 0 y yTA 0T . Esto demuestra que bT y no puedeser positivo y, por lo tanto, el sistema (II) no tiene solución.

34

Page 37: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

7 Optimización y Programación Matemática

Rn R2

R3

R2 R3 Rn

Rn

S Rn F S

S F ¤ S H D Œf d !

F D S \H f.S/ ' d f .S/ & d H

S F k F

S

P k P

P .k " 1/S

S R3 H

R3

H \ S H

H \ SH \ SH \ S

H ! S es bidimensional H ! S es unidimensional H ! S es de dimensión 0

S S S

H

HH

S S S

S ; 2 S2 xy D D S

S

Figura 7.28: H \ S es una cara cuadrada bidimensional del cubo, una arista unidimensional del cubo o unvértice de dimensión 0 del cubo

Supongamos ahora que el sistema (I) no tiene solución. Esto quiere decir que b … S D fv D Ax W x 0g;es decir que b no pertenece al politopo cónico S . Observando la figura 7.29, está claro que si b … S , existe un

8.1 Dualidad y condiciones de optimo 473

a 1

a 2a 3

a 4

a 5

b /∈ S

y

Hiperplano

Politopo conico S

Figura 8.2

Descripcion geometrica de la existencia de un hiperplano separador

El par (P)-(D) se denomina habitualmente, en la literatura especializada, forma simetricade la dualidad.

A continuacion exponemos dos teoremas que caracterizan las soluciones optimas del par deproblemas primal-dual.

Teorema 8.3 (Complementariedad de Holguras) Sean x e y soluciones factibles del par deprogramas primal-dual en forma simetrica (P)-(D) de (8.8). Las condiciones necesarias ysuficientes para que sean optimos de sus respectivos problemas son:

(cT − yT A)x = 0 (8.9)

yyT (Ax − b) = 0. (8.10)

Demostracion. Como x e y son soluciones factibles de (P) y (D), respectivamente, se tieneque

s = Ax − b ≥ 0, x ≥ 0 (8.11)

ywT = cT − yT A ≥ 0T , y ≥ 0. (8.12)

Figura 7.29: Demostración del lema de Farkas

hiperplano separador definido por un y , que separa S y b, y para el cual yT ai 0, i D 1; : : : ; n y yT b > 0,es decir, y forma un ángulo de más de 90 grados con cada uno de los vectores columna deA y de menos de 90grados con12 b. Esto verifica que el sistema (II) tiene solución.

El lema de Farkas es un resultado importante para el estudio de sistemas lineales de inecuaciones. Su interpre-tación geométrica es la siguiente:

1. Si ai ; i D 1; : : : ; n, son los n vectores columna de la matriz A, que se cumpla que b D Ax, x 0, quieredecir que el vector b DPn

iD1 aixi , xi 0; en otras palabras, que b pertenece al politopo cónico generadopor los vectores columna de A. En la figura 7.30, a la izquierda, se muestra un ejemplo donde el sistema (I)no tiene solución: el vector b no pertenece al cono generado por a1, a2, a3 y an. La intersección del cono

12El hiperplano separador del politopo cónico S de la figura debería “casi” tocar a éste a lo largo de a5. El hiperplano de apoyocorrespondiente, sí tocaría a a5.

35

Page 38: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

7 Optimización y Programación Matemática

474 Capıtulo 8. Dualidad y analisis de sensibilidad

a 3a 1

a 2

b

a n

Semiespacio abierto y : bT y > 0

Cono y : y T A ≤ 0T

Figura 8.3

El sistema (I) del lema de Farkas no tiene solucion. La tiene (II)

an

b

a2

a1

Semiespacio abierto y : bT y > 0

Cono y : yT A ≤ 0T

Figura 8.4

El sistema (II) del lema de Farkas no tiene solucion. La tiene (I)

474 Capıtulo 8. Dualidad y analisis de sensibilidad

a3a1

a2

b

an

Semiespacio abierto y : bT y > 0

Cono y : yT A ≤ 0T

Figura 8.3

El sistema (I) del lema de Farkas no tiene solucion. La tiene (II)

a n

b

a 2

a 1

Semiespacio abierto y : bT y > 0

Cono y : yT A ≤ 0T

Figura 8.4

El sistema (II) del lema de Farkas no tiene solucion. La tiene (I)Figura 7.30: Izquierda: El sistema (I) del lema de Farkas no tiene solución; si (II). Derecha: El sistema (II) notiene solución; la tiene (I)

fy W yTA 0T g (conjunto formado por los vectores y que forman un ángulo mayor o igual de 90ı conlos vectores columna de la matriz A) y el semiespacio abierto fy W bT y > 0g, no es el conjunto vacío: elsistema (II) tiene solución, pues b y cualquier y en el cono que define la zona sombreada forma un ángulomenor de 90ı y, por lo tanto, bT y > 0.

2. El sistema (II) no tiene solución si la intersección del cono fy W yTA 0T g y el semiespacio abiertofy W bT y > 0g es el conjunto vacío. En la figura 7.30 a la derecha se muestra un ejemplo donde el sistema(II) no tiene solución. Todo vector y en la zona que define el cono indicado forma un ángulo mayor de 90ıcon b. La tiene sin embargo (I) pues b pertenece al cono generado por a1, a2 y an.

7.2 Caracterización del problema de optimización y condiciones de punto óptimo

Volvamos al problema general de Optimización

minimizarx2Rn

f .x/

sujeta a ci .x/ D 0; i 2 E ;cj .x/ 0; j 2 I;

donde las función objetivo f y las condiciones ci y cj son, en general, no lineales, continuas y tienen derivadasparciales continuas hasta al menos primer orden. Los conjuntos E y I contienen los índices de las condicio-nes que son de igualdad y de desigualdad, respectivamente. El conjunto de puntos que satisfacen todas lascondiciones se denomina región factible.Un punto x que satisfaga todas las condiciones se dice regular si los vectores gradiente del conjunto de condi-ciones activas en ese punto son linealmente independientes.Un caso particular del problema de programación matemática enunciado es uno de Programación Lineal:

min. cTx

s. a Ax D bx 0:

Así expresado se denomina en forma estándar. La región factible, o conjunto de soluciones del programa lineal,P D fx 2 Rn W Ax D b; x 0g, es un politopo convexo.

36

Page 39: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

7 Optimización y Programación Matemática

Teorema 7.5 Condiciones de óptimo de primer orden de Karush-Kuhn-Tucker Supóngase que x es unpunto regular y mínimo local del problema general de programación matemática anterior. Existe un vectorde multiplicadores de Lagrange, , con coeficientes i , i 2 E [ I, tal que se cumple que

rxL.x;/ D rf .x/ T c.x/ D 0;

ci .x/ D 0; para todo i 2 E ;

ci .x/ 0; para todo i 2 I;i 0; para todo i 2 I;

i ci .x/ D 0; para todo i 2 E [ I:

Teorema 7.6 Equivalencia entre puntos extremos y soluciones básicas SeanA 2 Rmn una matriz de rangom, b 2 Rm y el politopo convexo

P D fx 2 Rn W Ax D b;x 0g :

Un x 2 P es un punto extremo de P si y sólo si los vectores columna de A asociados a los coeficientespositivos de x son linealmente independientes.

DEMOSTRACIÓN. Supongamos sin pérdida de generalidad que los p primeros coeficientes del vector x sonpositivos y los np últimos cero. Si x D Œ NxT ; 0T T , Nx > 0, y designamos por NA las p primeras columnas dela matriz A, se tiene que Ax D NA Nx D b.Probemos primero la necesidad de la condición enunciada. Supongamos que las columnas de NA no son lineal-mente independientes. En este caso existirá un vector Nw ¤ 0 tal que NA Nw D 0. De aquí que NA. Nx˙" Nw/ D NA Nx Db y, para un " suficientemente pequeño, que . Nx ˙ " Nw/ 0. Los puntos y 0 D NxC" Nw

0

y y 00 D Nx" Nw

0

están,

por consiguiente, en P . Además, dado que x D .y 0 C y 00/=2, x no puede ser un punto extremo de P . Comoconsecuencia de esto, si x es un punto extremo, las columnas de la matriz NA son linealmente dependientes.Probemos ahora la suficiencia. Supongamos que x no es un punto extremo de P . Esto quiere decir que x Dy 0C.1/y 00, donde y 0; y 00 2 P; y 0 ¤ y 00 y 0 < < 1. Como x e y 0 están enP ,A.xy 0/ D AxAy 0 Db b D 0. Además, dado que y 1 son estrictamente positivos, los últimos np coeficientes de y 0 y, porconsiguiente, de x y 0, han de ser cero pues lo son los de x. Las columnas de la matriz NA, en consecuencia,son linealmente dependientes. De aquí que, si las columnas de NA son linealmente independientes, x es un puntoextremo.

Una dirección del politopo P D fx 2 Rn W Ax D b; x 0g es un vector no nulo, d 2 Rn, tal que para todox0 2 P el rayo fx 2 Rn W x D x0 C d ; 0g pertenece a P .Una dirección d de un politopo P se dice extrema si no puede ponerse como combinación lineal no negativade dos direcciones diferentes de P . Es decir, no existen dos direcciones d1 y d2 en P , d1 ¤ d2, y unos˛1; ˛2 > 0, tales que d D ˛1d1 C ˛2d2.Cualquier dirección de un politopo se puede expresar como combinación lineal no negativa de las direccionesextremas del politopo. Si P es un poliedro, obviamente, no tiene direcciones.

Teorema 7.7 Teorema de la representación Todo punto del politopo P D fx 2 Rn W Ax D b; x 0g sepuede expresar de la forma

x DXi2I

ivi C d ;

donde fvi W i 2 I g es el conjunto de puntos extremos o vértices de P ,Pi2I i D 1, i 0, y d , o es una

dirección de P , o d D 0.DEMOSTRACIÓN. La haremos por inducción en p, número de coeficientes positivos de x. Si p D 0, el teoremaes obvio, pues x D 0 es un punto extremo. Supongamos que se cumple lo enunciado para puntos con menosde p coeficientes positivos y que x tiene p coeficientes positivos.Si x es un punto extremo, como x D vi para algún i 2 I , el teorema es obvio. Supongamos por tanto que x noes un punto extremo. En este caso existe un vector w ¤ 0, con wi D 0 si xi D 0, tal que Aw D 0. Se puedendar los tres casos siguientes:

37

Page 40: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

7 Optimización y Programación Matemática

(a) Quew tenga coeficientes positivos y negativos. Consideremos los puntos x./ D xC w en la recta quepasa por x que determina w, y sean 0 y 00 el menor valor positivo y mayor valor negativo, respectiva-mente, de para los que x./ tiene al menos un coeficiente cero más que los que tiene x. Los puntosx0 D x. 0/ y x00 D x. 00/ pertenecen claramente a P por lo que, por la hipótesis de inducción, al tenerun coeficiente nulo más, se pueden expresar según lo enunciado en el teorema. En consecuencia, como xestá en la recta que une x0 y x00, se puede expresar de la siguiente manera

x D x0 C .1 /x00 donde D 00=. 0 00/

D Xi2I

0ivi C d 0!C .1 /

Xi2I

00i vi C d 00!

DXi2I

0i C .1 /

00

i

vi C d 0 C .1 /d 00:

Como 0 < < 1, 0i 0 y 00i 0 para todo i 2 I ,Pi2I 0i D

Pi2I 00i D 1 y Ad 0 D Ad 00 D 0,

d 0 0 y d 00 0. Se deduce entonces que

i D 0i C .1 /00

i 0 para todo i 2 I;Xi2I

i D 1;

d D d 0 C .1 /d 00 0 y Ad D 0;quedando probado que x se puede expresar de la forma enunciada.

(b) Que w 0. Definamos x0 como en el caso (a). El punto x se puede expresar como x D x0 C 0.w/,con 0 > 0. Como x0 se puede expresar por inducción en la forma deseada y .w/ es una dirección enP , x también se puede expresar de la forma enunciada.

(c) Que w 0. Este caso se prueba igual que el caso (b) sin más que sustituir x0, 0 y w por x00, 00 y w,respectivamente.

Corolario 7.8 Si el politopo P D fx 2 Rn W Ax D b;x 0g es no vacío, tiene al menos un punto extremoo vértice.

Corolario 7.9 Si el politopo P D fx 2 Rn W Ax D b;x 0g es cerrado y acotado (es un poliedro), todopunto x 2 P se puede expresar como combinación convexa de sus puntos extremos.

x

yx 1

x 2

x 3

x 4

x 5

Figura 7.31: Representación de un punto de un politopo (poliedro) como combinación convexa de puntosextremos

Teorema 7.10 Teorema fundamental de la Programación Lineal Dado un politopo no vacío P D fx 2 Rn WAx D b;x 0g de soluciones de un PL, el valor mínimo de la función objetivo cTx, para x 2 P , se alcanzaen un punto extremo de P (solución básica factible óptima), o cTx no está acotada inferiormente en P .

DEMOSTRACIÓN. Sea V D fvi W i 2 I g el conjunto de puntos extremos de P . Como P es no vacío, al menostiene un punto extremo vi 2 V . De acuerdo con el teorema de la representación, o el politopo P posee unadirección d tal que cTd < 0, o tal dirección no existe. Consideremos estos dos casos.

38

Page 41: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

7 Optimización y Programación Matemática

(a) El politopo P tiene una dirección d tal que cTd < 0. En este caso P no está acotado y el valor de lafunción objetivo tiende a 1 en la dirección d .

(b) El politopo P no tiene una dirección d tal que cTd < 0. En este caso cualquier x 2 P se puede expresarde una de las dos maneras siguientes:

x DXi2I

ivi dondeXi2I

i D 1; i 0 o

x DXi2I

ivi C Nd dondeXi2I

i D 1; i 0 y cT Nd 0:

En ambos casos, suponiendo que cT vmin es el menor de los elementos del conjunto fcT vi W i 2 I g, setiene que

cTx Xi2I

i

cT vi

cT vmin

Xi2I

i

!D cT vmin:

Es decir, el mínimo de cTx se alcanza en un punto extremo de P : vmin.

7.3 Dualidad

La Dualidad juega un papel destacado en Programación Lineal y no lineal. Sirve para caracterizar y verificarla optimalidad de un proceso iterativo y las condiciones en que se da el óptimo, para analizar la sensibilidadde una solución a la variación de los parámetros del problema, para estudiar la velocidad de convergencia dedeterminados algoritmos de optimización que usan su formulación y contemplar diversos aspectos geométricosque permiten interpretar mejor lo que se está haciendo en la búsqueda de una solución.Las ideas y formulación que exponemos a continuación siguen enteramente lo que expone al respecto el librode Luenberger citado en el apartado de bibliografía. Se basa en una forma elegante y global de contemplar ladualidad en términos de conjuntos e hiperplanos que tocan esos conjuntos. Evidencia el papel de los multipli-cadores de Lagrange como definidores de hiperplanos que pueden ser considerados los duales de puntos en unespacio vectorial. Esta forma teórica de enfrentarse a la dualidad proporciona una simetría entre los problemasprimal y dual, la cual pude considerarse perfecta si los problemas son convexos. Si no lo son, la imperfecciónla plasma el denominado gap de dualidad o brecha dual, que tiene una interpretación geométrica muy sencillaen este contexto y mucha importancia en los algoritmos de programación lineal y no lineal que se estudian enel curso en la asignatura.En el problema dual las incógnitas por resolver son los multiplicadores de Lagrange del problema primal, quemiden las sensibilidades del primal a variaciones en los coeficientes que determinan las condiciones de esteproblema y determinan como unas penalizaciones que se introducen en su función objetivo por no utilizar ade-cuadamente los recursos que fijan esas condiciones. La función de Lagrange incorpora así toda la informacióndisponible del problema.La teoría global que se expone en este apéndice es la base sobre la que construir dualidades de tipo local de losdiversos problemas lineales y no lineales que se verán en los distintos temas del curso, incluso sin la existenciade convexidad, o en algoritmos especializados para problemas de Programación Lineal como los de puntointerior, dual del Símplex, etc.De momento vamos a referirnos a problemas de programación matemática como

minimizarx2Rn

f .x/

sujeta a g.x/ 0x 2 ;

(1)

donde 2 Rn es un conjunto convexo y las funciones, la escalar f W Rn ! R y la vectorial g W Rp ! Rn,están definidas en . Este problema no es necesariamente convexo pero se asume que tiene al menos un puntofactible. Esta notación es perfectamente compatible con otras que se utilizan sin más que adoptar la convenciónde signos adecuada.

39

Page 42: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

7 Optimización y Programación Matemática

La función primal asociada a (1) se define, para un z 2 Rp, como

!.z/ D Kınf ff .x/ W g.x/ z;x 2 g: (2)

Se llega a ella dejando que el término de la derecha de la inecuación que definen las condiciones pueda tomarvalores arbitrarios. Se entiende que (2) está definida en el conjunto D D fz W g.x/ z; para algunos x 2 g.Si el problema (1) tiene una solución x con un valor de la función objetivo igual a f D f .x/, entonces f es el punto de eje vertical de RpC1 donde la función primal se cruza con ese eje. Si (1) no tiene solución esepunto de cruce es f D Kınf ff .x/ W g.x/ 0;x 2 g.El principio de dualidad se deduce de la consideración de todos los hiperplanos que quedan por debajo de lafunción primal. Como ilustra la figura 7.32, todos los hiperplanos que se indican se cruzan con el eje verticalpor debajo de f , o en f .

436 Chapter 14 Dual and Cutting Plane Methods

considered as dual to points in a vector space. The theory provides a symmetrybetween primal and dual problems and this symmetry can be considered as perfectfor convex problems. For non-convex problems the “imperfection” is made clearby the duality gap which has a simple geometric interpretation. The global theory,which is presented in this section, serves as useful background when later wespecialize to a local duality theory that can be used even without convexity andwhich is central to the understanding of the convergence of dual algorithms.

As a counterpoint to Section 11.9 where equality constraints were consideredbefore inequality constraints, here we shall first consider a problem with inequalityconstraints. In particular, consider the problem

minimize fx (1)

subject to gx ≤ 0

x ∈

⊂ En is a convex set, and the functions f and g are defined on . The function gis p-dimensional. The problem is not necessarily convex, but we assume that thereis a feasible point. Recall that the primal function associated with (1) is defined forz ∈ Ep as

z = inf fx gx ≤ z x ∈ (2)

defined by letting the right hand side of inequality constraint take on arbitraryvalues. It is understood that (2) is defined on the set D = z gx ≤ z, for somex ∈ .

If problem (1) has a solution x∗ with value f ∗ = fx∗, then f ∗ is the point onthe vertical axis in Ep+1 where the primal function passes through the axis. If (1)does not have a solution, then f ∗ = inffx gx ≤ 0 x ∈ is the intersectionpoint.

The duality principle is derived from consideration of all hyperplanes that liebelow the primal function. As illustrated in Fig. 14.1 the intercept with the verticalaxis of such a hyperplanes lies below (or at) the value f ∗.

w(z)

Hiperplanodebajo de w(z)

z

r

f *

Fig. 14.1 Hyperplane below zFigura 7.32: Hiperplano por debajo de !.z/.

Para expresar esta propiedad se define la función dual en el cono positivo de Rp como

./ D Kınfnf .x/C Tg.x/ W x 2

o: (3)

En general, puede que no sea finita dentro del ortante positivo, RpC, pero la región donde está definida esconvexa.

Proposición 7.11 La función dual es cóncava en la región donde es finita.

DEMOSTRACIÓN. Supóngase que 1 y 2 están en la región finita y sea 0 ˛ 1. Entonces

.˛1 C .1 ˛2// D Kınf ff .x/C .˛1 C .1 ˛/2/Tg.x/ W x 2 g Kınf f f .x1/C ˛T1 g.1/ W x1 2 gCKınf f.1 ˛/f .x2/C .1 ˛/T2 g.x2/ W x2 2 g

D ˛.1/C .1 ˛/.2/:

Se define D sup f./ W 0g, suponiéndose que el supremo se extiende a toda la región donde esfinita.

Proposición 7.12 Forma débil de dualidad. f .DEMOSTRACIÓN. Para todo 0 se tiene que

./ D Kınf ff .x/C Tg.x/ W x 2 g Kınf ff .x/C Tg.x/ W g.x/ 0;x 2 g Kınf ff .x/ W g.žx/ 0;x 2 g D f :

Adoptando e supremos de .x/ se tiene que f .

40

Page 43: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

7 Optimización y Programación Matemática

De acuerdo con este resultado la función dual proporciona cotas inferiores del valor óptimo de f .La función dual tiene una interpretación geométrica interesante. Si se considera el vector Œ1T T 2 RpC1, con 0 y la constante c, el conjunto de vectores Œr zT T 2 RpC1 tales que el producto interior Œ1T Œr zT T r CT z D c define un hiperplano en RpC1. Para diferentes valores de c se tiene diferentes hiperplanos, todosparalelos entre si.Para un vector dado Œ1T T consideremos el hiperplano más bajo posible de esa forma que casi toca —soporta— la región de encima de la función primal del problema (1). Supongamos que x1 define ese punto decontacto y que r D f .x1/ y z D g.x1/. Se tendrá que c D f .x1/C T b.x1/ D ./.Ese hiperplano se cruzará con el eje vertical en un punto de la forma Œr0 0T . Este punto también satisfará queŒ1T T Œr0 0

T D c D ./. Lo que lleva a que c D r0. Por lo que ese punto dará ./ directamente. Lafunción dual en es igual al punto donde se cruzan el hiperplano definido por que justo toca el epigrafo —elconjunto de puntos situados por encima del gráfico de una función— de la función primal.438 Chapter 14 Dual and Cutting Plane Methods

hiperplano más alto

ϕ∗

f∗ gap de dualidad

z

w (z)

Fig. 14.2 The highest hyperplane

Furthermore, this intercept (and dual function value) is maximized by theLagrange multiplier which corresponds to the largest possible intercept, at a pointno higher than the optimal value f ∗. See Fig. 14.2.

By introducing convexity assumptions, the foregoing analysis can bestrengthened to give the strong duality theorem, with no duality gap when theintercept is at f ∗. See Fig. 14.3.

We shall state the result for the more general problem that includes equalityconstraints of the form hx = 0, as in Section 11.9.

Specifically, we consider the problem

maximize fx (4)

subject to hx = 0 gx ≤ 0

x ∈

where h is affine of dimension m, g is convex of dimension p, and is a convexset.

Optimalhyperplane

z

rω(z)

f * = ϕ∗

Fig. 14.3 The strong duality theorem. There is no duality gap

Figura 7.33: Hiperplano más alto.

Además, como indica la figura 7.33, ese punto de cruce (y el valor de la función dual) se maximiza con elmultiplicador de Lagrange que corresponde al plano más alto posible que intercepta el eje vertical, siendo elpunto de esa intercepción menor o igual que el valor óptimo f . La diferencia constituye el gap de dualidad.Si se incorporan suposiciones de convexidad el análisis que estamos haciendo se completa con el teorema de ladualidad fuerte cuando no hay gap de dualidad y la intersección de esos planos con el eje vertical es el propiof . Se puede ver en la figura 7.34.

438 Chapter 14 Dual and Cutting Plane Methods

Highest hyperplane

ϕ∗

f∗ Duality gap

z

ω (z)

Fig. 14.2 The highest hyperplane

Furthermore, this intercept (and dual function value) is maximized by theLagrange multiplier which corresponds to the largest possible intercept, at a pointno higher than the optimal value f ∗. See Fig. 14.2.

By introducing convexity assumptions, the foregoing analysis can bestrengthened to give the strong duality theorem, with no duality gap when theintercept is at f ∗. See Fig. 14.3.

We shall state the result for the more general problem that includes equalityconstraints of the form hx = 0, as in Section 11.9.

Specifically, we consider the problem

maximize fx (4)

subject to hx = 0 gx ≤ 0

x ∈

where h is affine of dimension m, g is convex of dimension p, and is a convexset.

hiperplano óptimo

z

rw (z)

f * = ϕ∗

Fig. 14.3 The strong duality theorem. There is no duality gapFigura 7.34: Expresión gráfica del teorema de la dualidad fuerte . No hay gap de dualidad.

41

Page 44: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

7 Optimización y Programación Matemática

El teorema de la dualidad fuerte lo referimos al problema general

minimizarx2Rn

f .x/

sujeta a h.x/ D 0g.x/ 0x 2 ;

(4)

donde h W Rm ! Rn es afín, g W Rp ! Rn es convexa y es convexo. La función dual de este problema es

.;/ D Kınf ff .x/C Th.x/C Tg.x/ W x 2 g; (5)

y D sup f.;/ W 2 Rm; 2 Rp; 0g.Un punto x que satisfaga todas las condiciones que se cumplen se dice regular si los vectores gradiente delconjunto de condiciones activas en ese punto son linealmente independientes. Una función h.x/ es regular conrespecto a si el conjunto C D fy W h.x/ D y para algún x 2 g de Rn contiene una bola abierta en tornoa 0; es decir, C contiene un conjunto de la forma fy W jyj < "g para algún " > 0. Esto viene a decir queh.x/ puede hacerse 0 y variar arbitrariamente en torno a 0 en cualquier dirección. Esta condición es similar ala definición de punto regular en el contexto de las condiciones de óptimo de primer orden.

Teorema 7.13 Teorema de la dualidad fuerte Supongamos que en el problema (4) h es regular con respectoa y que existe un punto x 2 en el que h.x/ D 0 y g.x/ 0.Supongamos que el problema tiene como solución x con un valor de la función objetivo f .x/ D f .Entonces, para todo y todo 0 se cumple que

f :

Además, existen unos y 0 tales que

.;/ D f

y por lo tanto D f . Los vectores y son los multiplicadores de Lagrange del problema.

7.3.1 Dualidad LagrangianaEs una forma de denominar lo que acabamos de exponer. La función de Lagrange del problema (4) escrito

minimizarx2Rn

f .x/

sujeta a h.x/ D 0g.x/ 0x 2 ;

(6)

es L.x;;/ D f .x/ Th.x/ Tg.x/. La función de Lagrange dual es

q.;/defD Kınf

xL.x;;/:

Si las funciones h.x/ y g.x/ son convexas, con 0, la función de Lagrange es convexa y define una cotainferior del valor óptimo de la función objetivo de (6). El problema dual de éste es

maximizar q.;/sujeta a 0;

que es siempre convexo.

42

Page 45: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

7.3.2 Dualidad de WolfeEs ligeramente distinta de las anteriores. Es la que sirve de referencia a los métodos de punto interior que seven en el curso. El problema dual es

max. L.x;;/

s. a rxL.x;;/ D 0 0:

7.3.3 EjemploEn el caso de un problema de Programación Lineal en forma estándar

minimizarx2Rn

cTx

sujeta a Ax D bx 0;

la función de Lagrange es L.x;;/ D cTx T .Ax b/ Tx, o

L.x;;/ D T bCc AT

Tx:

Su problema dual

max. q.;/ D Kınf fL.x;;/g D T bC Kınfx

nc AT T x

oD(T b si c AT D 01 si c AT ¤ 0

s. a 0:

Si c AT ¤ 0 el ínfimo es claramente 1, por lo que hay que excluir del problema aquellos para losque se den esos casos. De acuerdo con ello, el problema dual queda

maximizar T b

s. a c AT D 0; 0:

El dual de Wolfe sería exactamente el mismo. El gap de dualidad es

cTx T b D cTx TAx D xTc AT

D xT:

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadasparciales

D ESDE tiempos de C.F. Gauss, Alemania 1777-1855 y W. Thompson Irlanda, 1775-1833, la equiva-lencia entre los problemas de ecuaciones en derivadas parciales con condiciones de contorno y losde cálculo de variaciones ha ocupado un puesto destacado en el análisis matemático. En un principio

el esfuerzo se concentró en los aspectos teóricos de los problemas; posteriormente, dos físicos, Lord Rayleigh—John William Strutt, Reino Unido 1842-1919— y Walther Ritz, Suiza 1878-1909, independientemente alparecer, concibieron la idea de utilizar esa equivalencia para calcular numéricamente soluciones de problemashabituales de física mediante la sustitución de los problemas de cálculo de variaciones por otros más simplesde obtención de extremos con un número finito de parámetros por determinar.Sus métodos atrajeron pronto a ingenieros y físicos —los principios físicos de la mecánica son más sugestivosque las ecuaciones diferenciales— y se empezaron a aplicar a muchos problemas cercanos. El resultado eralógica consecuencia del esquema conceptual de cómo se tratan en análisis matemático —y en muchos aspectosde la vida cotidiana— los problemas difíciles: Un problema P con solución S se reemplaza por otro más o me-nos relacionado o próximo, Pn, más simple de resolver, cuya solución es Sn. Luego se mejora la aproximación

43

Page 46: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

Pn de P de tal forma que la solución Sn, paso a paso, tienda a la deseada S . Lo esencial es escoger la sucesiónde aproximaciones Pn de una manera adecuada.En la asignatura de matemáticas para la ingeniería eléctrica abordaremos uno de los problemas más interesantesy con más posibilidades de futuro que contemplan las aplicaciones de las matemáticas para simular y resolvermuchos problemas de la vida cotidiana. En concreto modelos matemáticos expresados en forma de ecuacionesdiferenciales e integrales que reproducen procesos y fenómenos complejos de la física y otras ciencias natura-les y sociales cuyos orígenes y evolución suelen estar distribuidos en el tiempo y en el espacio. Se modelan deesta forma la propagación del sonido o del calor, la electrostática, la electrodinámica, la dinámica de fluidos,la elasticidad, la mecánica cuántica, las emisiones de contaminantes, los fenómenos meteorológicos, la valora-ción de opciones y derivados financieros y muchos otros. El enfoque para resolverlos de forma práctica sigueexactamente el principio enunciado más arriba.

La idea esencial que seguiremos en estas notas es la de convertir el problema con ecuaciones dife-renciales, integrales o ecuaciones en derivadas parciales, suponiendo que tiene solución con unasdeterminadas características, en uno formulado en términos de cálculo de variaciones de funcionescontinuas —la minimización de un funcional— para así caracterizar en qué condiciones se da unasolución u óptimo del mismo. Luego se discretiza ese problema continuo con un número infinitode grados de libertad mediante un problema discreto, o sistema de ecuaciones, con un número devariables finito y más fácil de resolver y se resuelve mediante alguna de las diversas técnicas queiremos presentando en el curso de la asignatura.

Cuando se empieza a trabajar y aprender métodos numéricos para resolver problemas matemáticos el de lasdiferencias finitas sigue ideas muy intuitivas: simplemente se aproxima una derivada de una curva en un puntode ella por una línea secante. Si se estudia el método del volumen finito, también su idea es bastante sencilla:cada elemento de volumen es simplemente un pequeño equilibrio del flujo o de fuerzas. El método de loselementos finitos sigue esa senda más o menos, con alguna pequeña modificación.La base matemática para el método de los elementos finitos se encuentra en el entorno de los espacios de Hil-bert. Un espacio de Hilbert es una manera de tratar una función como un vector, por lo que podemos haceralgunos trucos de matemáticas vectoriales con él. Recordemos que un vector es una serie de valores, o escala-res, multiplicados por un conjunto de vectores de una base ortogonal (como los vectores unitarios que definenla direcciones x, y y z, o los i , j y k). Podemos utilizar una técnica paralela para definir una función. Prime-ramente seleccionamos un conjunto de funciones de base en vez de aquellos vectores (esas funciones deben serortogonales entre sí) y luego definimos la función original como una suma de unos coeficientes multiplicadospor las funciones de la base: de esta forma

u D1XkD1

˛kk;

donde cada una de las k es una función de la base.El siguiente paso es convertir nuestra ecuación diferencial en algo llamado su formulación débil. Esto se hacebásicamente multiplicando por una función de prueba y luego integrando en el espacio. Sin entrar en los detallesde momento, se trata de hacer lo mínimo necesario para convertir nuestra ecuación diferencial en algo en loque podamos utilizar nuestras matemáticas de espacios vectoriales. Esencialmente, donde exista una forma de"producto interior", en nuestro caso con funciones como la de prueba en vez de vectores, y la solución. Esteproducto interior será una integral y podremos usar integración por partes para convertirlo en formatos másmanejables.Después nos desharemos de alguna manera de la abstracción empleada y comprobaremos que realmente es-tamos tratando con un espacio vectorial de dimensión finita: los vectores función no son infinitos ni estamossumando infinitos términos. Este proceso es lo que se entiende por discretización en las técnicas de los elemen-tos finitos. La discretización que se utiliza está determinada por una malla o retícula13 —mesh como la de lafigura 8.35— y normalmente se emplean dos funciones de base a cada lado de un elemento de la malla.

13Una retícula de por ejemplo 20 20 daría como resultado 441 funciones base únicas.

44

Page 47: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

FEA Fundamentals

Define the domain

FEA Fundamentals

Discretize

the domain

MESH

Figura 8.35: Discretización de una piezasencilla.

Con esas funciones de base la solución de nuestra ecuación dife-rencial se representaría de esta manera

u0 DnXkD1

˛kk :

La única diferencia con la expresión anterior es el límite superiordel sumatorio.El siguiente paso es hacer que nuestra función de prueba sea unafunción de base. También habrá que asegurarse que las funcionesbase no se superpongan, lo cual garantiza el que sean ortogonalescomo pretendíamos antes y nos permite aproximar más fácilmente

la solución en el dominio de interés. Las funciones de base que se suelen usar son polinomios (especialmentepolinomios lineales o cuadráticos).Después de lo que puede parecer que es complicar el problema original agregando toda esta abstracción ymatemáticas para llegar a lo que hemos llegado, ¿qué hemos conseguido realmente? Pues convertir el problemaen una ecuación algebraica matricial sencilla para poderlo resolver por medio del álgebra que conocemos. Si elproblema fuese lineal, simplemente tendremos que resolver la ecuación Ax D b a cuyo estudio tanto esfuerzodedicaremos en el curso.Para un problema relativamente simple com el de la ecuación de Poisson —Siméon Denis Poisson, Francia,1781-1840—

u.x; y/ D @2u

@x2C @2u

@y2D f .x; y/

la matriz A es muy fácil de calcular y se denomina la matriz de rigidez en homenaje a los principios de lastécnicas de elementos finitos en problemas de elasticidad. Esta matriz —muy dispersa (con pocos coeficientesdistintos de cero) y diagonal dominante— está formada por el producto interior de las funciones de base conellas mismas, multiplicadas si es el caso por la constante que aparezca en la ecuación original. El vector soluciónde ese sistema se multiplica por el de las funciones de base y se obtiene la del problema original, o una que seaproxima mucho a la misma.Resumiendo, el procedimiento de resolución del método de los elementos finitos consta de las siguientes fasesu operaciones:

Conversión del problema original de dimensión infinita, mediante las propiedades de los espacios deHilbert, en uno similar próximo en un espacio vectorial de dimensión finita de cara a estudiar la existenciay unicidad de la solución.

Creación de una formulación débil del problema original con la que podamos usar las herramientas deproducto interior y medida.

Discretización del dominio de definición del problema y elección de una base de funciones que seanortogonales entre si.

Conversión de los productos interiores entre funciones de base en sistemas lineales de ecuaciones.

Resolución de ese sistema lineal resultante mediante técnicas de matrices dispersas.

Las ventajas de este método frente a otros son muchas en bastantes ámbitos de la ingeniería, la ciencia yla investigación por lo que su extensión y precisión, así como los algoritmos que emplea, cada vez son másamplios, ambiciosos y potentes.Para concretar con cierto detalle los pasos del método, vamos a desarrollar el estudio de un problema preciso ha-bitual. Seguiremos esencialmente el trabajo de Francisco Javier Sayas, [2015], de la Universidad de Delaware,EE.UU.

45

Page 48: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

8.1 Solución de una ecuación en derivadas parciales

Consideraremos en lo que sigue el siguiente problema de una ecuación en derivadas parciales elíptica de se-gundo orden con condiciones de contorno:

u.x; y/C cu.x; y/ D f .x; y/ dentro de u.x; y/ D g0.x; y/ en la frontera [email protected]; y/ D g1.x; y/ en la frontera N :

Esta forma de formularlo se denomina forma fuerte.

La geometría del entorno físico esquemático en el que se desenvolverá será tan simple como la de lafigura 8.36, o una generalización de ella. En este caso concreto es un subconjunto abierto 2 Rd

Lesson 1

Linear triangular elements

1 The model problem

All along this course we will be working with a simple model boundary value problem,which will allow us to put the emphasis on the numerical method rather than on theintricacies of the problem itself. For some of the exercises and in forthcoming lessons wewill complicate things a little bit.

In this initial section there is going to be a lot of new stuff. Take your time to read itcarefully, because we will be using this material during the entire course.

1.1 The physical domain

The first thing we have to describe is the geometry (the physical setting of the problem).You have a sketch of it in Figure 1.1.

Ω

ΓDΓN

Figure 1.1: The domain Ω and the Dirichlet and Neumann boundaries

We are thus given a polygon in the plane R2. We call this polygon Ω. Its boundaryis a closed polygonal curve Γ. (There is not much difference if we suppose that there is

3

Figura 8.36: Dominio de definición y condiciones de contorno.

representado por un polígono en el plano R2, “pegado” o adherido en su frontera a la curva que define , dividida ésta en dos partes: la que define D , que materializan unas condiciones de contorno deDirichlet —por Johann Peter Gustav Lejeune Dirichlet, Alemania 1805-1859— y la N , con condicionesde contorno de Neumann —por Karl Gottfried Neumann, Alemania 1832-1925—. En términos físicos,las condiciones de Dirichlet determinan unos posibles desplazamientos físicos de esa frontera, mientrasque las de Neumann unas posibles tensiones máximas o mínimas.

La ecuación en derivadas parciales propiamente dicha, la primera en la formulación, se denomina habi-tualmente ecuación difusión-reacción. El término que representa la difusión es u y el de reacción cu,cuando c > 0. La constante c es no negativa; en principio puede adoptar los valores 0 ó 1.

La función escalar u.x; y/ W R2 ! R, definida en el dominio , es la incógnita de este problema.

La función f .x; y/ está definida en y se puede considerar como una densidad superficial de fuerzas.

Las dos funciones que expresan las condiciones de contorno, g0.x; y/ y g1.x; y/, están definidas en dospartes diferentes de la frontera. La función g0 deberá ser continua; la g1 puede ser discontinua.

El símbolo @n designa la derivada normal hacia afuera, es decir

@nu D ru n;donde n es el vector unidad hacia afuera en puntos de la frontera y ru es el gradiente de u. Supondre-mos que existe.

8.1.1 El problema en forma débil o variacionalSiguiendo cada uno de los pasos de la estrategia enunciada para resolver este problema, vamos a formularlo deuna forma diferente de la original denominada forma débil o forma variacional.Para ello utilizaremos el teorema de Green —por George Green, Reino Unido 1793-1841—, a menudo denomi-nado primera fórmula o identidad de Green, derivada del teorema de la divergencia, que no es sino una formade integración por partes. Aplicado a nuestro caso dice queZ

.u/ v CZ

ru rv DZ

.@nu/ v:

46

Page 49: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

La función v es una función de prueba, continua, en principio definida en D [ . En esa expresiónhay dos tipos de integrales: las dos del miembro de la izquierda son integrales de superficie, en el dominio. La del derecho es una integral lineal en el borde o frontera . Hemos prescindido de los diferencialescorrespondientes para compactar la notación. El resultado sería aplicable también a tres dimensiones: las dosintegrales de la izquierda serían de volumen; la de la derecha de superficie. El punto de la segunda integral delmiembro de la izquierda se refiere al producto interior de dos vectores, es decir ru rv D @u

@x@v@xC @u

@y@v@y

.La identidad expresada es una consecuencia del resultado del teorema de la divergencia que dice que para unsubconjunto V 2 Rn —en el caso de tres dimensiones V representa un volumen como el de la figura 8.37—,en principio compacto, de superficie o borde S continua a trozos (expresada por @V D S ), si F es un campo

Figura 8.37: Región o volumen V acotada por la superficie o frontera S D @V con la normal a la superficie n.

vectorial con derivadas parciales de primer orden continuas definido en un entorno de V , se cumple que•

V

.r F/ dV D—S

.F n/ dS:

Aplicado a una función escalar f W Rn ! R y un vector constante c distinto de cero•

V

c rf dV C•

V

f .r c/ dV D—S

.cf / dS;

donde dS expresa de forma compacta ndS .Haciendo f D ru y c D v se tiene la expresión anterior de la primera identidad de Green.Si sustituimos u D f cu en la expresión obtenida a partir de la identidad de Green en donde se integra en y que @nu D g1 en N , después de reordenar un poco se llega a

Z

ru rv C cZ

uv DZ

f v CZN

g1v CZD

.@nu/ v:

Como no sabemos el valor de @nu en D imponemos que la función v sea cero en esa parte de la frontera oborde: v D 0 en D . A partir de ahí,

Z

ru rv C cZ

uv DZ

f v CZN

g1v; si v D 0 en D:

La expresión del miembro de la izquierda es lineal en las funciones u y v. Es una forma bilineal de las variablesu y v. La de la derecha es lineal en v. Todavía no hemos hecho uso de la condición de Dirichlet en la frontera,u D g0 en D .La formulación débil del problema queda así:„

Determinar una función u tal queu D g0 en DZ

ru rv C cZ

uv DZ

f v CZN

g1v; para todo v tal que v D 0 en la frontera D:

En esta formulación la condición de Dirichlet —desplazamientos dados— se impone como una condiciónaparte que ha de cumplir la función de prueba v. Se denomina condición esencial de borde o frontera. La

47

Page 50: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

condición de Neumann —fuerzas normales— aparece como una condición de frontera natural dentro de laformulación del problema.Como indicábamos anteriormente, la función de prueba v chequea la ecuación que satisface u. Juega un papelde función de ponderación para comprobar el comportamiento medio de la ecuación. En alguna referenciainteresante se la denomina desplazamiento virtual para enfatizar que no es una incognita sino algo utilizadopara formular el problema de esta manera: mediante desplazamientos virtuales de la realidad, si se llega aconocer.

8.1.2 Espacios de trabajoHasta ahora hemos dado por hecho que el contexto matemático donde se desenvuelve este problema y lasformulaciones que estamos utilizando cumplen una serie de requisitos matemáticos que permiten su existenciay solución. Vamos a formalizarlo un poco. El primer espacio que estamos utilizando14 es el espacio vectorialde las funciones al cuadrado integrables en , es decir,

L2./ Df W ! R

ˇˇZ

jf j2 <1:

Su estricta definición requeriría la introducción de la integral de Lebesgue15, la métrica o medida de Lebesgue yel espacio de Lebesgue —por Henrí Léon Lebesgue, Francia 1875-1941—. Simplificadamente, si

R f .x/ dx

es la integral de Lebesgue de f .x/ y se define la norma kf kLp./ DR f

p dx1=p, para 1 p < 1, los

espacios de Lebesgue sonLp./ D ˚f .x/ W kf kLp./ <1

:

El segundo es el espacio de Sobolev —por Sergéi Lvóvich Sobolév, Rusia 1908-1989—. Es une espacio vec-torial de funciones dotado de una norma que es combinación de normas Lp de la función y de sus derivadashasta un orden dado. Formalmente para dos dimensiones es

H 1./ Du 2 L2./

ˇˇ @u@x1

;@u

@x22 L2./

:

Las derivadas de este espacio se entienden en un sentido débil16 que hagan que el espacio sea completo17 y porlo tanto sea un espacio de Banach. La norma correspondiente de este espacio es

kuk1; DZ

jruj2 CZ

juj21=2

D Z

ˇˇ @u@x1

ˇˇ2 C

Z

ˇˇ @u@x2

ˇˇ2 C

Z

juj2!1=2

;

denominada en ingeniería norma de energía. Las funciones que usan esta forma finita son funciones de energíafinita. Intuitivamente, un espacio de Sobolev es un espacio de funciones con derivadas de orden suficientepara un dominio de aplicación determinado y equipado con una norma que mida adecuadamente tamaño yregularidad en las funciones. Un subespacio de interés de ese espacio H 1./ es

H 1D./ D ˚v 2 H 1./ jv D 0 en D

:

Establecido todo este aparato matemático, la formulación débil del problema original queda así:„

Determinar una función u 2 H 1./ tal queu D g0 en DZ

ru rv C cZ

uv DZ

f v CZN

g1v; para todo v 2 H 1D./:

14Ya introducido antes en estos apuntes.15Que generaliza la noción de la integral de Riemann extendiendo el concepto de área bajo una curva para incluir funciones discon-

tinuas.

16Una generalización del concepto de derivada a funciones no necesariamente derivables pero si integrables localmente en el sentidode Lebesgue en un dominio dado de Lp./.

17Si toda sucesión de Cauchy en él tiene límite.

48

Page 51: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

La condición que se impone a la función de prueba, v 2 H 1D./, es la misma que

v 2 H 1./ tal que v D 0 en D;

lo que quiere decir que v está en el mismo espacio de la función que se busca u pero satisface una versiónhomogénea de la condición esencial de borde o frontera.Los datos del problema están en los siguientes espacios f 2 L2./, g1 2 L2.N / y g0 2 H 1=2.D/.El segundo espacio restringe el dominio de las integrales en la línea que marca N en vez de en . Queg0 2 H 1=2.D/ quiere decir que existe al menos una función u0 2 H 1./ tal que u0 D g0 en D . Dehecho, todas las demás que cumplen esta condición pertenecen a u0 CH 1

D./ D

nu0 C vjv 2 H 1

D./

oD˚

w 2 H 1./jw D g0 en D. Que g0 pertenezca a H 1=2.D/ significa que no se busca la solución en el

conjunto vacío.

8.1.3 Discretización del problema en un subespacio de elementos finitos linealesComo venimos anunciando, la resolución del problema que estudiamos con el concurso de “elementos finitos”está basada en la aproximación del espacio H 1./ mediante funciones polinomiales sencillas por tramos otrozos.Para conseguirlo se utiliza una partición del dominio de cálculo en subdominios, a los que se denominamallado. El más sencillo es aquel en el que es un intervalo de la recta real, por ejemplo el abierto .0; 1/, enel que se tiene la partición 0 D x0 < x1 < < xn D 1 dividida en subintervalos Ij D .xj1; xj / de longitudhj D xj xj1, j D 1; : : : ; n. Si h D mKax hj y Vh es el espacio lineal de funciones v tal que v 2 C 0.Œ0; 1/,vjŒxi1;xi es un polinomio lineal, i D 1; : : : ; n, perteneciente por tanto a P1, y v.0/ D 0.Para cada i D 1; : : : ; n se define la función i de tal forma que

i .xj / D ıij D(1 si i D j0 si i ¤ j ;

delta de Kronecker —por Leopold Kronecker, Polonia 1823-Alemania 1891—, según se indica en la figura 8.38.Se tiene que fi W 1 i ng es una base de Vh. El conjunto fig es una base nodal de Vh y fv.xi /g son los

0.4 Piecewise Polynomial Spaces 7

0.4 Piecewise Polynomial Spaces – The Finite Element

Method

Let 0 = x0 < x1 < ... < xn = 1 be a partition of [0, 1], and let S be thelinear space of functions v such that

i) v ∈ C 0([0, 1])ii) v|[xi−1,xi] is a linear polynomial, i = 1, ..., n, andiii) v(0) = 0.

We will see later that S ⊂ V . For each i = 1, .., n define φi by the require-ment that φi(xj) = δij = the Kronecker delta, as shown in Fig. 0.1.

0 1xi

Fig. 0.1. piecewise linear basis function φi

(0.4.1) Lemma. φi : 1 ≤ i ≤ n is a basis for S.

(0.4.2) Remark. φi is called a nodal basis for S, and v(xi) are the nodalvalues of a function v. (The points xi are called the nodes.)

Proof. The set φi is linearly independent since∑n

i=1 ciφi(xj) = 0 impliescj = 0. To see that it spans S, consider the following:

(0.4.3) Definition. Given v ∈ C 0([0, 1]), the interpolant vI ∈ S of v isdetermined by vI : =

∑ni=1 v(xi)φi.

Clearly, the set φi spans S if the following is true.

(0.4.4) Lemma. v ∈ S ⇒ v = vI .

Proof. v − vI is linear on each [xi−1, xi] and zero at the endpoints, hencemust be identically zero.

We will now prove the following approximation theorem for the interpolant.

(0.4.5) Theorem. Let h = max1≤i≤n

(xi − xi−1

). Then

‖u− uI‖E ≤ Ch‖u′′‖for all u ∈ V , where C is independent of h and u.

i

Figura 8.38: Función de base lineal por tramos.

valores nodales de una función v. Los puntos .xi / se denominan nodos o nudos.Dada una función v 2 C 0.Œ0; 1/, el interpolante, o función de interpolación, vh 2 Vh de v se obtiene mediantevh D

PniD1 v.xi /i como se aprecia en la figura 8.39. Si v 2 Vh) v D vi .

0.4 Piecewise Polynomial Spaces 7

0.4 Piecewise Polynomial Spaces – The Finite Element

Method

Let 0 = x0 < x1 < ... < xn = 1 be a partition of [0, 1], and let S be thelinear space of functions v such that

i) v ∈ C 0([0, 1])ii) v|[xi−1,xi] is a linear polynomial, i = 1, ..., n, andiii) v(0) = 0.

We will see later that S ⊂ V . For each i = 1, .., n define φi by the require-ment that φi(xj) = δij = the Kronecker delta, as shown in Fig. 0.1.

0 1xi

Fig. 0.1. piecewise linear basis function φi

(0.4.1) Lemma. φi : 1 ≤ i ≤ n is a basis for S.

(0.4.2) Remark. φi is called a nodal basis for S, and v(xi) are the nodalvalues of a function v. (The points xi are called the nodes.)

Proof. The set φi is linearly independent since∑n

i=1 ciφi(xj) = 0 impliescj = 0. To see that it spans S, consider the following:

(0.4.3) Definition. Given v ∈ C 0([0, 1]), the interpolant vI ∈ S of v isdetermined by vI : =

∑ni=1 v(xi)φi.

Clearly, the set φi spans S if the following is true.

(0.4.4) Lemma. v ∈ S ⇒ v = vI .

Proof. v − vI is linear on each [xi−1, xi] and zero at the endpoints, hencemust be identically zero.

We will now prove the following approximation theorem for the interpolant.

(0.4.5) Theorem. Let h = max1≤i≤n

(xi − xi−1

). Then

‖u− uI‖E ≤ Ch‖u′′‖for all u ∈ V , where C is independent of h and u.

Vh

Figura 8.39: Aproximación mediante vh de una función de base lineal por tramos.

Otra partición —quizás la más utilizada— consiste en triangularizar un dominio de dos dimensiones, como,en pequeños triángulos que lo cubran enteramente. En la figura 8.40 se ve la correspondiente al dominio con elque venimos experimentando en estas notas.

49

Page 52: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

Figure 1.5: A triangulation of Ω

K K’

x1

x2

Figure 1.6: Two triangles with a common edge

There is a particularly interesting aspect of this basis of Vh that makes it especial. Ingeneral if you have a basis of Vh you know that you can decompose elements of Vh as aunique linear combination of the elements of the basis, that is,

uh =N∑

j=1

uj ϕj

is a general element of Vh. With this basis, the coefficients are precisely the values of uhon the nodes, that is, uj = uh(pj). Hence, the coefficients of uh in this basis are somethingmore than coefficients: there are values of the function on points.

An important result. As you can see, when defining the space Vh we have just gluedtogether P1 functions on triangles. Thanks to the way we have made the triangulationand to the way we chose the local degrees of freedom, what we obtained was a continuousfunction. One can think, is this so important? Could I take something discontinuous? Atthis level, the answer is a very load and clear NO! The reason is the following result thatallows us to know whether certain functions are in H1(Ω) or not.

Theorem. Let uh be a function defined on a triangulation of Ω such that

14

Figura 8.40: Triangularización del dominio .

Para simplificar se supone que la frontera o borde, , del dominio es una curva poligonal. Si no lo es,primero se le aproxima a un polígono. La triangularización consiste en dividir en un conjunto de triángulosTh D K1; : : : ; Km que no se solapen y que solo compartan lados completos, o lo que es lo mismo, que ningúnvértice de ningún triángulo caiga en algún lado de otro. Se cumplirá que

D[K2Th

K D K1 [K2 [Km:

El subespacio Vh deH 1./ es ahora Vh D˚funciones v 2 C./ˇvjKes lineal para todo K 2 Th; v D 0 en

,

donde vjK 2 P1 se refiere a la función v restringida a K. Recordemos que P1 es el espacio de polinomioslineales del tipo a0C a1x1C a2x2, donde los coeficientes a0, a1 y a2 serían los parámetros de cada triángulo.Los parámetros que definirán la función v 2 Vh serán los valores v.Ni / de v en los nodos Ni ; i D 1; : : : ;M

de Th excluyendo aquellos en los bordes pues v D 0 en . Los valores de los nodos de la triangularizacióndel dominio son los grados de libertad que determinan un elemento de Vh. Una numeración de esos nodospara nuestro dominio de trabajo sería la de la figura 8.41. Los nodos se indican mediante el vector xi , dondei D 1; : : : ;M , el número de nodos.

712

13

9

8

10

6

5

2

3

4

1

17

16

1511

14

18

Figure 1.7: Global numbering of nodes.

Figure 1.8: The graph of a nodal basis function: it looks like a camping tent.

restricted to each triangle it is a polynomial (or smooth) function. Then

uh ∈ H1(Ω) ⇐⇒ uh is continuous.

There is certain intuition to be had on why this result is true. If you take a derivative ofa piecewise smooth function, you obtain Dirac distributions along the lines where thereare discontinuities. Dirac distributions are not functions and it does not make sense tosee if the are square-integrable or not. Therefore, if there are discontinuities, the functionfails to have a square-integrable gradient.

2.4 Dirichlet nodes

So far we have taken into account the discrete version of the domain Ω but not the partitionof its boundary Γ into Dirichlet and Neumann sides. We first need some terminology. ADirichlet edge is an edge of a triangle that lies on ΓD. Similarly a Neumann edge is anedge of a triangle that is contained in ΓN . The vertices of the Dirichlet edges are calledDirichlet nodes. The doubt may arise in transitions from the Dirichlet to the Neumannpart of the boundary. If a node belongs to both ΓN and ΓD, it is a Dirichlet node.

15

Figura 8.41: Numeración de los nodos del dominio .

Si se fija un nodo del dominio y se le asocia el valor 1 y 0 a todos los demás, existe una función única i 2 Vh,función de base de nodo, tal que

i .xj / D ıij D(1 si i D j0 si i ¤ j ; i; j D 1; : : : ;M:

El aspecto de una de estas funciones es el de la figura 8.42. Si un triángulo K no tiene a xi como uno de susvértices, i es cero en todo el triángulo pues el valor de la función en todos sus vértices es cero. El soporte portanto de i —la envoltura del conjunto de puntos donde i no es cero— es la misma que la unión de todos lostriángulos que comparten xi como vértices. Ver figura 8.43.

50

Page 53: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

712

13

9

8

10

6

5

2

3

4

1

17

16

1511

14

18

Figure 1.7: Global numbering of nodes.

Figure 1.8: The graph of a nodal basis function: it looks like a camping tent.

restricted to each triangle it is a polynomial (or smooth) function. Then

uh ∈ H1(Ω) ⇐⇒ uh is continuous.

There is certain intuition to be had on why this result is true. If you take a derivative ofa piecewise smooth function, you obtain Dirac distributions along the lines where thereare discontinuities. Dirac distributions are not functions and it does not make sense tosee if the are square-integrable or not. Therefore, if there are discontinuities, the functionfails to have a square-integrable gradient.

2.4 Dirichlet nodes

So far we have taken into account the discrete version of the domain Ω but not the partitionof its boundary Γ into Dirichlet and Neumann sides. We first need some terminology. ADirichlet edge is an edge of a triangle that lies on ΓD. Similarly a Neumann edge is anedge of a triangle that is contained in ΓN . The vertices of the Dirichlet edges are calledDirichlet nodes. The doubt may arise in transitions from the Dirichlet to the Neumannpart of the boundary. If a node belongs to both ΓN and ΓD, it is a Dirichlet node.

15

i

xi

Figura 8.42: Gráfica de la funciones de base de los nodos del dominio .

Figure 1.9: Supports of two nodal basis functions

Figure 1.10: Dirichlet nodes corresponding to the domain as depicted in Figure 1.1

In truth, in parallel to what happens with how the Dirichlet and Neumann boundaryconditions are treated in the weak formulation, we will inherit two different discreteentities:

• Dirichlet nodes, and

• Neumann edges.

Let us now recall the space

H1ΓD

(Ω) = v ∈ H1(Ω) | v = 0 on ΓD.

We might be interested in the space

V ΓDh = Vh ∩H1

ΓD(Ω) = vh ∈ Vh | vh = 0, on ΓD.

16

Figura 8.43: Soporte de dos funciones de base del dominio .

Una función cualquiera uh 2 Vh se representa entonces como

uh DMXjD1

uh.xj /j .xi / DMXjD1

uh.xj /ıj i DMXjD1

uh.xj /j :

El conjunto fi ; i D 1; : : : ;M g es una base de Vh.Hasta ahora no hemos tenido en cuenta si los nodos de la frontera están en el segmento de borde tipo Dirichleto Neumann. Si teníamos hasta ahora el espacio

H 1D./ D ˚v 2 H 1./

ˇv D 0; en D

;

ahora nos interesaVD

hD Vh \H 1

D./ D ˚vk 2 Vhˇvh D 0; en D

:

La idea es llevar constancia de qué nodos son Dirichlet —Dir— y cuáles no, independientes, —Ind—. En elcaso del ejemplo que tratamos,

Dir D f9; 13; 14; 15; 17; 18gInd D f1; 2; 3; 4; 5; 6; 7; 8; 10; 11; 12; 16g :

Entonces, un elemento de Vh se podría escribir como

uh DXj2Ind

ujj CXj2Dir

ujj ; uj D uh.xj /

y uno de V D

hasí

uh DXj2Ind

ujj :

8.1.4 Reformulación del problema como un sistema de ecuaciones linealesRecapitulando, el método nos ha hecho llegar a la siguiente formulación para determinar la función uh†

Determinar una función uh 2 Vh tal queuh.xj / D g0.xj / 8j 2 DirZ

ruh ri C cZ

uhi DZ

f i CZN

g1i ; 8i 2 Ind:

51

Page 54: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

Para ello:

Hemos convertido el espacio de Sobolev en el que buscamos la función solución en uno de dimensiónfinita, Vh. Es decir, hemos reducido el problema a calcular uh en los vértices de una triangularización—los nodos— y a un número finito de incógnitas.

Hemos sustituido las condiciones tipo Dirichlet fijando condiciones a los nodos Dirichlet, lo que reduceaún más el número de incógnitas: a los nodos independientes.

Hemos reducido el espacio de prueba de H 1D./ a un subespacio discreto V D

h, lo que reduce un

número infinito de pruebas en la formulación débil a un número finito de ecuaciones lineales.

Para obtener finalmente el sistema de ecuaciones lineales escribimos uh en términos de las funciones de basede los nodos:

uh DXj2Ind

ujj CXj2Dir

ujj :

Luego sustituimos en esta expresión las condiciones de Dirichlet discretizadas:

uh DXj2Ind

ujj CXj2Dir

g0.xj /j :

Finalmente incorporamos esta expresión en la formulación variacional discreta:Z

ruh ri C cZ

uhi DZ

f i CZN

g1i ;

linealizando, teniendo en cuenta que

ruh DXj2Ind

ujrj CXj2Dir

g0.xj /rj

y reordenando llegamos ai

j2Ind

Z

rj ri C cZ

jj

uj D

Z

f i CZN

g1i

i

j2Dir

Z

rj ri C cZ

jj

g0.xj /:

Este es un sistema de ecuaciones lineales con un número de ecuaciones igual al número de incógnitas (# Ind DdimV

D

h), que son precisamente los valores de la función uh en los nodos libres de la triangularización llevada

a cabo.Hay dos matrices importantes en este sistema de ecuaciones, la matriz de rigideces,

W ij DZ

rj riy la matriz de masas

M ij DZ

ji :

Ambas son simétricas. La de masas es definida positiva. La de rigideces semidefinida positiva. Si hacemosbi D

R f i C

RN

g1i , i 2 Ind, se llega ai

j2Ind

W ij C cM ij

!uj D bi

i

j2Dir

W ij C cM ij

!g0.xj /; i 2 Ind:

Estas matrices poseen patrones de dispersidad muy pronunciados pues sólo interactúan nodos que están unidosentre si por lados de triángulos. Ello las hacen propicias para ordenaciones en torno a la diagonal principal.Su manipulación es sencilla y las operaciones necesarias para resolver los gigantescos sistemas de ecuacioneslineales a que pueden dar lugar son perfectamente tratables por los ordenadores disponibles actualmente.

52

Page 55: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

8.2 Algo sobre funcionales y cálculo de variaciones

Un funcional es una función que tiene funciones como argumento a las que asigna un valor real. Es decir, unafunción cuyo dominio es un conjunto de funciones. En la figura 8.44 se esquematiza la diferencia entre unafunción ordinaria y un funcional.

Chapter 1: VARIATIONAL CALCULUS OVERVIEW

Input: argument x(independent

variable)

Input 1: argument x(independent

variable)

Output: function value y (dependent

variable)

(a) f y=y(x)=f(x)

y=f(x)

x

fx

Input 2: function y=y(x) (primary

dependent variable)

Input 2: function y=y(x) (primary

dependent variable)

(b) J

Input 1: argument x(independent

variable)

fx

Input 3: derivativeof primary

dependent variable

(c)J J(y)=J(x,y,y')

J(y)=J(x,y)

y=f(x)

y'=dy/dx

Functionoperator

Functionaloperator

Functionaloperator

Output: functional value J (a scalar)

Output: functionalvalue J (a scalar)

FUNCIONALES

FUNCIONES

Figure 1.1. Block diagrams that illustrate key differences between functions and functionals in one dimension.(a) An ordinary function y = y(x) = f (x) of the independent variable x ; (b) a functional J [y] = J (x, y) of

the function y(x); (c) a functional J [y] = J (x, y, y′) of the function y(x) and its derivative y′ = dy/dx .

§1.2.3. Basic 1D Functional

To keep things simple, in this Chapter we focus on one specific type of functional, called the basicone-dimensional functional. It has the form (1.2), under additional restrictions:

J [y] =∫ b

aF

(x, y(x), y′(x)

), x = [a, b], a ≤ b, y(a) = ya, y(b) = yb. (1.3)

In words: the function y = f (x) is defined over the segment x ∈ [a, b], a ≤ b, of the real line.Given x , y is assumed real and unique; that is, y(x) is single-valued. Furthermore y(x) possessesthe appropriate smoothness so that y′(x), as well as the integral in (1.3), exist. That function mustsatisfy the stated end conditions at x = a and x = b, at which ya = y(a) and yb = y(b) are given.3

Those boundary conditions will be called essential.

The basicfunctional (1.3) is historically interesting since it belongs to a class of problems thatprompted the birth and development of variational calculus in the XVIII Century. But it also servesas a good expository tool. Some specific examples follow.

3 The overhat over a symbol will be often used to denote prescribed values.

1–6

Figura 8.44: Diagrama de bloques que ilustra la diferencia formal en una dimensión entre una función ordinariay un funcional. (a) Una función ordinaria y D y.x/ D f .x/ de una variable independiente x; (b) Un funcionalJ.y/ D J.x; y/ de la función y.x/; Un funcional J.y/ D J.x; y; y0/ de la función y.x/ y su derivaday0 D dy=dx.

El funcional básico unidimensional lineal más típico tiene la forma

J.y/ DZ b

a

Fx; y.x/; y0.x/

dx; x D Œa; b; a b; y.a/ D Oya; y.b/ D Oyb:

En palabras, la función y D y.x/ está definida en el segmento x 2 Œa; b, a b, de la recta real. Dado unx, y.x/ se supone real y único. Además, y.x/ es continua y derivable por lo que y0.x/ existe al igual quela integral enunciada. La función debe satisfacer en x D a y en x D b unas determinadas condiciones decontorno: concretamente, Oya D y.a/ y Oyb D y.b/.Así era cómo la palabra funcional fue utilizada inicialmente en el cálculo de variaciones, donde el integrandoa ser minimizado debía ser un funcional, aplicada a una todavía desconocida función que satisfacía solamenteuna cierta condición de contorno, y condiciones de derivabilidad.Otro funcional lineal habitual es la función delta de Dirac —por Paul Adrien Maurice Dirac, Reino Unido,1902-1984—

ıt Œf ./ D f .t/que se puede escribir también como ıt Œf ./ D

R ba f .x/ı.x t / dt .

Un problema de cálculo de variaciones o problema variacional típico sería el de encontrar la función y 2Œa; b! R que minimiza el funcional anterior, J.y/, con las condiciones de contorno indicadas.En varios campos de la ingeniería, la física matemática, el reconocimiento de imágenes y otros muchos, elcálculo de variaciones es un interesante problema matemático consistente en buscar máximos y mínimos (omás generalmente extremos relativos) de funcionales continuos definidos sobre algún espacio funcional. Cons-tituyen una generalización del cálculo elemental de máximos y mínimos de funciones reales de una variable.Muchos problemas de este tipo18 son fáciles de formular pero sus soluciones implican a menudo, a su vez,difíciles procedimientos de cálculo diferencial, los cuales generalmente suponen usar ecuaciones diferenciales

18Por ejemplo el de encontrar la curva de longitud más corta que una dos puntos.

53

Page 56: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

ordinarias —Ordinary Differential Equations—, así como las ecuaciones (diferenciales) en derivadas parciales—Partial Differential Equations—.En la figura 8.45 se pueden ver algunos problemas clásicos de funcionales en una dimensión.

§1.2 FUNCTIONALS VERSUS FUNCTIONS

B

A

B

A

(a) (c)

xx=a x=bx

y y

x=a x=b

y=y(x)

Constantgravity g

Parabola

Cycloid

Straight line

y(a)=y

y(b)=ya

b

^

^Area A

B

A

(b)

x

y

x=a x=b

Arclength L

Figure 1.2. Canonical one-dimensional functionals used in the examples of ?. (a) area undercurve; (b) curve arclength, (c) brachistochrone.

Example 1.1. Area Under Curve. The area subtented by y(x) and the real axis is given by

A =∫ b

a

y(x) dx . (1.4)

See Figure 1.2(a). This has the form illustrated in Figure 1.1(b).

Example 1.2. Curve Length. The length of the curve y(x) between x ∈ [a, b] and satisfying the given endconditions is given by

L =∫ b

a

√1 + (y′)2 dx . (1.5)

in which the + sign of the square root is taken. See Figure 1.2(b). (If this L is uniquely defined by this integralthe curve is said to be rectifiable.) This functional has the form illustrated in Figure 1.1(c), except that thereis no explicit dependence on y; only on its slope.

Example 1.3. Brachistochrone. This is illustrated in Figure 1.2(c). A point-mass body is released at A at zerotime. It is constrained to move under the influence of constant gravity g acting along −y and without friction,along a curve y = y(x) that ends at B, which is lower than A. (The mass is pictured as a rolling disk in thefigure, but it is actually a sliding point — no rotation is involved.) The curve y(x) is called the trajectory orpath. The traversal time taken by mass to go from A to B is given by the functional

T BA =

∫ b

a

√1 + (y′)2

2g ydx . (1.6)

in whch g is the acceleration of gravity. This functional fits the form illustrated in Figure 1.1(c). The derivationof this functional is the matter of an Exercise. An important feature is to find the trajectory that minimizes T ;this is called the brachistochrone problem. We shall later show that the solution of this fastest descent time isa cycloid, colored red in 1.2(c).

Example 1.4. Action Integral. In analytical dynamics (including both Newtonian and quantum mechanics) afunctional like (1.3), with the integral taken over a time interval t ∈ [ta, tb] is called the action. Its integrandF is known as the Lagrangian, which is often denoted by L or L .

§1.2.4. Admissible Functions

Key question: what sort of function can be fed into a functional? The question is similar to: whatkind of argument can a function have? but more complicated, because we are talking about a

1–7

Figura 8.45: Ejemplos unidimensional clásicos de funcionales: (a) Área debajo de una curva,R ba y.x/ dx; (b)

Longitud de un arco de curva,R ba

p1C .y0.x//2 dx; (c) Curva braquistócrona,

R ba

q1C.y0.x//2

2gydx.

Por regla general, no todas las funciones pueden encajar en un funcional. La figura 8.46 ilustra algunos tiposde funciones permitidas y otras no permitidas, grosso modo.Chapter 1: VARIATIONAL CALCULUS OVERVIEW

B

A

x=a x=b x x

y y

(a)

y(a)=y

y(b)=yb

a

^

^

B

A

x=a x=b

(b)

y(a)=y

y(b)=yb

a

^

^

1

12

23

34

4

55

Figure 1.3. Visualization of function admissibity concept as regards (1.3): (a) sample admissible functionsy(x) over that satisfy: C1 continuity (i.e., unique tangent at each point), and essential BC, and single valuedness;(b) sample inadmissible functions that violate one or more of the foregoing conditions: curves 1 and 3 have

corners, curve 2 is discontinuous, curve 4 is multivalued, and curve 5 violates the right essential BC.

function rather than just a number. A function that is permissible as input to a functional is calledadmissible. The set of such functions is the admissible class with respect to the functional underconsideration. The following general guidelines may be offered.

Function Smoothness. Admissible functions are usually chosen to have the minimal smoothness forwhich the integration over the problem domain makes sense. For example, if the functional has theform (1.2) the presence of y′ means that it is reasonable to ask that y(x) have integrable derivatives.For this to happen, it is sufficient that y′(x) be piecewise continuous. Requiring y(x) ∈ C1 over thedomain would be overkill but safe.

End Conditions. Prescribed end values, such as y(a) = ya , and y(b) = yb in (1.3), must be satisfieda priori. As previously noted, this kind of specification is called an essential boundary condition.

Single Valuedness. This requirement is optional. It is often stipulated a priori to simplify theformulation and analysis. But it must be abandoned for certain problems. For example, those thatinvolved closed curves or spirals.4

Real or Complex Values. If the functional is intended to model a physical problem, the choiceshould be obvious. Else it is a fielder’s choice re generality.

Figure 1.3 illustrates admissible function classes for the basicfunctional (1.3). Three requirementsare laid down: (1) y(x) is real and ∈ C1[a, b], whence the function must be continuous and possesscontinuous first derivatives; (2) satisfy essential BC at both ends; and (3) be single valued. Allcurves drawn in Figure 1.3(a) are admissible in this sense, whereas those in Figure 1.3(b) are not;see figure legend as to why.

§1.2.5. Variation and Extrema of a Function

The concept of variation is fundamental since it gives variational calculus its name. It is an extensionof the well known concept of differential in standard calculus. This is briefly reviewed below.

Consider an ordinary 1D function y(x), where y and x are real and y(x) possesses unique derivativey′(x) at each x in the problem domain x ∈ [a, b]. Change a given x bytto x + x . The function

4 Sometimes single valuedness may be often restored through a parametric representation in non-Cartesian coordinates.This is often the case with isoperimetric problems.

1–8

Figura 8.46: Muestrario de funciones admisibles en un funcional: (a) Funciones continuas, C 1, con un sólovalor para cada x y que cumplen las condiciones de contorno; (b) Inadmisibles: La 1 y la 3 tienen derivadasdiscontinuas; la 2 es discontinua y admite varios valores para un x; la 4 admite varios valores para un x y la 5no cumple las condiciones de contorno.

Si se considera un funcional general

I DZ x2

x1

F.x; y; y0/ dx

donde F es una función conocida con derivadas continuas hasta segundo orden respecto a x, y y y0. El valorde I dependerá de la trayectoria de la función entre .x1; y1/ y .x2; y2/; es decir, dependerá de la función y.x/que se escoja.Si se introduce a modo de prueba la familia de trayectorias

Qy.x/ D y.x/C ".x/;donde " es un parámetro y .x/ una función derivable a la que se le pide que .x1/ D .x2/ D 0, resulta quese pueden generar una infinidad de trayectorias para una .x/ dada sin más que variar el parámetro ". Todasellas pasan por .x1; y1/ y .x2; y2/. Consideremos

QI DZ x2

x1

F.x; Qy; Qy0/ dx DZ x2

x1

F.x; y C "; y0 C "0/ dx

Es evidente que los funcionales I y QI alcanzarán el mismo valor extremo (valor máximo o mínimo) cuando" D 0. Desarrollando, se tiene que

QI D . QI /"D0 C d QId"

!

"D0"C

d2 QId"2

!

"D0

"2

2ŠC

54

Page 57: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

Para que QI sea extremo cuando " D 0 es necesario que d QId"

!

"D0D 0:

Es decir que Z x2

x1

@F

@ Qyd Qyd"C @F

@ Qy0d Qy0d"

dx

"D0D 0:

Dado que d Qy=d" D , que d Qy0=d" D 0 y que quitar las tildes de Qy y de Qy0 en las derivadas de F es lo mismoque hacer " D 0 según se requería más arriba, la ecuación anterior se puede reescribir así:

Z x2

x1

@F

@yC @F

@y00dx D 0:

Integrando por partes el segundo término,

Z x2

x1

@F

@y00 dx D @F

@y0

ˇˇˇx2

x1

Z x2

x1

d

dx

@F

@y0

dx:

Cuando D 0 en los extremos la primera expresión del miembro de la derecha de esta ecuación se hace cero.Sustituyendo lo que queda en la anterior se tiene que

Z x2

x1

@F

@y d

dx

@F

@y0

dx D 0:

Cualquiera que sea la función .x/ entre los puntos extremos, según la fórmula de Euler-Lagrange se tiene que

d

dx

@F

@y0 @F@yD 0

que es la condición que debe cumplir y.x/ para ser un máximo o un mínimo: un extremo. Si en esta expresiónse sustituye F por su expresión F.x; y; y0/ resulta una ecuación diferencial de segundo orden en y.x/.

8.2.1 Proposiciones esenciales

Lema 8.1 Lema fundamental del Cálculo de Variaciones Sea M.x/ una función continua definida en elintervalo a x b. Supongamos que para cualquier función continua .x/ se tiene que

Z b

a

M.x/.x/ dx D 0:

Se cumple entonces queM.x/ D 0 para todo x 2 Œa; b:

DEMOSTRACIÓN. Supongamos queM.x/ no es cero en algún punto x0 2 .a; b/. Concretamente queM.x0/ >0. Por la continuidad de M.x/, existe un ı > 0 tal que

M.x0/2

< M.x/ M.x0/ < M.x0/

2para jx x0j < ı con x 2 Œa; b:

En consecuencia, M.x/ > M.x0/=2 en ese intervalo. Escojamos una función .x/ tal que, como se ve en lafigura 8.47,

.x/ D

0 si a x a1 D mKax.x0 ı; a/> 0 si jx x0j < ı; x 2 Œa; b0 si mKın.x0 C ı; b/ D b1 x b:

55

Page 58: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

“k” — 2011/11/22 — 10:14 — page 495 —

INTRODUCTION TO FINITE-ELEMENT METHOD 495

sociated with these methods including those of Ritz, Galerkin, finite elements, andothers. They are ultimately based on the following theorem and corollaries thereof.

15.5.1 Theory

THEOREM 15.1 (Fundamental Lemma of the Calculus of Variations)

Suppose M(x) is a continuous function defined on the interval a ≤ x ≤ b. Suppose further

that for every continuous function, ζ(x),

∫ b

aM(x)ζ(x)dx = 0.

Then

M(x) = 0 for all x ∈ [a, b].

Proof Suppose M(x) is not zero at some point x0 ∈ (a, b). Suppose for defi-niteness that M(x0) > 0. Then by continuity there is a δ > 0 such that

M(x0)

2< M(x)−M(x0) <

M(x0)

2for |x− x0| < δ with x ∈ [a, b].

Thus, M(x) > M(x0)/2 in that interval. Now choose ζ(x) such that

ζ(x) =

⎧⎪⎨⎪⎩

0 if a ≤ x ≤ a1 = max(x0 − δ, a)> 0 if |x− x0| < δ, x ∈ [a, b]0 if min(x0 + δ, b) = b1 ≤ x ≤ b.

See the Figure 15.17. Then

ba 0x −0 x +0x

x0

0x

M( )

M( )

δ δ

2

FIGURE 15.17

0 =

∫ b

aM(x)ζ(x)dx =

∫ b1

a1

M(x)ζ(x)dx >1

2M(x0)

∫ b1

a1

ζ(x)dx > 0,

.x/

Figura 8.47: Lema fundamental del Cálculo de Variaciones.

Se tiene entonces que

0 DZ b

a

M.x/.x/ dx DZ b1

ai

M.x/.x/ dx >1

2M.x0/

Z b1

a1

.x/ dx > 0;

lo cual es una contradicción.SiM.x0/ < 0 el argumento sería idéntico sustituyendoM.x/ porM.x/. Si x0 D a o x0 D b la demostraciónsería casi igual con pequeñas modificaciones en la línea argumental.

Corolario 8.2 El resultado del Lema 8.1 sigue siendo aplicable si

.a/ D .b/ D 0:Corolario 8.3 Supóngase que M.x/ es continua en el intervalo I D Œa; b y que f'n.x/g1nD1 es un conjuntode funciones base. Supóngase además que

Z b

a

M.x/'n.x/ dx D 0 para n D 1; 2; : : :

Se cumple entonces que M.x/ D 0 para todo x 2 Œa; b.Lema 8.4 Sea M.x/ una función continua definida en el intervalo a x b. Supongamos que paracualquier función continua .x/, de derivada continua, se tiene que

Z b

a

M.x/0.x/ dx D 0

para .a/ D .b/ D 0. Se cumple entonces que

M.x/ D constante para todo x 2 Œa; b:Lema 8.5 Sea M.x/ una función continua definida en el intervalo a x b. Supongamos que paracualquier función continua .x/, de derivadas continuas al menos hasta segundo grado, se tiene que

Z b

a

M.x/00.x/ dx D 0

para .a/ D .b/ D 0 y 0.a/ D 0.b/ D 0. Se cumple entonces que

M.x/ D c0 C c1x para todo x 2 Œa; b;

donde c0 y c1 son constantes.

56

Page 59: de matemáticas Universidad Politécnica de …¡ticas_2016_11pt.pdf · Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación,

9 Bibliografía

9 Bibliografía

BERTSEKAS, D.P. 2003. Convex Analysis and Optimization. Athena Scientific.

BOYD, S. Y VANDENBERGHE, L. 2004. Convex Optimization. Cambridge University Press.

DE LA FUENTE, J.L. 1998. Técnicas de cálculo para sistemas de ecuaciones, programación lineal y progra-mación entera. Segunda edición. Reverté.

GANDER, M.J. Y WANNER, G. 2012. From Euler, Ritz, and Galerkin to Modern Computing. SIAM Review,Vol. 54, No. 4. Society for Industrial and Applied Mathematics.

HALMOS, P.R. 1974. Finite-Dimensional Vector Spaces. Springer Verlag.

KOLMOGOROV, A.M. Y FOMIN, S.V. 1975. Introductory Real Analysis. Dover Publications.

KUHN, H.W. Y TUCKER, A.W. 1951. Nonlinear Programming. Proceedings of the Second Berkeley Sym-posium on Mathematical Statistics and Probability. University of California Press. Verlag.

LAY, D.C. 2012. Álgebra lineal y sus aplicaciones. Cuarta edición. Pearson educación.

LUENBERGER, D.G. 1969. Optimization by Vector Space Methods. John Wiley and Sons.

LUENBERGER, D.G. Y YE, Y. 2016. Linear and Nonlinear Programming. Fourth Edition. Springer Verlag.

NOCEDAL, J. Y WRIGHT, S.J. 2006. Numerical Optimization. Springer Verlag.

RIAZA, R. Y ÁLVAREZ, M. 1996. Cálculo infinitesimal. Vol. I. Sociedad de Amigos de la Escuela TécnicaSuperior de Ingenieros Industriales de Madrid.

RIAZA, R. Y ÁLVAREZ, M. 1997. Cálculo infinitesimal. Vol. II. Sociedad de Amigos de la Escuela TécnicaSuperior de Ingenieros Industriales de Madrid.

ROCKAFELLAR, R.T. 1970. Convex Analysis. Princeton University Press.

SAUER, T. 2013. Análisis numérico. Segunda edición. Pearson educación.

SAYAS, F.J. 2015. A gentle introduction to the Finite Element Method.

WOLFE, P. 1961. A Duality Theorem for Non-Linear Programming. Quart. Appl. Math. 19, Nı 3.

57