Matemáticas y algoritmos numéricos - jldelafuenteoconnor.es · IV. Prefacio E l contenido de este...

106
Matemáticas y algoritmos numéricos Definiciones, notación y proposiciones esenciales para un curso avanzado José Luis de la Fuente O’Connor www.jldelafuenteoconnor.es

Transcript of Matemáticas y algoritmos numéricos - jldelafuenteoconnor.es · IV. Prefacio E l contenido de este...

Matemáticas y algoritmosnuméricos

Definiciones, notación y proposicionesesenciales para un curso avanzado

José Luis de la Fuente O’Connorwww.jldelafuenteoconnor.es

A mi familia

I

II

ÍndicePrefacio V

1 Conjuntos 1

2 Espacios vectoriales 2

2.1 Espacios normados, espacios métricos . . . . . . . . . . . . . . . 62.2 Espacios con producto interior . . . . . . . . . . . . . . . . . . . 102.3 Aplicaciones lineales . . . . . . . . . . . . . . . . . . . . . . . . 12

3 Topología 13

4 Matrices 15

4.1 Normas de matrices . . . . . . . . . . . . . . . . . . . . . . . . . 184.2 Matrices ortogonales, unitarias, simétricas, Hessenberg, de permu-

tación y de proyección . . . . . . . . . . . . . . . . . . . . . . . 214.3 Valores propios, valores singulares y formas cuadráticas . . . . . . 24

4.3.1 Valores propios . . . . . . . . . . . . . . . . . . . . . . . 244.3.2 Valores singulares . . . . . . . . . . . . . . . . . . . . . 284.3.3 Formas cuadráticas . . . . . . . . . . . . . . . . . . . . . 31

5 Teorema de la proyección 33

6 Funciones 34

6.1 Condiciones necesarias y suficientes de punto mínimo . . . . . . . 406.2 Teorema de la función implícita . . . . . . . . . . . . . . . . . . 41

7 Optimización y Programación Matemática 42

7.1 Conjuntos convexos . . . . . . . . . . . . . . . . . . . . . . . . . 437.2 Caracterización del problema de optimización y condiciones de

punto óptimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547.3 Dualidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

7.3.1 Dualidad Lagrangiana . . . . . . . . . . . . . . . . . . . 637.3.2 Dualidad de Wolfe . . . . . . . . . . . . . . . . . . . . . 647.3.3 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

8 Sobre el método de los elementos finitos para resolver ecuaciones en

derivadas parciales 65

8.1 Solución de una ecuación en derivadas parciales . . . . . . . . . . 698.1.1 El problema en forma débil o variacional . . . . . . . . . 70

III

8.1.2 Espacios de trabajo . . . . . . . . . . . . . . . . . . . . . 728.1.3 Discretización del problema en un subespacio de elemen-

tos finitos lineales . . . . . . . . . . . . . . . . . . . . . . 748.1.4 Reformulación del problema como un sistema de ecuacio-

nes lineales . . . . . . . . . . . . . . . . . . . . . . . . . 788.2 Algo sobre funcionales y cálculo de variaciones . . . . . . . . . . 79

8.2.1 Proposiciones esenciales . . . . . . . . . . . . . . . . . . 83

9 Análisis de componentes principales 85

9.1 Algunos conceptos de estadística . . . . . . . . . . . . . . . . . . 869.2 Planteamiento del problema matemático . . . . . . . . . . . . . . 88

10 Números complejos 93

11 Bibliografía 96

IV

Prefacio

E l contenido de este libro es una introducción de referencia y apoyo a todoel contexto matemático y algorítmico de la asignatura Matemáticas de la

Especialidad–Ingeniería Eléctrica que desde hace varios años dicto en la Escue-la Técnica Superior de Ingenieros Industriales, de la Universidad Politécnica deMadrid. Esta adscrita al Grado de Tecnologías Industriales de esa Escuela.

Dado que recopila de forma sencilla conceptos útiles para asuntos de interésmatemático diverso sobre los que trabajan los alumnos y futuros ingenieros, hansido muchos los compañeros y amigos que me han animado a formatearlo como unlibro y ponerlo en el dominio público para que, además de en mi sitio web —dondeha estado desde hace bastantes años—, pueda ser leído, consultado o estudiado conuna hechura tradicional.

En el contenido del libro el lector encontrará conceptos, referencias históri-cas, definiciones, relaciones y resultados básicos de matemáticas que yo consideroútiles tener a mano para poder seguir el desarrollo de la citada asignatura, así co-mo similares, de manera provechosa, y poder recordarlos si ha lugar en el futurode forma rápida y en un mismo volumen. Su énfasis es en las matemáticas querespaldarán los procedimientos numéricos prácticos que necesita comprender ydesarrollar la ingeniería y ciencias aplicadas con las que tendrán que lidiar inge-nieros y graduados en su desempeño profesional. Prácticamente todo lo escrito lohe estudiado y abordado en el curso de mi trayectoria profesional y en la asignaturaindicada, así como en otras dictadas a lo largo de mi carrera docente.

Con los conceptos y resultados vertidos puede ser mucho más intuitivo com-prender cómo funcionan las matemáticas inherentes a muchos de los algoritmosy métodos que hoy en día están presentes en bastantes de los desarrollos del BigData, optimización matemática y otras cuestiones de la tan de moda economía di-gital, con la que convivimos todos los días. Con ellos como referencia se puedeimaginar cómo pueden ser mejorados o hacerlos evolucionar para desarrollar lasnuevas herramientas de optimización no lineal, integración de ecuaciones diferen-ciales complicadas, etc. que se necesitan en estos desafíos y otros que se pondránpor delante.

Lo que se expone en las pocas páginas del libro es una síntesis o guía prácticade muchos años dedicado a investigar, primero y enseñar lo practicado y seguirinvestigando después, sobre todo lo que tiene que ver con las técnicas y algorit-mos numéricos que nos permiten, mediante el Cálculo y Análisis Matemático, y laIngeniería de sus Métodos Numéricos, simular la realidad con la que nos enfren-tamos a diario para identificarla y atacar los diversos problemas prácticos que nosacucian y que la inteligencia humana decide abordar. En especial algunos ejem-plos se refieren a la ingeniería eléctrica, pero que son extensibles a otros muchos

V

campos del conocimiento y la ciencia.Mediante el diseño e ingeniería de los procedimientos numéricos podemos es-

tudiar y resolver problemas prácticos también de las ciencias sociales, medicina yotras áreas de conocimiento importantes para la vida de las personas —aquellos debase científica que se modelizan y simulan en términos matemáticos— y analizarla idoneidad de sus resultados para el interés general y para otras ramas que sepuedan beneficiar de un trasvase de ideas y resultados. Todo ello ayudado con losordenadores a nuestro alcance y con programas muy probados y potentes que nospermiten realizar pasos intermedios muy eficazmente y a mucha velocidad.

El libro en ningún caso recoge un exhaustivo recordatorio de las matemáticasque debe conocer un ingeniero, pues según se adentra en nuevas parcelas del sabery la investigación el panorama se agranda enormemente. La notación que se intro-duce, de forma sistemática y sencilla, es para poderla usar en todas las leccionesy presentaciones que explicamos y enseñamos en las clases mencionadas, y comomedio para uniformizar todo el contexto de la exposición y aprendizaje si ello esposible.

Al final del libro se lista un conjunto de referencias básicas. No pretende sinoapuntar con qué libros o artículos se pueden estudiar y aprender los fundamentosde casi todo lo expuesto en este libro, y algo más.

El el sitio web que se cita más abajo se pueden encontrar los guiones y apuntesde lecciones teóricas y prácticas que dicto en la universidad tomando como baseel contenido de este libro; también, software para dar significación práctica a esaslecciones y apostillar mediante pequeños programas muchos de los resultados quese presentan en este volumen.

Si algún amable lector tiene a bien aportarme cualquier sugerencia, lo agrade-ceré infinitamente.

José Luis de la Fuente O’Connor

Alcobendas, 20 de julio de 2016www.jldelafuenteoconnor.es

VI

1 Conjuntos

1 Conjuntos

L AS matemáticas modernas tienen mucho que ver con los conjuntos. Un con-junto es una colección de objetos: los números naturales, las soluciones de

un problema determinado, los municipios de una provincia, etc. Se identifica poruna letra mayúscula: el conjunto S , el conjunto de los números naturales N, el delos enteros Z, el de los reales R, complejos C, racionales Q, etc.

Cada uno de los objetos en la colección es un elemento o miembro del conjunto.Si un elemento a pertenece a un conjunto se indica a 2 S . Los conjuntos sedefinen mediante la enumeración entre llaves de sus elementos, S D fa; b; : : : g,o especificando, también entre llaves, la propiedad que los caracteriza, S D fx Wx 2 R; x � 2g: números reales menores o iguales que dos.

El conjunto sin elementos se denomina vacío, designándose ;. Ejemplo: elconjunto S de los números reales x que son mayores que 1 y menores que 0: estoes, S D fx 2 R W x > 1; x < 0g.

Si S y S 0 son dos conjuntos y todos los elementos del conjunto S 0 lo son deS , se dice que S 0 es un subconjunto del conjunto S , o que está contenido en S 0,expresándose S 0 � S o S � S 0.

La unión de dos conjuntos S y T , expresada S [ T , es el conjunto formadopor los elementos que pertenecen a S o a T .

La intersección de S y T , expresada S \ T , es el conjunto formado por loselementos que pertenecen a S y a T .

Si S 0 es un subconjunto de S , el complemento de S 0 en S es el conjunto for-mado por los elementos de S que no pertenecen a S 0.

Si a y b son números reales, y a � b, el conjunto de números x de la recta realtales que a � x � b se indica Œa; b�. El formado por los x tales que a < x � b,por .a; b�. El de los x que verifican que a < x < b, por .a; b/.

Si S es un conjunto no vacío de números reales acotados superiormente —mayorados—, existe un número real mínimo y tal que x � y para todo x 2 S . Alnúmero y se le denomina cota superior mínima o supremo de S ; se expresa así:

supx2S

.x/ o sup fx W x 2 Sg :

De forma similar se define la cota inferior máxima —o ínfimo— de un conjunto S

no vacío de números reales acotados inferiormente o minorados:

Kınfx2S

.x/ o Kınf fx W x 2 Sg :

Dados dos conjuntos S y T , una aplicación, transformación o mapeo f deS en T , expresada como f W S ! T , es una asociación o criterio que a cadaelemento de S hace corresponder uno de T .

1

2 Espacios vectoriales

La imagen de un elemento x 2 S con la aplicación f W S ! T es el elementof .x/ 2 T . El conjunto imagen f .S/ = ff .x/ 2 T; para todo x 2 Sg. La imagende un subconjunto S 0 � S con la aplicación f sería, por consiguiente, el subcon-junto imagen f .S 0/. El conjunto S se conoce como origen o dominio de definicióny el T como dominio de valores. Una aplicación f W S ! T se dice inyectiva sipara cualquier par de elementos x; y 2 S , x ¤ y, se cumple que f .x/ ¤ f .y/.Ejemplo, la aplicación f W R ! R, definida por f .x/ D x2, no es inyectiva, puesf .1/ D f .�1/ D 1.

Una función es un caso particular de aplicación en donde los conjuntos origene imagen son conjuntos de números: R, C, Z, N, etc.

Una aplicación f W S ! T se dice suprayectiva —sobreyectiva, epiyectiva,suryectiva o exhaustiva— si el conjunto imagen f .S/ es igual a todo el conjuntoT ; es decir, para todo y 2 T existe un x 2 S tal que f .x/ D y.

Una aplicación se dice biyectiva si es inyectiva y suprayectiva. Ejemplo, si Jn

es el conjunto de los números enteros de 1 a n, Jn D f1; : : : ; ng, y se define unaaplicación � W Jn ! Jn que modifica el orden de disposición de los elemen-tos de Jn —estas aplicaciones se denominan permutaciones—, tal aplicación esbiyectiva.

Un conjunto S se dice numerable si existe una biyección entre N y S : a cadaunos de los n elementos k, 1 � k � n, se le asocia un elemento ak 2 S , esto es:k 7! ak .

Una sucesión de elementos de un conjunto T es una aplicación de N en T : acada elemento n � 1 se le hace corresponder un x.n/ 2 T : n 7! x.n/. Tal sucesiónse expresa como fx.1/; x.2/; : : : g o fx.n/gn�1.

Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación, división o cualquier otra—, se dice que poseen una estruc-tura. Las estructuras algebraicas fundamentales son grupo, anillo (Z por ejemplo),cuerpo (R y C, por ejemplo) y espacio vectorial.

2 Espacios vectoriales

U N espacio vectorial E es una estructura algebraica creada a partir de unconjunto no vacío, una ley de composición interna, adición, definida para

los elementos del conjunto con las siguientes propiedades —grupo conmutativo—

x C y D y C x

.x C y/ C z D x C .y C z/

x C ø D x

x C .�x/ D ø

y una ley de composición externa, producto por un escalar, definida entre dicho

2

2 Espacios vectoriales

RC

QZ

N

conjunto y otro conjunto, K, con estructura de cuerpo, con las siguientes propie-dades,

1 � x D x

˛.ˇx/ D .˛ˇ/x

.˛ C ˇ/x D ˛x C ˇx

˛.x C y/ D ˛x C ˛y;

válidas cualesquiera que sean x; y; z en E y ˛; ˇ en K. A ø se le denomina ele-mento neutro y a �x el opuesto de x. Es usual denominar vectores a los elementosde E y escalares a los de K. En las aplicaciones que se estudian habitualmentelos casos más importantes ocurren cuando K D R o K D C. Con la notación K

designaremos a cualquiera de los cuerpos R o C y por x un vector cualquiera deun espacio vectorial.

El paradigma de espacio vectorial lo constituye el formado por sucesiones or-denadas de n elementos cualesquiera de K, o n-uplas x D Œx1; : : : ; xn�, definiendola suma de vectores mediante

Œx1; : : : ; xn� C Œy1; : : : ; yn� D Œx1 C y1; : : : ; xn C yn�

y el producto por un escalar mediante

˛Œx1; : : : ; xn� D Œ˛x1; : : : ; ˛xn� :

Si los elementos están definidos en R, el espacio vectorial se denomina Rn, si loestán en C, el espacio vectorial es Cn. Si � � Rn es un conjunto abierto de Rn, el

3

2 Espacios vectoriales

conjunto de todas las funciones continuas en � forman un espacio vectorial linealC.�/ en Rn con las operaciones suma y producto por un escalar,

.f C g/.x/ D f .x/ C g.x/; x 2 �

. f /.x/ D f .x/; x 2 �:

Mediante C.�/ se designa el espacio vectorial lineal de las funciones continuas enel conjunto cerrado �. Este último espacio, y C.�/, son una variedad de espaciovectorial denominada espacio funcional pues sus elementos son funciones en vezde vectores propiamente dichos. Cualquier función continua en C.�/ es claramen-te continua en C.�/. Igualmente, si f 2 C.�/ es continua en � y � está acotado,la función f se puede suponer continua también en @�, la frontera o borde de �,y entenderse que es continua por tanto en C.�/ y pertenece a dicho conjunto. Re-cordemos también que f se supone continua (o uniformemente continua) en �

si para cualquier " > 0 existe un ı D ı.f; "/ > 0 tal que jf .x/ � f .y/j < ",cualesquiera sean x; y 2 � con kx � yk < ı.

Otro espacio vectorial interesante es C m.�/, el de funciones continuas con de-rivadas parciales continuas hasta orden m en �, o C m.�/ en �. También Cp.2�/,de funciones continuas periódicas-2� , es decir, funciones f 2 C.�1; 1/ ta-les que f .x C 2�/ D f .x/, �1 < x < 1. O C k

p .2�/ de funciones conti-nuas periódicas-2� con derivadas continuas hasta orden k. Alguna vez se indicaC 0

p .2�/ para referirse a Cp.2�/.Otros espacios vectoriales habituales son Pn, de polinomios de grado n,

pn.x/ D PnkD0 akxk , con coeficientes ak reales o complejos.

El conjunto L1Œa; b� de todas las funciones del cuerpo de los números realescuyo valor absoluto es integrable en el intervalo Œa; b� es un espacio vectorial fun-cional. También lo es L2Œa; b�, el conjunto de todas las funciones reales al cua-drado integrables en Œa; b�. Es de destacar que en ambos casos estas funciones notienen por que ser continuas en ese intervalo.

Un subespacio vectorial M de un espacio vectorial E sobre un cuerpo K esun subconjunto no vacío que es un espacio vectorial sobre K. Es decir, es cerradorespecto de las operaciones de adición y producto por un escalar: que cumple que

8x; y 2 M H) x C y 2 M;

8x 2 M y 8� 2 K H) �x 2 M:

La intersección de una familia cualquiera de subespacios de E es también unsubespacio.

Si X es un subconjunto cualquiera de E el subespacio GenfXg, generado oengendrado por X , es la intersección se todos los subespacios que contienen a X .Cuando GenfXg D E, se dice que X es una parte generadora de E.

4

2 Espacios vectoriales

Dados vectores x1; : : : ; xn y escalares �1; : : : ; �n, el vector formado según laexpresión

x D �1x1 C � � � C �nxn

se dice que es una combinación lineal de los vectores x1; : : : ; xn de coeficien-tes �1; : : : ; �n. Un subconjunto X de E es un subespacio si y sólo si contiene acualquier combinación lineal de cualquier subconjunto finito de vectores de X .También se demuestra que el subespacio GenfXg es el conjunto de todas las com-binaciones lineales de vectores de X .

Un conjunto de vectores x1; x2; : : : ; xk se dicen linealmente dependientes siexisten escalares �i , no todos cero, tales que

PkiD1 �i xi D 0 ; linealmente inde-

pendientes, sikX

iD1

�i xi D 0 H) �i D 0; 0 � i � k :

Una parte X de un espacio vectorial E se dice que es una familia libre si losvectores de cualquier subconjunto finito de X son linealmente independientes.

La dimensión de un subespacio es el máximo número de vectores linealmenteindependientes en el subespacio.

Una base de un espacio vectorial E es cualquier subconjunto B de E que sea,simultáneamente, una parte libre y generadora de E; dicho de otra forma, unabase de un espacio vectorial es un conjunto —normalmente se supone ordenado(numerado)— de vectores linealmente independientes que generan (o engendran)dicho espacio. Se demuestra que cualquier espacio vectorial tiene una base y quetodas las bases de un mismo espacio tienen la misma cardinalidad —se puedenponer en biyección—. Cuando el cardinal de las bases es un número natural, n 2N, se dice que el espacio es de dimensión finita n. En un espacio vectorial Kn,

e1 D

2664

10:::0

3775 ; e2 D

2664

01:::0

3775 ; : : : ; en D

2664

00:::1

3775 ;

forman una base en dicho espacio; éste, por tanto, tiene dimensión n. Esta base sedenomina base canónica o base estándar de Kn. En esta base, cualquier vectorxT D Œx1; x2; : : : ; xn� se puede expresar de la siguiente forma:2

664x1

x2:::xn

3775 D x1

2664

10:::0

3775C x2

2664

01:::0

3775C � � � C xn

2664

00:::1

3775 :

5

2 Espacios vectoriales

Es decir Rn D Genfe1; : : : ; eng. La base estándar de Pn es S D f1; t; t2; : : : ; tng.Si A y B son subconjuntos de un espacio vectorial E, el conjunto A C B se

define como:A C B D fa C b W a 2 A; b 2 Bg :

Cuando A y B son subespacios, también lo es la suma ACB . Si además A\B D;, la suma se denomina directa, escribiéndose A ˚ B . Si A ˚ B D E, cualquiervector c 2 E se descompone de manera única como c D a C b, con a 2 A yb 2 B; también se dice que A y B son subespacios suplementarios.

2.1 Espacios normados, espacios métricos

Si en un espacio vectorial E sobre K (R o C) se define una norma vectorialcomo una aplicación k � k W E ! R que verifica

kvk D 0 H) v D 0 y x ¤ 0 H) kxk > 0;

k˛vk D j˛jkvk para ˛ 2 K y v 2 E;

ku C vk � kuk C kvk 8u; v 2 E;

se dice que E es un espacio vectorial normado.

uC v

u

v

Figura 2.1: Representación gráfica de la regla del triángulo

La condición ku C vk � kuk C kvk es la desigualdad de Minkowski —porHermann Minkowski, Lituania 1864-1909—; se conoce también como regla deltriángulo. Es una generalización del hecho de que un lado de un triángulo no puedeser mayor que la suma de los otros dos: ver figura 2.1. Una variante de esta reglaes la siguiente: ku � vk � kuk � kvk.

En un espacio vectorial normado se define la distancia entre dos elementos u

y v medianted.u; v/ D ku � vk :

Esta definición convierte a cualquier espacio vectorial normado en un espacio mé-trico. El espacio de los números reales, por ejemplo, con la distancia �.x; y/ Djx � yj es el espacio métrico R1.

6

2 Espacios vectoriales

En el espacio vectorial Kn, para 1 � p < 1, se tiene la familia de normas

kxkp D pp

jx1jp C � � � C jxnjp

denominadas normas p de Hölder —por Otto Hölder, Alemania 1859-1937—.Casos particulares lo constituyen las correspondientes a p D 1 y p D 2:

kxk1 DnX

iD1

jxi j

kxk2 Dp

jx1j2 C � � � C jxnj2 :

Esta última se denomina en Rn norma euclídea, por Euclides de Alejandría, Gre-cia, 325-265 a.C. También en Kn es una norma la dada por

kxk1 D mKax1�i�n

jxi j :

Estas normas cumplen, cualquiera que sea x 2 Kn, que

kxk1 � kxk2 � kxk1 � nkxk1 :

Si la bola cerrada unidad en R2 es el conjunto fx 2 R2 W kxk � 1g, su formaen espacios vectoriales normados por la 1, 2, 1 y p son las que representa lafigura 2.2.

En el espacio C Œ0; 1� de funciones continuas del intervalo Œ0; 1� en C, son nor-mas las dadas por

kf kp D"Z 1

0

jf .t/jp dt

#1=p

donde, si f W C ! C, se define la integral definida de esta función en el intervaloŒa; b�,

I.f / Dl b

a

f .x/ dx;

como el límite de las sumas de Riemann, por Georg Friedrich Bernhard Riemann,Alemania 1826-1866, Rn D Pn

iD1.xiC1 � xi /f .ti /; x1 D a; xnC1 D b; xi �ti � xiC1; cuando la partición en subintervalos se hace muy fina. También en unanorma la dada por

kf k1 D mKaxt2Œ0;1�

jf .t/j :

7

2 Espacios vectoriales

‖x‖1 =2∑

i=1

|xi|

‖x‖2 =√|x1|2 + |x2|2 =

√xTx

∞1≤i≤2

i

kxk1 D2i

iD1

jxi j

kxk2 Dq

jx1j2 C jx2j2 Dq

xT x

kxk1 D mKax1�i�2

jxi j

kxkp D Œjx1jp C jx2jp�1=p ; .1 � p < 1/

D 1

D 1

D 1

D 1

Figura 2.2: Forma de la bola unidad para diferentes normas en R2

Los espacios de funciones Lp.Œ0; 1�/, p > 1, con la norma

kxk D�Z 1

0

jx.t/jp dt

�1=p

; donde x.t/ 2 Lp.Œ0; 1�/;

en los que si y.t/ 2 Lp.Œ0; 1�/ se cumple que

�Z 1

0

jx.t/jp dt

�1=p

< 1

son también espacios1 normados.En particular, el conjunto de todas las funciones tales queZ

f 2.x/ dx < 1

con la distancia entre dos de ellas f1.x/ y f2.x/ definida porsZ.f1.x/ � f2.x//2 dx

1Casos particulares son L1.Œa; b�/ de funciones cuyo valor absoluto es integrable en Œa; b� yL2.Œa; b�/ de funciones al cuadrado integrables en Œa; b�.

8

2 Espacios vectoriales

es el espacio métrico L2.R/.Sea E un espacio vectorial normado; se dice que una sucesión2 fx.n/g en E

converge a un límite v 2 E, si para todo " > 0, existe un N 2 N tal que a partirde él, n � N , se cumple que kx.n/ � vk < ".

Cuando una sucesión fx.n/g admite un vector límite v sólo tiene ese vector co-mo límite.3 Se escribe lKımn!1 x.n/ D v. Es equivalente decir que lKımn!1 x.n/ Dv y que lKımn!1 kx.n/ � vk D 0. En particular, x.n/ ! 0 si y sólo si kx.n/k ! 0.

Una sucesión fx.n/g en un espacio vectorial normado por k � k se denominasucesión de Cauchy si para cada " > 0 existe un n 2 N tal que cualesquiera quesean p; q � n, se cumple que kx.p/ � x.q/k < ". Toda sucesión convergente esuna sucesión de Cauchy pero pueden existir espacios normados con sucesiones deCauchy que no son convergentes. Un espacio vectorial normado se dice completosi toda sucesión de Cauchy en él tiene límite.

Un espacio de Banach —por Stefan Banach, Polonia 1892-1945— es un espa-cio vectorial completo respecto de la norma a él asociada. Todo espacio vectorialnormado de dimensión finita es un espacio de Banach. En un espacio de dimensióninfinita esto no es cierto; por ejemplo, es fácil ver que en C Œ0; 1� la sucesión defunciones cuyas gráficas son las de la figura 2.3 es una sucesión de Cauchy paracualquier norma k � kp , pero no tiene límite en C Œ0; 1�.

= =

= =

��������

1n

1n

0 1 x

fn.x/

Figura 2.3: Gráfica de una de las funciones de una sucesión de Cauchy

2Cuando así lo aconseja la dificultad de la notación, una sucesión también se designa por fxng; susintegrantes, x.k/.

3Si existe límite es único.

9

2 Espacios vectoriales

2.2 Espacios con producto interior

Sea E un espacio vectorial sobre un cuerpo K (R o C); una forma sesquilineal—vez y media lineal— sobre E es una aplicación h�j�i W E �E ! K que verifica4:

1) h˛u C ˇvjwi D ˛hujwi C ˇhvjwi y

2) huj˛v C ˇwi D ˛hujvi C ˇhujwi;cualesquiera que sean u, v, w en E y ˛; ˇ en K. Si además se cumple que hujvi Dhvjui, la forma se denomina hermítica. Es claro que hujui es siempre un númeroreal. Cuando se cumple que

u ¤ 0 H) hujui > 0 ;

se dice que la forma es definida positiva, denominándosela también producto es-calar. Una forma sesquilineal sobre R es siempre una forma bilineal.

Un espacio prehilbertiano es un espacio vectorial sobre K dotado de una formahermítica definida positiva. Todo espacio prehilbertiano es un espacio normadomediante

kvk Dp

hvjvi :

En la demostración de que esta definición corresponde a la de una norma enE juega un papel importante la desigualdad de Cauchy-Schwarz —por Augus-tin Louis Cauchy, Francia 1789-1857 y Karl Hermann Amandus Schwarz, Prusia1843-Alemania 1921— a saber,ˇ

hujviˇ

� kuk � kvk :

Si � es un abierto de Rn, el espacio vectorial de las funciones al cuadradointegrables en �5 es

L2.�/ D�f W � ! R;

Z�

jf .x/j2dx < 1�

que es un espacio prehilbertiano si se le dota del producto escalar

hf; gi DZ

f .x/g.x/dx:

Un espacio de Hilbert —por David Hilbert, Prusia Oriental 1862-1943— es unespacio prehilbertiano completo respecto de la norma asociada al producto escalar

4La barra designa complejo conjugado.5También se suelen designar L2.�/.

10

2 Espacios vectoriales

k � k D ph�; �i . Dicho de otra forma, un espacio prehilbertiano que con esta normada un espacio de Banach. Todo espacio de Hilbert es un espacio de Banach, peroel recíproco no es cierto.

El espacio vectorial L2.�/ dotado de la norma hf; gi D R�

f .x/g.x/dx esun espacio de Hilbert.

El espacio euclídeo n-dimensional, expresado Rn o En, es un espacio de Hil-bert de dimensión finita. Visto así, un espacio de Hilbert sería la generalizaciónde un espacio euclídeo, incluida la dimensión infinita. El producto escalar en unespacio euclídeo es una forma bilineal. En particular, dados dos vectores en R2

de la forma u D Œa; b�T y v D Œc; d �T , su producto escalar viene dado porhu; vi D ac C bd . que se puede verificar que es una forma bilineal.

Dos vectores cuyo producto escalar es cero se denominan ortogonales; si susk � k2 son la unidad se denominan ortonormales. Para dos vectores ortogonales setiene la identidad

ku C vk2 D kuk2 C kvk2 ;

que es una generalización del teorema de Pitágoras. En un espacio prehilbertianoel único vector ortogonal a todos los vectores del espacio es el vector nulo; si esteespacio es de dimensión finita es posible construir una base ortonormalizada.

En un espacio euclídeo n-dimensional el ángulo entre dos vectores x e y es

� D arc cos�

xT y

kxkkyk�

;

donde

� D xT y

kxkkykcumple que �1 � � � 1, para cualesquiera x e y .

Dos vectores son ortogonales si xT y D 0 (� D �=2; � D 0); alineados, sixT y D kxkkyk (� D 0; � D 1); opuestos, si xT y D �kxkkyk (� D �; � D�1). Forman un ángulo agudo si xT y > 0 (� < �=2; � > 0) y un ángulo obtusosi xT y < 0 (� > �=2; � < 0).

Una familia cualquiera de vectores distintos del nulo y ortogonales dos a doses una familia libre. Si M es un subespacio de un espacio prehilbertiano E dedimensión finita, el subespacio ortogonal de M , M ?, es el subespacio formadopor todos los vectores ortogonales a los de M , siendo un subespacio suplementariode M ; es decir M ˚ M ? D E. Cualquier x 2 E, por consiguiente, se puedeexpresar como x D a C b, con a 2 M y b 2 M ?.

11

2 Espacios vectoriales

2.3 Aplicaciones lineales

Dados dos espacios vectoriales E y F sobre el mismo cuerpo K se define unaaplicación lineal, transformación lineal, mapeo, operador lineal u homomorfismo,f , de E en F , como una aplicación f W E ! F que verifica

f .�x C y/ D �f .x/ C f .y/ ;

cualesquiera que sean los vectores x, y de E y los escalares � y . Existen doscasos particulares interesantes: el primero cuando E D F , en este caso se dice quef es un operador lineal de E o endomorfismo de E; el segundo cuando F D K

—el cuerpo base—, en cuyo caso la aplicación se denomina forma lineal sobre E.El conjunto L.E; F / de todas las aplicaciones lineales del espacio E en el

espacio F se estructura como un espacio vectorial si se definen las siguientes ope-raciones:

adición .f C g/ W .f C g/.x/ D f .x/ C g.x/; 8x 2 EIproducto por un escalar �f W .�f /.x/ D �f .x/; 8x 2 E y 8� 2 K:

En particular, el conjunto L.E; K/ de formas lineales es un espacio vectorial de-nominado dual de E, representándose con E�.

Para una aplicación lineal f W E ! F , el conjunto de vectores de F que sonla imagen de los de un subespacio de E forma un subespacio de F . En particular,la imagen de todo E es un subespacio de F que se denomina subespacio imagende f , representándose mediante Im.f /. Análogamente, el conjunto anti-imagende un subespacio de F forma un subespacio de E. En particular, la anti-imagendel subespacio nulo de F forma lo que se denomina el núcleo de la aplicación,representándose por ker.f /. Así pues

ker.f / D fx 2 E W f .x/ D 0g :

Si b 2 F , la ecuación lineal f .x/ D b tiene solución si y sólo si b 2 Im.f /.En ese caso el conjunto de todas las soluciones es la variedad lineal —traslaciónde un subespacio— dada por x0 C ker.f /, donde x0 es una solución particular dela ecuación. En particular, la aplicación es inyectiva si y sólo si ker.f / D ;.

Sean E y F dos espacios prehilbertianos sobre el cuerpo K; si f W E ! F esuna aplicación lineal, la aplicación traspuesta de f es la aplicación f � W F ! E

que cumplehxjf �.y/i D hf .x/jyi ;

cualesquiera que sean los vectores x 2 E e y 2 F . Particularmente importantees el caso en que E D F : f � se dice entonces que es el operador adjunto de

12

3 Topología

f . Cuando un operador f de E cumple que f � D f se denomina operadorautoadjunto. En el caso de que E sea un espacio vectorial real, también se diceque f es un operador simétrico y cuando es un espacio vectorial complejo, que f

es un operador hermítico. Un operador simétrico cumple que

hxjf .y/i D hf .x/jyi;mientras que uno hermítico, que

hxjf .y/i D hf .x/jyi:Un operador f de E es unitario cuando es invertible y su inverso coincide con

su adjunto. Es decir, si f � D f �1. Para un operador unitario se tiene que

hf .x/jf .y/i D hf �.f .x//jyi D hxjyi ;

de manera que kf .x/k D kxk. Por este motivo a los operadores unitarios tambiénse les denomina operadores isométricos.

Dada una transformación lineal, aplicación lineal, o mapeo, f W E ! E, sedice que un subespacio W de E es un subespacio invariante frente a f (o f -invariante) si para todo vector w 2 W se cumple que f .w/ 2 W . Dicho de otramanera, W es un subespacio invariante si f .W / � W .

3 Topología

E N un espacio vectorial normado se define una bola abierta, S.x0; r/, de cen-tro x0 y radio r , como el conjunto de puntos x que verifican kx � x0k < r .

Es decir:S.x0; r/ D fx 2 Rn W kx � x0k < rg:

Una bola cerrada, NS.x0; r/, se define, por el contrario, como el conjunto depuntos x que verifican kx � x0k � r . Es decir:

NS.x0; r/ D fx 2 Rn W kx � x0k � rg:Consideraremos en lo que sigue de este apartado un subconjunto S del espacio

vectorial métrico hasta ahora estudiado (puede ser, por ejemplo, Rn).Un punto y 2 S es un punto interior del conjunto S si existe un " tal que

kx � yk < " ) x 2 S :

En otras palabras, existe una bola abierta S.y; "/ de centro y y radio " contenidaíntegramente en S .

13

4 Matrices

El conjunto de todos los puntos interiores del conjunto S se denomina inte-rior de S . Este conjunto puede, evidentemente, ser vacío. Ejemplo: un plano delespacio R3.

Un subconjunto de S se dice abierto si coincide con su interior; es decir, sialrededor de todo punto de S existe una bola abierta contenida íntegramente en S .Dos ejemplos: la bola abierta unidad, S.x; 1/ D fx W kxk < 1g y el espacio Rn

en su totalidad. En general los subconjuntos o conjuntos abiertos se caracterizanpor no tener límites definidos o ser disjuntos de su frontera (ver más adelante ladefinición del concepto frontera).

Un entorno de un punto x, E.x/, es un conjunto abierto que contiene a x. Enotras palabras, E.x/ es un entorno de x si contiene una bola abierta de centro x.

Se dice que un punto x es un punto de acumulación del subconjunto S si entodo entorno de x existen un número infinito de puntos de S .

Un punto x se denomina punto de adherencia del subconjunto S cuando todoentorno de dicho punto x contiene al menos un punto de S ; es decir, para todo "

existe un y 2 S tal que kx�yk < ". El conjunto de todos los puntos de adherenciase denomina adherencia —en la literatura anglosajona y latinoamericana, clausuracl.S/—. La adherencia de la bola abierta S.x; 1/ D fx W kxk < 1g es la cerradaNS.x; 1/ D fx W kxk � 1g.

Se denomina frontera de un conjunto a la parte de la adherencia que no está enel interior.

Un conjunto, o subconjunto, se dice cerrado si coincide con su adherencia.La adherencia de cualquier conjunto S es el conjunto cerrado más pequeño quecontiene a S . Se puede demostrar que un conjunto es cerrado si y sólo si todasucesión convergente de elementos de S tiene un límite en ese conjunto.

Un conjunto, o subconjunto, se dice compacto si es cerrado y acotado (con-tenido en una bola de radio r < 1). Un importante resultado, debido a Weiers-trass, dice que si S es un conjunto compacto, de cada sucesión o sucesión infinitafx.n/gn2N de elementos de dicho conjunto es posible extraer una subsucesiónn

x.`/o

`2LL � N

que converge a un elemento del propio conjunto S .Si fr .k/g es una sucesión de números reales y s.k/ D sup fr .i/ W i � kg,

entonces fs.k/g converge a un número real s0; a este número se le denomina límitesuperior de fr .k/g y se expresa como

lKım sup�r .k/

o lKım

k!1

�r .k/

:

El límite superior de una sucesión de números reales es el mayor punto de acumu-lación de la sucesión. De forma similar se define el límite inferior.

14

4 Matrices

4 Matrices

U NA matriz es una formación rectangular de numeros reales o complejosordenados en m filas y n columnas

2664

a11 a12 � � � a1n

a21 a22 � � � a2n

::::::

: : ::::

am1 am2 � � � amn

3775 :

El conjunto de todas las matrices de números reales o complejos se designa, res-pectivamente, Rm�n y Cm�n. Si m D n la matriz es cuadrada y de orden n. Unvector columna es también una matriz Rm�1, que se escribe Rm.

Las matrices de m filas y n columnas con coeficientes en el cuerpo R o C

forman un espacio vectorial, Rm�n o Cm�n, sobre dichos cuerpos.El primero en usar el término matriz en matemáticas fue James Joseph Sylves-

ter, Reino Unido 1814-1897. Arthur Cayley, Reino Unido, 1821-1895, contribuyóde forma decisiva a que A D .aij / se concibiese como una cantidad algebraicaúnica.

Si en álgebra lineal E y F son dos espacios vectoriales de dimensiones fi-nitas n y m sobre el mismo cuerpo K. Una aplicación lineal g W E ! F ,g 2 L.E; F /, está caracterizada o representada en dos bases fe1; e2; : : : ; eng deE y ff1; f2; : : : ; fmg de F por una tabla de coeficientes, matriz asociada, de m

filas y n columnas:

A D24a11 � � � a1n

:::: : :

:::am1 � � � amn

35 2 Km�n :

Los coeficientes aij están definidos por

g.ej / DmX

iD1

aij fi ; 1 � j � n :

El vector columna j -ésimo 264

a1ja2j

:::amj

375

representa el vector g.ej / en la base .fi /. A partir de la matriz A se pueden cal-cular los coeficientes y1; y2; : : : ; ym del vector y D g.x/ en la base .fi /, cono-

15

4 Matrices

ciendo los coeficiente x1; x2; : : : ; xn en la base .ej /. En efecto:264

y1y2:::

ym

375 D x1

264

a11a21

:::am1

375C x2

264

a12a22

:::am2

375C � � � C xn

264

a1na2n

:::amn

375 :

Expresión que también se puede escribir de la siguiente forma:

y DnX

iD1

xi ai ;

donde ai es el vector columna i -ésimo de la matriz A. Así pues, si se fijan dos ba-ses en E y F , cada aplicación lineal, g W E ! F , queda unívocamente represen-tada por una matriz. Recíprocamente, toda matriz en Km�n define unívocamenteuna aplicación lineal entre dos espacios E y F de dimensiones n y m en los quese han fijado dos bases. En particular, se pueden identificar las matrices m � n conlas aplicaciones lineales de Kn en Km.

Las matrices de m filas y n columnas con coeficientes en el cuerpo K formanun espacio vectorial, Km�n, sobre dicho cuerpo K.

Si E y F son dos espacios de dimensión finita dotados de un producto escalar yla aplicación ˛ 2 L.E; F / se representa en dos bases ortonormalizadas medianteuna matriz A, la aplicación ˛T 2 L.F; E/, traspuesta de ˛, viene representadapor la matriz AT , traspuesta de A.

El núcleo y la imagen de una matriz A 2 Km�n, ker.A/ y Im.A/, respectiva-mente, se definen como los subespacios de Kn y Km que son el núcleo y la imagende la aplicación lineal asociada:

ker.A/ D fx 2 Kn W Ax D 0gIm.A/ D fy 2 Km W y D Ax; x 2 Kng

7775A2Km�n

:

Dicho de otra forma, la imagen de una matriz es el subespacio generado por losvectores columna de la matriz; los vectores fila también generan un subespacioque no es otro que la imagen de AT .

Para una matriz A 2 Rm�n se cumple que:

kerAT

� D .Im.A//?

ImAT

� D .ker.A//?

ker.A/ D ImAT

��?Im.A/ D

kerAT

��?:

16

4 Matrices

De acuerdo con esto, si A 2 Rm�n, se cumple que

ker .A/ ˚ ImAT

� D Rn:

En la figura 4.4 se muestran estos subespacios.

A

0 0

I mA

K e r A

I m A

K e rAT

T

Figura 4.4: Subespacios fundamentales determinados por Am�n

El rango de una matriz es la dimensión6 de su subespacio imagen:

rango.A/ D dim.Im.A//:

Una matriz A 2 Km�n se dice de rango completo si rango.A/ D mKın.m; n/. Unamatriz cuadrada A 2 Kn�n se denomina singular si rango.A/ < n; regular sirango.A/ D n. También se cumple que rango.A/ D rango.AT /.

La aplicación asociada a una matriz A 2 Rm�n es suprayectiva cuandorango.A/ D m. Para una matriz A 2 Km�n se cumple que

dim.ker.A// C rango.A/ D n ;

o, alternativamente, dim.ker.A// D n� rango.A/. La aplicación lineal asociada aA es, por tanto, inyectiva, si y sólo si rango.A/ D n. Por otro lado dim.ker.AT //Crango.AT / D m.

El producto exterior uvT de un vector columna n � 1 por un vector fila 1 � n

es una matriz An�n de rango 1.

A D uvT D

264

u1v1 u1v2 � � � u1vnu2v1 u2v2 � � � u2vn

::::::

unv1 unv2 � � � unvn

375

6Recordemos: máximo número de vectores linealmente independientes.

17

4 Matrices

4.1 Normas de matrices

Aun cuando en lo que sigue nos limitaremos a matrices cuadradas, la ma-yor parte de las definiciones y resultados son extensibles a matrices rectangulares;también supondremos que las matrices son reales.

Las matrices cuadradas de orden n forman un espacio vectorial con un pro-ducto, esto es, un álgebra. Una norma matricial es una norma vectorial compa-tible con el producto. Se define formalmente sobre Rm�n como una aplicaciónk � k W Rm�n ! R que cumple:

1) kAk D 0 H) A D 0:

2) k�Ak D j�j � kAk:

3) kA C Bk � kAk C kBk:

4) kABk � kAk � kBk:

Existen normas sobre el espacio Rm�n que no son normas matriciales pues nocumplen la propiedad 4). Así, si se define

kAk D mKax1�i;j �n

jaij j ;

se satisfacen 1), 2) y 3); sin embargo, tomando A D B Dh

11

11

i, es fácil ver que

kABk D 2 > kAk � kBk D 1, por lo que no se cumple 4).Un ejemplo importante de norma matricial es la norma de Frobenius, definida

como:kAk2

F DX

1�i;j �n

a2ij D traza.AT A/;

donde la traza de una matriz A de orden n esPn

iD1 ai i . Es fácil ver que esta normaderiva del producto escalar hAjBi D traza.AT B/, que configura al espacio delas matrices cuadradas como un espacio prehilbertiano. La norma de Frobeniuscumple que

kABkF � kAkF � kBkF :

Una norma matricial k � k sobre Rm�n se dice consistente con una norma vec-torial k � k0 sobre Rn cuando para cada matriz A y cada vector x se cumple que

kAxk0 � kAk � kxk0 :

Por ejemplo, la norma de Frobenius y la norma euclídea de Rn son consistentespues

kAxk2 � kAkF � kxk2 :

18

4 Matrices

Se demuestra que para toda norma matricial es posible construir una norma vec-torial consistente. Recíprocamente, a toda norma vectorial sobre Rn se le puedeasociar una norma matricial consistente. Una norma matricial consistente con unacierta norma vectorial k � k se construye mediante la definición

kAk D sup0¤x2Rn

kAxkkxk :

Esta norma matricial se dice inducida por la norma vectorial. Ejemplo: la normamatricial inducida por la norma euclídea de Rn es la norma espectral:

kAk2 D sup0¤x2Rn

"xT AT Ax

xT x

#1=2

Dq

�max.AT A/ D �max.A/;

donde � designa un valor propio de A y � un valor singular. Si k � k es la normainducida por una cierta norma vectorial y k � k0 es una norma matricial cualquieraconsistente con esa norma vectorial, se cumple, para toda matriz A, que kAk �kAk0. En particular, para la norma espectral y la norma de Frobenius, se cumpleque

kAk2 � kAkF � pnkAk2 :

También que kABkF � kAkF � kBk2 y kABkF � kAk2 � kBkF . Como casosparticulares, kIk2 D 1 y para una matriz diagonal, kDk2 D mKaxi jdi j.

Las normas matriciales inducidas más usadas son

kAk1 D mKax1�j �n

mXiD1

jaij j y

kAk1 D mKax1�i�m

nXj D1

jaij j :

Ejemplo 4.1 El efecto que produce aplicar la transformación lineal basada en lamatriz

A D"

1 2

0 2

#

sobre la bola unidad, explicado a partir de las normas k � k1, k � k2 y k � k1 en R2,se representa en la figura 4.5. La aplicación transforma el vector e1 D Œ1; 0�T ensí mismo y e2 D Œ0; 1�T en Œ2; 2�T . Con la norma 1, el vector unitario que másse amplifica al aplicarle la transformación es Œ0; 1�T (o Œ0; �1�T ), que pasa a serŒ2; 2�T . Su factor de amplificación, en términos de la norma 1, es 4.

19

4 Matrices

[0, 1]T

[1, 0]T

[1, 0]T

[2, 2]T

norma ∞

norma 2

norma 1

‖A‖2 ≈ 2,9208

‖A‖∞ = 3

‖A‖1 = 4

norma 1

norma 2

norma 1

Figura 4.5: Efecto de una aplicación lineal sobre la bola unidad para diferentesnormas

Con la norma 2, el vector unitario que más se amplifica es el que se representaen la figura con una recta discontinua. El factor de amplificación es 2,9208.

Para la norma 1, igualmente, el vector unitario que más se amplifica es el quese representa también con la recta discontinua: Œ1; 1�T , que pasa a transformarseen Œ3; 2�T . El factor de amplificación correspondiente es en este caso 3 ya que

��Œ1; 1�T��1 D 1��Œ3; 2�T��1 D 3: �

Además de las normas vectoriales y matriciales ya presentadas, otra normavectorial muy utilizada es

kxkA D���A1=2x

���2

Dp

hAxjxi Dp

xT Ax;

20

4 Matrices

denominada norma A o norma de energía7 del vector x, para una matriz A simé-trica y definida positiva. A hxjyiA D hAxjyi se le denomina producto interiorde A o producto escalar de energía. La matriz A1=2 es la única matriz definidapositiva solución de la ecuación matricial X2 D X � X D A.

4.2 Matrices ortogonales, unitarias, simétricas, Hessenberg, de

permutación y de proyección

Una matriz Q 2 Rm�n se dice ortogonal si verifica que QT Q D I ; es decir,cuando sus vectores columna son ortogonales dos a dos y de norma euclídea uni-taria (ortonormales). Si Q 2 Rn�n es ortogonal, se cumple que QQT D QT Q DI .

Las matrices ortogonales Q 2 Rm�n verifican:

kQk2 D 1

kQkF D n1=2

kQAk2 D kAk2

kQAkF D kAkF

9>>>>=>>>>;

si m � n y

kQk2 D 1

kQkF D m1=2

kAQk2 D kAk2

kAQkF D kAkF

9>>>=>>>;

si m � n:

Una matriz ortogonal no modifica ni los ángulos ni las normas de los vectores a losque se aplica la transformación que representan: .Qx/T .Qy/ D xT QT Qy DxT y . Si y D x, jjQxjj2 D jjxjj2.

La extensión de las matrices ortogonales al campo complejo son las matri-ces unitarias. Son matrices, U 2 Cn�n, cuya inversa es su compleja conjugada:U H U D U U H D I : Todos los valores propios de las matrices unitarias tie-nen módulo unidad. Como las ortogonales, una matriz unitaria no modifica nilos ángulos ni las normas, .U x/H .U y/ D xH U H U y D xH y . Si y D x,jjU xjj2 D jjxjj2.

Una matriz de permutación es una matriz cuadrada cuyas columnas están for-madas por las de la matriz unidad permutadas. Una matriz de permutación es unamatriz ortogonal.

Una matriz se dice simétrica si se verifica que A D AT . Para una matrizcualquiera A 2 Rm�n, la matriz AT A es simétrica. Si A 2 Cn�n es igual a sutraspuesta conjugada, A D B D AH , bij D Naj i , se dice hermítica.

Una matriz A se dice definida positiva si xT Ax > 0 para todo vector x ¤ 0.De forma similar se definen matrices semidefinida positiva, definida negativa ysemidefinida negativa, si xT Ax � 0, < 0 y � 0, respectivamente, para todovector x ¤ 0. La matriz A se dice indefinida si xT Ax es positivo para algún x

7Pues suele corresponder con la energía física de ciertos sistemas.

21

4 Matrices

y negativo para otros. También A 2 Cn�n se dice definida positiva si para todox 2 Cn; x ¤ 0, se cumple que xH Ax > 0.

Si A 2 Rn�n es simétrica y definida positiva se puede descomponer de laformaA D QDQT donde Q es una matriz ortogonal y D, diagonal, tiene to-dos sus coeficientes positivos por lo que A

12 D QD

12 QT satisfaciéndose que

A12 A

12 D A.

Se dice que una matriz A 2 Cn�n de coeficientes aij es de diagonal dominantepor filas cuando cumple que

jai i j �nX

j D1;j ¤i

jaij j; i D 1; : : : ; n:

Análogamente, se dice diagonal dominante por columnas si

jai i j �nX

j D1;j ¤i

jaj i j; i D 1; : : : ; n:

Si las desigualdades se verifican estrictamente la matriz A se denomina diagonalestrictamente dominante.Lema 4.1 Para que una matriz simétrica sea definida positiva es necesario quetodos los coeficientes de la diagonal principal sean positivos.

Lema 4.2 Para que una matriz simétrica A sea definida positiva es necesarioque el coeficiente de mayor valor absoluto esté en la diagonal principal. Másconcretamente,

mKaxi¤j

jaij j < mKaxk

akk :

Lema 4.3 Si en cada fila de una matriz simétrica A el coeficiente de la diago-nal principal es mayor que la suma de los valores absolutos de todos los demáscoeficientes de la fila, es decir, si

akk >

nXj D1

j ¤k

jakj j k D 1; : : : ; n;

A es definida positiva.

Es importante destacar que este último criterio define una condición suficiente,no necesaria. En efecto, la matriz Q D

h3 2 22 3 22 2 3

ies definida positiva pues

xT Qx D x21 C x2

2 C x23 C 2.x1 C x2 C x3/2;

22

4 Matrices

cualquiera que sea x ¤ 0, es siempre positiva. Esa matriz, sin embargo, no satis-face el lema 4.3.

Una matriz de Vandermonde —por Alexandre-Théophile Vandermonde, Fran-cia 1735-1796— es una matriz que presenta una progresión geométrica en cadafila; como esta:

V D

2666664

1 ˛1 ˛21 : : : ˛n�1

1

1 ˛2 ˛22 : : : ˛n�1

2

1 ˛3 ˛23 : : : ˛n�1

3:::

::::::

: : ::::

1 ˛n ˛2n : : : ˛n�1

n

3777775 :

Una matriz de Hankel —por Hermann Hankel, Alemania 1839-1873— es unamatriz cuadrada con todas sus diagonales de derecha a izquierda paralelas numé-ricamente. Es decir, tiene la forma

H D

26664

a b c d eb c d e fc d e f gd e f g he f g h i

37775 :

Una matriz de Hessenberg —por Karl Adolf Hessenberg, Alemania 1904-1959— es una matriz triangular excepto por una subdiagonal adyacente a la dia-gonal principal.

��

��

��

���

0

Cualquier matriz se puede reducir a la forma deHessenberg mediante transformaciones ortogonalesde Householder o Givens. Si la matriz original es si-métrica, al reducirla a la forma de Hessenberg se ob-tendrá una tridiagonal.

Se denomina proyector o matriz de proyección auna matriz P 2 Rn�n que verifica que P2 D P . Si P

además es simétrica, se denomina proyector ortogonalo matriz de proyección ortogonal. Si, en este últimocaso, F es el subespacio imagen de la matriz P (el

mismo que el de la matriz PT ), Px define la proyección ortogonal del vector x

sobre F .Se denomina proyector suplementario de P al proyector S D I � P . Si F D

Im.P/ y G D ker.P/, entonces F D ker.S/ y G D Im.S/.En el caso de un proyector ortogonal P en el que F D Im.P/, se tiene que

Rn D F ˚ F ?, verificándose que kPxk2 � kxk2 y que

kx � Pxk2 D mKıny2Im.P /DF

kx � yk2:

23

4 Matrices

4.3 Valores propios, valores singulares y formas cuadráticas

4.3.1 Valores propios

Si A es una matriz cuadrada de orden n y coeficientes en K (R o C), un vectorno nulo u 2 Kn se denomina vector propio de A si para algún � 2 K se cumpleque

Au D �u :

A este � se le denomina valor propio o autovalor de la matriz A. El conjunto delos valores propios de una matriz A se denomina espectro de A, designándose porƒ.A/. El radio espectral, �.A/, se define de la siguiente manera:

�.A/ D mKax1�i�n

j�i j:Para que un número � sea valor propio de A, el sistema lineal y homogéneo de

ecuaciones dado por .�I � A/x D 0 debe tener soluciones distintas de la trivialx D 0. Esto equivale a que

det.A � �I/ D 0 :

Esta es una ecuación polinómica de grado n en � que se denomina ecuación ca-racterística, o polinomio característico, de la matriz A. La ecuación característicaadmite la raíz � D 0 si y sólo si det.A/ D 0. Una matriz es invertible, por tanto,si y sólo si no admite al cero como vector propio.

Para que exista una solución distinta de la trivial x D 0, el valor propio �

deberá ser raíz del polinomio característico de grado n asociado a A, esto esdet.A � �I/ D 0. Lo que es igual a �n C g1�n�1 C g2�n�2 C � � � C gn D 0:

El Teorema fundamental del álgebra establece que cada ecuación polinómicade grado n, con coeficientes complejos, tiene n raíces en el cuerpo de los comple-jos.

La multiplicidad algebraica del valor propio � de A es la multiplicidad de laraíz correspondiente del polinomio característico asociado a A. La multiplicidadgeométrica de � es el número de vectores propios linealmente independientes quese corresponden con �. La multiplicidad geométrica de un valor propio es menoro igual que su multiplicidad algebraica.

Por ejemplo, si A D I , � D 1 es un valor propio con multiplicidad algebraicay geométrica n. El polinomio característico de A es p.z/ D .z � 1/n y ei 2 Cn,i D 1; : : : ; n, sus vectores propios. Si el valor propio � tiene una multiplicidadgeométrica menor que la algebraica, se dice defectuoso. Se dice que una matriz esdefectuosa si tiene al menos un valor propio defectuoso. La matriz2

42 1 00 2 10 0 2

35

24

4 Matrices

tiene un valor propio, 2, de multiplicidad algebraica 3 y multiplicidad geométrica1; u D Œ100�T . Si una matriz A 2 Cn�n no es defectuosa, dispone de un conjuntode n vectores propios linealmente independientes.

Un resultado interesante debido a dos matemáticos del siglo XIX, Arthur Cay-ley, británico, 1821-2895, y William Rowan Hamilton, irlandés, 1805-1865, diceque cualquier matriz A 2 Cn�n satisface su propia ecuación característica. Esdecir,

An C g1An�1 C g2An�2 C � � � C gnI D 0:

Si A es invertible, como consecuencia de ello,

A�1 D � 1

gn

An�1 � g1

gn

An�2 � � � � � gn�1

gn

I :

A partir del teorema de Cayley-Hamilton también es fácil comprobar que exis-te un polinomio p de grado máximo n � 1 tal que A�1 D p.A/. Como ejem-plo, la matriz

1 23 4

�tiene como polinomio característico x2 � 5x � 2. El teorema

de Cayley-Hamilton dice que A2 � 5A � 2I D 0, lo cual se puede comprobarinmediatamente. La inversa de A se puede obtener de esta ecuación a partir deA .A � 5I/ D 2I . En efecto, A�1 D 1

2.A � 5I/.

Para A 2 Cn�n y 0 ¤ b 2 Cn�1, al subespacio

Kj .A; b/ D Genfb; Ab; : : : ; Aj �1bgse le denomina subespacio de Krylov.

Igual que cualquier matriz tiene asociado un polinomio característico, cual-quier polinomio tiene asociado una matriz compañera. La matriz compañera de unpolinomio mónico8 p.t/ D c0 C c1t C � � � C cn�1tn�1 C tn es

C .p/ D

2664

0 0 : : : 0 �c0

1 0 : : : 0 �c1

0 1 : : : 0 �c2::::::

: : ::::

:::0 0 : : : 1 �cn�1

3775

Los valores propios de esta matriz C .p/ son las raíces del polinomio p.t/. Elpolinomio mínimo q.t/ de una matriz A es el polinomio mónico único de gradomínimo tal que q.A/ D 0.

Una matriz real de orden n no tiene necesariamente valores propios reales pero,como consecuencia del teorema fundamental del álgebra, cualquier matriz comple-ja tiene al menos un valor propio complejo. El número máximo de valores propioses n.

8Un polinomio a0 C a1x C a2x2 C : : : C anxn se dice que es mónico si an D 1.

25

4 Matrices

Al aplicársele a cualquier vector la transformación que representa A ese vectortiende a orientarse en la dirección del vector propio dominante de A. Si aquelvector está en la dirección de alguno de los vectores propios de A, se expande ocontrae por un factor que determina el correspondiente valor propio. La matrizA D

2 11 2

�tiene como valores propios 3 y 1. Los vectores propios asociados son

Œ1 1�T y Œ�1 1�T . El efecto de aplicarla sobre distintos vectores se puede ver en lafigura 4.6: en magenta y azul los vectores propios; otros en rojo.

Figura 4.6: Efecto de aplicársele a diversos vectores la transformación que repre-senta la matriz A D

2 11 2

�Siendo � un valor propio de una matriz A, el conjunto de soluciones del siste-

ma de ecuaciones.�I � A/x D 0

es un subespacio de Kn que se denomina subespacio propio asociado al valorpropio �, designándose con E�. Si n� es la multiplicidad de � como raíz de laecuación característica de A, se cumple que

dim.E�/ � n� :

La intersección de subespacios propios correspondientes a valores propios distin-tos se reduce al subespacio nulo; esto es � ¤ H) E� \ E� D ;.

De este modo, la suma de subespacios propios es directa. Se cumple queL�2ƒ.A/ E� D Kn si y sólo si para cada � 2 ƒ.A/, dim.E�/ D n�; en ese

caso existe una base de Kn formada toda ella por vectores propios de A.El teorema central en el estudio de los métodos y algoritmos numéricos para

el cálculo y análisis de valores y vectores propios es el de la descomposición deSchur —por Issai Schur, Alemania 1875-1941—.

26

4 Matrices

Teorema 4.4 Descomposición o triangularización de Schur Para cualquier A 2Cn�n existe una matriz unitaria U y una matriz triangular superior, T , tal que

AU D U T o UH AU D T .Los valores propios de A son los coeficientes de la diagonal principal de R.

Teorema 4.5 Para cualquier matriz hermítica A 2 Cn�n existe una matriz uni-taria U tal que

U H AU D D,donde D es una matriz diagonal.

1. Los valores propios de A son números reales.

2. Se pueden obtener vectores propios de A que sean ortonormales.

En este caso se dice que la matriz A es semejante a una matriz diagonal: la ma-triz A es diagonalizable por semejanza. Dos matrices semejantes tienen el mismopolinomio característico y los mismos valores propios. Una matriz A 2 Cn�n esnormal, es decir AAH D AH A, si y sólo si A D U ƒU H , donde U es unamatriz unitaria y ƒ una diagonal cuyos coeficientes son los valores propios de A.Los vectores propios son los vectores columna de U .

Toda matriz real y simétrica tiene todos sus valores propios reales y es dia-gonalizable por semejanza. Se demuestra además que los subespacios propios co-rrespondientes a valores propios distintos son ortogonales. De aquí se sigue quees siempre posible formar una base ortonormalizada de vectores propios para unamatriz real y simétrica A. Existe entonces una matriz ortogonal Q tal que verificaQT AQ D D, con QT D Q�1 y, de aquí que, toda matriz real y simétrica escongruente ortogonal con su reducida diagonal. Este resultado fundamental de lateoría de matrices es la versión para matrices simétricas del denominado Teoremaespectral. Da lugar a la Descomposición espectral de A.

Teorema 4.6 Descomposición de Jordan Para una matriz A 2 Cn�n existe unamatriz regular X 2 Cn�n tal que X�1AX D diag.J 1; : : : ; J k/ donde

J i D

266664

�i 1�i 1 0

� �0 � 1

�i

377775 2 Cni �ni

y n1 C � � � nk D n. Las J i son las matrices o bloques de Jordan y los �i losvalores propios de A.

Una matriz simétrica definida positiva tiene todos sus valores propios realesy positivos; si es semidefinida, alguno es cero. Si la matriz es negativa definida,

27

4 Matrices

todos sus valores propios son negativos.Si A es hermítica, el producto xH Ax es un número real. Los valores propios

de una matriz hermítica, en consecuencia, son números reales. En una matriz her-mítica los vectores propios correspondientes a dos valores propios distintos sonortogonales entre sí.

Un resultado importante para averiguar el orden de magnitud de los valorespropios de una matriz es el que sigue.

Teorema 4.7 Gersgorin Los valores propios de una matriz A 2 Cn�n se en-cuentran en la unión de los n discos de Gershgorin, cada uno de los cuales estácentrado en akk , k D 1; : : : ; n, y tiene de radio

rk DnX

j D1

j ¤k

jakj j

DEMOSTRACIÓN. Sea � un valor propio de A y x su vector propio asociado. DeAx D �x y .�I � A/x D 0 se tiene que

.� � akk/xk DnX

j D1

j ¤k

akj xj ; k D 1; : : : ; n;

donde xk es el componente k-ésimo del vector x.Si xi es el coeficiente de x más grande en valor absoluto, como jxj j=jxi j � 1

para j ¤ i , se tiene que

j� � ai i j �nX

j D1

j ¤i

jaij j jxj jjxi j �

nXj D1

j ¤i

jaij j:

Luego � está contenido en el disco f� W j� � ai i j � ri g.

4.3.2 Valores singulares

La noción de valor propio, o autovalor, no tiene significado para matrices rec-tangulares. En éstas, por el contrario, si lo tiene, como en las cuadradas, el con-cepto de valor singular. Si A es una matriz cualquiera m � n con coeficientes enR, se definen sus valores singulares �i ; i D 1; : : : ; mKınfm; ng, como las raícescuadradas positivas de los valores propios de la matriz cuadrada ATA 2 Rn�n.

28

4 Matrices

Teorema 4.8 Descomposición en valores singulares Si A 2 Rm�n es una matrizde rango r existen matrices ortogonales U 2 Rm�m y V 2 Rn�n tales que

A D U †V T ,donde † D

h†r 00 0

i, † 2 Rm�n y †r D diag.�1, �2; : : : ; �r /, con �1 � �2 �

� � � � �r > 0. Si las matrices U y V se escriben como U D Œu1; : : : ; um� yV D Œv1; : : : ; vn�, los ui y vi son los vectores singulares izquierdos y derechos,respectivamente, correspondientes a los valores singulares �i , i D 1; : : : ; r .

DEMOSTRACIÓN. Sean x 2 Rn e y 2 Rm dos vectores tales que

kxk2 D kyk2 D 1 y Ax D �y; con � D kAk2:

La existencia de estos vectores x e y está garantizada por la definición de kAk2.Sean las dos matrices ortogonales

V D Œx V 1� 2 Rn�n y U D Œy U 1� 2 Rm�m

(siempre es posible ampliar un conjunto de vectores ortogonales hasta formar unabase ortonormal de Rn). Como U T

1 Ax D �U T1 y D 0, la matriz U T AV tiene la

siguiente estructura:

A1 D U T AV D"

yT

U T1

#A Œx V 1� D

"� wT

0 B

#;

donde B D U T1 AV 1 2 R.m�1/�.n�1/ y wT D yT AV 1.

Dado que kA1 Œ �w �k2 D

���h �2CwT wBw

i���2

� �2 C wT w, como

kA1 Œ �w �k2 � kA1k2 kŒ �

w �k2 D kA1k2

q�2 C wT w

�2;

se cumple que kA1k2 � .�2 C wT w/1=2. Como las matrices U y V son ortogo-nales, kA1k2 D kAk2 D � y por consiguiente w D 0. La argumentación de lademostración se completa por inducción.

La matriz Am�n D U †V T , de rango r , se puede escribir como la suma de r

matrices de rango uno así

A DrX

iD1

�i ui vTi ;

donde los ui y vi son los vectores columna i-ésimos de U y V .La mejor aproximación de A de rango p � r , en el sentido de mínimos cua-

drados, se obtiene de la suma de los primeros p términos de esta última suma. Por

29

4 Matrices

ejemplo —de Sauer [2013]—, el mejor subespacio de dimensión uno de los puntosŒ3; 2�, Œ2; 4�, Œ�2; �1� y Œ�3; �5� en el sentido de mínimos cuadrados se obtiene de

AD�3 2 �2 �32 4 �1 �5

�D U †V T

D 0;5886 �0;80840;8084 0;5886

� 8;2809 0 0 0

0 1;8512 0 0

�" 0;4085 0;5327 �0;2398 �0;7014�0;6741 0;3985 0;5554 �0;2798

0;5743 �0;1892 0;7924 �0;08010;2212 0;7223 0;0780 0;6507

#:

Como p D 1, la mejor aproximación de A es u1 D Œ0;5886; 0;8084�. Del suma-torio anterior, haciendo �2 D 0,

A1 D 0;5886 �0;80840;8084 0;5886

� 8;2809 0 0 0

0 0 0 0

�" 0;4085 0;5327 �0;2398 �0;7014�0;6741 0;3985 0;5554 �0;2798

0;5743 �0;1892 0;7924 �0;08010;2212 0;7223 0;0780 0;6507

#

D 1;9912 2;5964 �1;1689 �3;41882;7364 3;5657 �1;6052 �4;6951

�:

El proceso se esquematiza en la figura 4.7.

Figura 4.7: Proyección de cuatro vectores en el subespacio de dimensión uno quemejor los representa: recta de trazos

Dada la descomposición en valores singulares de A, de rango r , los vectoressingulares a la izquierda fu1; : : : ; urg conforman una base ortonormal de Im.A/ yfurC1; : : : ; umg otra base ortonormal de ker.AT /. Igualmente, fvrC1; : : : ; vng esuna base ortonormal de ker.A/ y fv1; : : : ; vrg una base ortonormal de Im.AT /.

Los valores singulares de A son las longitudes de los semiejes del hiperelip-soide E definido, a partir de la esfera unidad y el operador A, por

E D fy W y D Ax; kxk2 D 1g :

30

4 Matrices

xAx

σ1σ2

Ax

Figura 4.8: Representación en dos dimensiones de una transformación lineal de laesfera unidad

En la figura 4.8 se describe gráficamente el caso en que m D n D 2.El número de condición de una matriz es la relación entre sus valores singulares

mayor y menor. Una matriz se dice mal condicionada si ese número es grande omuy grande. Una matriz singular tiene un número de condición infinito.

Si A es una matriz n�n, j det.A/j D �1 ��2 � � � �n. Para una matriz A 2 Rm�n

cuya descomposición en valores singulares es A D U †V T , se define su matrizpseudoinversa, A�, como

A� D V †�U T ;

donde†� D diag.��1

1 ; : : : ; ��1r ; 0; : : : ; 0/ 2 Rn�m :

Si A 2 Rm�n es de rango completo y m > n, A� D AT A

��1AT ; si m < n,

A� D ATAAT

��1.Para cualquier matriz A 2 Rm�n, la matriz A�A es la matriz n � n de pro-

yección ortogonal sobre el subespacio de los vectores fila de A, AA� la m � m deproyección ortogonal sobre la imagen de la matriz A (subespacio de sus vectorescolumna) y .I � A�A/ la de proyección ortogonal sobre el núcleo de A, ker.A/.

4.3.3 Formas cuadráticas

Una forma cuadrática en n variables es un polinomio de segundo grado en esasvariables. La expresión más general de una forma cuadrática es

q.x/ D xT Qx ;

31

4 Matrices

donde Q D QT es una matriz simétrica de orden n. Nos limitaremos al análisisde formas cuadráticas con coeficientes reales.

Mediante una transformación lineal de variables, x D T y , una forma cuadrá-tica se puede reducir a la forma canónica de suma de cuadrados siguiente:

q.x/ DpX

iD1

y2i �

pCqXiDpC1

y2i :

El rango de la forma es p C q y la signatura p � q (p números positivos y q

negativos).Una forma cuadrática real es definida positiva si para todo vector x ¤ 0,

q.x/ > 0. El rango y signatura de una forma cuadrática definida positiva valenn. Si Q la forman los coeficientes qij y se introducen los números menores como

i D det

2664

q11 q12 � � � q1i

q21 q22 � � � q2i

::::::

: : ::::

qi1 qi2 � � � qi i

3775 ;

la forma cuadrática asociada a Q es definida positiva si y sólo si todos los menoresi son positivos.

Sean �1; : : : ; �n los valores propios —que sabemos son reales— de la matrizQ. Por el teorema espectral, existe una matriz ortogonal P tal que PT QP Ddiag.�1; : : : ; �n/. Haciendo en la forma cuadrática q.x/ D xT Qx el cambio devariables x D Py , se tiene que

q.x/ D yT PT QPy D �1y21 C � � � C �ny2

n ;

por lo que el rango de la forma cuadrática es el número total —teniendo en cuentalas multiplicidades— de valores propios no nulos de Q, mientras que la signaturacoincide con la diferencia entre los números de valores propios positivos y negati-vos. En particular, la forma cuadrática asociada a Q es definida positiva si y sólosi todos los valores propios de Q son positivos.

En ciertos casos es importante acotar el cociente de una forma cuadrática alcuadrado de la norma euclídea, es decir, el cociente

r.x/ D xT Qx

xT x; x ¤ 0 :

Mediante una transformación ortogonal x D Py , este cociente se escribe como

r.x/ D �1y21 C � � � C �ny2

n

y21 C � � � C y2

n

;

32

5 Teorema de la proyección

de manera que se deducen las acotaciones

�min.Q/ � xT Qx

xT x� �max.Q/ :

Estas acotaciones no se pueden mejorar ya que si Qv D �v, vT Qv

vT vD � .

5 Teorema de la proyección

G RAN parte de las teorías de sistemas de ecuaciones y de optimización estánbasadas en unos pocos resultados simples e intuitivos. Entre estos, quizás el

más sencillo y usado sea el teorema de la proyección. Su aplicación en la teoría demínimos cuadrados lineales es fundamental. En un espacio Euclídeo ordinario detres dimensiones determina que la distancia más corta de un punto exterior a unplano a ese plano la proporciona la perpendicular al plano desde dicho punto. Laexpresión formal de este teorema en espacios de Hilbert es la que sigue.

Teorema 5.1 Sea H un espacio de Hilbert y M un subespacio cerrado de H .Para todo vector x 2 H existe un único vector m0 2 M tal que kx � m0k2 �kx � mk2, para todo m 2 M . La condición necesaria y suficiente además paraque m0 2 M sea el vector mínimo único es que x � m0 sea ortogonal a M .

DEMOSTRACIÓN. Primero probaremos que si m0 es un vector que minimiza kx �mk, x � m0 es ortogonal a M . Supongamos para ello, por el contrario, que existeun m que no es ortogonal a x � m0; sin pérdida de generalidad podemos suponerque kmk D 1 y que hx � m0jmi D ı ¤ 0. Definamos el vector m1 2 M comom1 D m0 C ım. Tendremos que

kx � m1k22 D kx � m0 � ımk2

2

D kx � m0k22 � hx � m0jımi � hımjx � m0i C jıj2

D kx � m0k22 � jıj2 < kx � m0k2

2:

De esta manera, si x�m0 no es ortogonal a M , m0 no es el mínimo que decíamos.Veamos ahora cómo, si x � m0 es ortogonal al subespacio M , m0 es el único

vector de M que minimiza kx � mk2. En efecto, para todo m 2 M , el teorema dePitágoras dice que

kx � mk22 D kx � m0 C m0 � mk2

2 D kx � m0k22 C km0 � mk2

2:

Por lo tanto kx � mk2 > kx � m0k2 para m ¤ m0.

33

6 Funciones

Demostraremos ahora la existencia de un m0 que minimiza kx � mk2. Si x 2M , entonces m0 D x y todo estaría probado como es obvio. Si x … M , definamosun ı D Kınfm2M kx � mk2; lo que queremos es obtener un m0 2 M tal quekx � m0k2 D ı.

A tal fin, sea fm.i/g una sucesión de vectores en M tal que kx � m.i/k2 ! ı.Por la ley del paralelogramo9 se tiene que

��.m.j / � x/ C .x � m.i//��2

2C ��.m.j / � x/ � .x � m.i//

��2

2D

2��m.j / � x

��2

2C 2

��x � m.i/��2

2:

Reordenando, se obtiene

���m.j / � m.i/���2

2D2

���m.j / � x

���2

2C2

���x � m.i/���2

2� 4

�����x � m.i/ C m.j /

2

�����2

2

:

Para todo i; j , el vector .m.i/Cm.j //=2 está en M pues éste es un espacio vectorial(lineal). De la definición de ı se deduce que kx � .m.i/ C m.j //=2k2 � ı, por loque ���m.j / � m.i/

���2

2� 2

���m.j / � x

���2

2C 2

���x � m.i/���2

2� 4ı2:

Como km.i/ �xk22 ! ı2 cuando i ! 1, km.j / �m.i/k2

2 ! 0 cuando i; j ! 1.Es decir, fm.i/g es una sucesión de Cauchy; como M es un subespacio cerrado, lasucesión fm.i/g tiene un límite m0 en M y, debido a la continuidad de la norma,kx � m0k2 ! ı.

El teorema de la proyección pone en evidencia que la solución del problema

minimizart

ktx � yk

es el vector proyección ortogonal de y sobre x: tx en la figura 5.9.

6 Funciones

R ECORDEMOS que una función es un caso particular de aplicación dondelos conjuntos origen e imagen son conjuntos de números.

Una función f W Rn ! R se dice continua en x si para toda sucesión fx.k/g que

9Para u, w 2 M , ju C wj2 C ju � wj2 D 2juj2 C 2jwj2.

34

6 Funciones

0

y

tx

x

Figura 5.9: Solución de minimizart ktx � yk

converge a x (expresado x.k/ ! x), se cumple que f .x.k// ! f .x/. De formaequivalente, f se dice continua en x si dado un " > 0, existe un ı > 0 tal que

ky � xk < ı H) kf .y/ � f .x/k < " :

Una función f W R ! R tiene como derivada la función

f 0.x/ D df .x/

dxD lKım

h!0

f .x C h/ � f .x/

h;

supuesto ese límite existe. Una función f que es derivable en un punto x D a escontinua en a.

Una función f W R ! R se dice satisface la condición de Lipschitz con cons-tante � en un conjunto X , si para todo x e y pertenecientes a X se cumple que

jf .x/ � f .y/j � � jx � yj:Una función que satisface la condición de Lipschitz en un conjunto X se dicecontinua � -Lipschitz en ese X , designándose f 2 Lip� .X/.

Dada una norma vectorial k � k en Rn y otra matricial k � k en Rm�n, m; n > 0,una función g W Rn ! Rm�n se dice satisface la condición de Lipschitz conconstante � en un abierto D � Rn, si para todo x e y pertenecientes a D secumple que

kg.x/ � g.y/k � �kx � yk:

Una función g que satisface la condición de Lipschitz en D se dice continua � -Lipschitz en ese D, designándose g 2 Lip� .D/.

Un resultado muy interesante referido a funciones continuas es el teorema deWeierstrass, que dice que una función continua definida en un conjunto compactoS tiene un punto donde alcanza un mínimo en S . Es decir, existe un x� 2 S talque para todo x 2 S , f .x/ � f .x�/.

35

6 Funciones

Un conjunto de funciones f1; f2; : : : ; fm de Rn en R se puede considerar comouna función vectorial

f D Œf1; f2; : : : ; fm�T :

Esta función asigna a todo vector x 2 Rn otro vector f .x/ D Œf1.x/; f2.x/; : : : ;

fm.x/�T de Rm. Tal función vectorial se dice continua si lo es cada uno de suscomponentes f1; f2; : : : ; fm.

Si cada una de las funciones de f D Œf1; f2; : : : ; fm�T es continua en algúnconjunto abierto de Rn, se dice f 2 C . Si además cada función componente tienederivadas parciales de primer orden continuas en ese abierto, se dice que f 2 C 1.En general, si las funciones componentes tienen derivadas parciales de orden p

continuas, se indica f 2 C p .Si f W Rn ! R y f 2 C 1, se define el vector gradiente de f como el vector

rf .x/ D�

@f .x/

@x1

;@f .x/

@x2

; : : : ;@f .x/

@xn

�T

:

También se puede ver expresado alguna vez como fx.x/.Si f 2 C 2, se define la matriz Hessiana de f en x —por Ludwig Otto Hesse,

Alemania 1811-1874— como la matriz n � n

r2f .x/ D

266666666664

@2f .x/

@2x1

@2f .x/

@x1@x2

� � � @2f .x/

@x1@xn

@2f .x/

@x2@x1

@2f .x/

@2x2

� � � @2f .x/

@x2@xn:::

:::: : :

:::

@2f .x/

@xn@x1

@2f .x/

@xn@x2

� � � @2f .x/

@2xn

377777777775

:

A esta matriz también se la puede ver designada como F .x/.Para la función vectorial f D Œf1; f2; : : : ; fm�T , f 2 C 1, se define la matriz

Jacobiana —por Carl Gustav Jacob Jacobi, Alemania 1804-1851— como la matrizm � n

rf .x/ D J .x/ D

26666666664

@f1.x/

@x1

@f1.x/

@x2

� � � @f1.x/

@xn

@f2.x/

@x1

@f2.x/

@x2

� � � @f2.x/

@xn:::

:::: : :

:::

@fm.x/

@x1

@fm.x/

@x2

� � � @fm.x/

@xn

37777777775

:

36

6 Funciones

Si f 2 C 2, es posible definir m Hessianas F1.x/; F2.x/; : : : ; Fm.x/ para cadauna de las f1; : : : ; fm.

Una función f W Rn ! Rm es afín si es la suma de una función lineal y unaconstante; es decir, tiene la forma f .x/ D Ax C b, donde A 2 Rm�n y b 2 Rm.

Teorema 6.1 Teorema de Taylor Si f W Rn ! R y f 2 C 1 en una región quecontiene el segmento Œx1; x2�, es decir puntos ˛x1C .1�˛/x2; 0 � ˛ � 1, exis-te un � , 0 � � � 1, tal que f .x2/ D f .x1/CrT f

�x1 C .1��/x2

�.x2 �x1/:

Además, si f 2 C 2, existe un �; 0 � � � 1, tal que f .x2/ Df .x1/ CrTf .x1/.x2 � x1/ C 1

2.x2 � x1/TF

�x1 C .1 � �/x2

�.x2 � x1/; donde F

denota la matriz Hessiana de f .Si la función f W R ! R es continua y derivable k C 1 veces en un intervalo, osegmento, Œx; x0�, existe un b entre x y x0 tal que

f .x/Df .x0/Cf 0.x0/x � x0

�C f 00.x0/

x � x0

�2 C f 000.x0/

x � x0

�3C � � � C f .k/.x0/

x � x0

�k C f .kC1/.b/

.k C 1/Š

x � x0

�kC1:

Las aproximaciones por este teorema para una función concreta, sen.x/, sepueden ver en la figura 6.10.

Figura 6.10: Función sen.x/ y, en x D 0, las aproximaciones por Taylor de primerorden, de orden 3, 5, 7, 9, 11 y 13

37

6 Funciones

Una función f W Rn ! R se dice convexa (figura 6.11) si cumple que f .˛x Cˇy/ � f .x/ C f .y/ para todo x; y 2 Rn y todo ˛; ˇ 2 R, con ˛ C ˇ D 1,˛ � 0, ˇ � 0. Si S Rn es un conjunto convexo y f W Rn ! Rm es una funciónafín, la imagen de f .S/ D ff .x/ W x 2 Sg es un conjunto convexo. De formasimilar, si f W Rk ! Rn es una función afín, la imagen inversa f �1.S/ D fx Wf .x/ 2 Sg también es convexa.

y = f(x)

x

y

Figura 6.11: Función convexa

Teorema 6.2 Teorema del valor intermedio Si f W R ! R es una funcióncontinua en el intervalo Œa; b�, toma todos los valores entre f .a/ y f .b/. Másconcretamente, si y es un número entre f .a/ y f .b/, existe un número c dentrode Œa; b�, es decir, tal que a � c � b, en el que f .c/ D y.

a b

y

c

Figura 6.12: Teorema del valor intermedio

Teorema 6.3 Teorema del valor medio Si f W R ! R es una función continuay derivable en el intervalo Œa; b�, existe un número c entre a y b tal que f 0.c/ Df .b/ � f .a/

�=.b � a/.

38

6 Funciones

a bc

f (c)

Figura 6.13: Teorema del valor medio

Teorema 6.4 Teorema de Rolle Si f W R ! R es una función continua yderivable en el intervalo Œa; b� y suponemos que f .a/ D f .b/, existe un númeroc, entre a y b, tal que f 0.c/ D 0. GENERALIZACIÓN Si f es continua y derivablen � 1 veces en Œa; b� y la derivada de orden n existe en el abierto .a; b/, y existenn intervalos a1 < b1 � a2 < b2 � : : : � an < bn en Œa; b�, tales quef .ak/ D f .bk/ para todo k D 1 : : : n, existe un número c en .a; b/ tal que laderivada de orden n de f en c es cero.

Figura 6.14: Teorema de Rolle

Teorema 6.5 Primer teorema del valor medio de las integrales Si f W R ! R esuna función continua en el intervalo Œa; b�, existe entonces al menos un númeroc entre a y b tal que Z b

a

f .x/ dx D f .c/.b � a/:

39

6 Funciones

a b

f (c)

c

Figura 6.15: Teorema del valor medio de las integrales

Teorema 6.6 Segundo teorema del valor medio de las integrales Si f W R ! R

es una función continua en el intervalo Œa; b� y g W R ! R una función integrableque no cambia de signo en Œa; b�, existe entonces un número c entre a y b tal que

Z b

a

f .x/g.x/ dx D f .c/

Z b

a

g.x/ dx:

Teorema 6.7 Si f W R ! R es una función continua en el intervalo Œa; b� ya � c � b, entonces

d

dx

Z x

c

f .t/ dt D f .x/

para todo x en Œa; b�.

Teorema 6.8 Integración por partes Sean u.x/ y v.x/ funciones reales continuascon derivadas continuas. EntoncesZ

u0.x/v.x/ dx D u.x/v.x/ �Z

u.x/v0.x/ dx:

6.1 Condiciones necesarias y suficientes de punto mínimo

Se trata de definir condiciones necesarias y suficientes para determinar si dadaf W � ! R, � 2 Rn, un punto x� hace mínima esa función.

Un punto x� 2 � se dice que es un mínimo local de la función f W � ! R

si existe un � > 0 tal que f .x/ � f .x�/ para todo x 2 � a una distancia menorque � de x�. Es decir, para todo x 2 � tal que jx � x�j < �. Si f .x/ > f .x�/

para todo x 2 �, x ¤ x�, a una distancia menor que � de x�, se dice que x� esun mínimo local estricto de f en �.

40

6 Funciones

Teorema 6.9 Condiciones necesarias de primer orden Sea � un subconjunto deRn y una función f W � ! R, f 2 C 1. Si x� en un mínimo local de f en �,se cumple que rf .x�/ D 0.

Si en x� se cumple que rf .x�/ D 0, x� se denomina punto estacionario.Teorema 6.10 Condiciones necesarias de segundo orden Sea � un subconjuntode Rn y una función f W � ! R, f 2 C 2. Si x� en un mínimo local de f en�, se cumple que rf .x�/ D 0 y r2f .x�/ es semidefinida positiva.

Teorema 6.11 Condiciones suficientes de segundo orden Sea � un subconjuntode Rn y una función f W � ! R, f 2 C 2. Si se cumple que rf .x�/ D 0 yr2f .x�/ es definida positiva, x� en un mínimo local estricto de f en �.

Teorema 6.12 Si f es convexa, cualquier mínimo local x� es un mínimo globalde f . Si además f es derivable, cualquier mínimo local x� es un mínimo global.

6.2 Teorema de la función implícita

Teorema 6.13 Sea x0 D Œx01; x02

; : : : ; x0n�T un punto de Rn que satisface:

(a) Las m funciones fi 2 C p , i D 1; 2; : : : ; m, en algún entorno de x0, paraalguna p � 1.

(b) fi .x0/ D 0; i D 1; 2; : : : ; m:

(c) La matriz Jacobiana de la función vectorial, rf .x0/ D26664

@f1.x0/

@x1

� � � @f1.x0/

@xm:::: : :

:::@fm.x0/

@x1

� � � @fm.x0/

@xm

37775, es regular.

Entonces existe un entorno de Ox0 D Œx0mC1; x0mC2

; : : : ; x0n�T 2 Rn�m tal

que para Ox D ŒxmC1; xmC2; : : : ; xn�T en ese entorno existen funciones i . Ox/,i D 1; 2; : : : ; m tales que:

(i) i 2 C p .

(ii) x0iD i . Ox0/; i D 1; 2; : : : ; m.

(iii) fi . 1. Ox/; 2. Ox/; : : : ; m. Ox/; Ox/ D 0; i D 1; 2; : : : ; m.

Este teorema10 es muy útil para respaldar la caracterización de puntos ópti-10Sus orígenes están asociados a Newton, Leibnitz y Lagrange, aunque fue formulado por Cauchy

41

7 Optimización y Programación Matemática

mos en programación matemática con y sin condiciones, solución de ecuacioneslineales y no lineales y bastantes otras cuestiones.

Supóngase que se tiene una función vectorial f W Rn ! Rm que cumple quefi .x/ D 0, i D 1; 2; : : : ; m: El teorema de la función implícita estudia, si n�m delas variables son fijas, si el problema se puede resolver en m incógnitas. Es decir,si x1, x2; : : : ; xm se pueden expresar en función de las restantes n � m de la forma

xi D i .xmC1; xmC2; : : : ; xn/ ; i D 1; 2; : : : ; m:

A las funciones i W Rn�m ! R, si existen, se las denomina funciones implícitas.

Ejemplo 6.1 Consideremos la ecuación x21 C x2 D 0. Una solución de la misma

es x1 D, x2 D 0. En un entorno de esta solución, sin embargo, no hay función

tal que x1 D .x2/. En esta solución no se cumple la condición .c/ del teoremade la función implícita. En cualquier otra solución si existe dicha . �

Ejemplo 6.2 Sea A una matriz m � n y considérese el sistema de ecuacioneslineales Ax D b. Si A se estructura así, A D ŒB; C �, donde B es m�m, entoncesse satisface la condición .c/ del teorema de la función implícita si, y sólo si, B

es regular. Esta condición se corresponde con los requisitos y enunciados de lateoría de ecuaciones lineales. La función implícita se puede considerar como unageneralización no lineal de la teoría lineal. �

7 Optimización y Programación Matemática

L A Optimización o Programación Matemática tiene por objeto el estudio delproblema

minimizarx2Rn

f .x/

sujeta a ci .x/ D 0; i 2 E ;

cj .x/ � 0; j 2 I:

Las función objetivo f y las condiciones ci y cj son, en general, no lineales, con-tinuas y tienen derivadas parciales continuas hasta al menos primer orden. Losconjuntos E y I contienen los índices de las condiciones que son de igualdad yde desigualdad, respectivamente. El conjunto de puntos que satisfacen todas lascondiciones se denomina región factible.

Para caracterizar las soluciones de estos problemas y definir sus algoritmos yprocedimientos de resolución la optimización presta una atención fundamental alos conjunto convexos.

42

7 Optimización y Programación Matemática

Figura 7.16: Conjuntos convexos –izquierda–; no convexos –derecha–

7.1 Conjuntos convexos

Un conjunto C Rn se dice convexo si y sólo si para todo par de puntosx1; x2 2 C todas las combinaciones de la forma x D �x1 C .1 � �/x2, con0 � � � 1, están en C . Es decir, cuando para cada par de puntos del conjuntoconvexo todos los de la recta que los une están en el conjunto.

La expresión x D �x1 C.1��/x2, 0 � � � 1, define la combinación convexade x1 y x2. Si 0 < � < 1, es decir � 2 .0; 1/, la combinación se denominaestrictamente convexa.

El concepto de combinación convexa se puede generalizar a cualquier númerofinito de puntos de la siguiente manera:

x DpX

iD1

�i xi ;

dondePp

iD1 �i D 1, �i � 0, i D 1; : : : ; p.

f(x,y) = - x - y

Óptimo global

Óptimo local

Figura 7.17: Optimización (minimización) de f .x; y/ D �x � y en un conjuntoconvexo y en otro que no lo es.

43

7 Optimización y Programación Matemática

El conjunto intersección de todos los conjuntos convexos que contienen a unsubconjunto S Rn se llama envoltura convexa de S (figura 7.18) y se designapor conv.S/.

Figura 7.18: Envoltura convexa de dos conjuntos de R2. La de la izquierda de 15puntos; la de la derecha de un conjunto no convexo

Un conjunto C Rn se dice que es afín (también se dice que C es una varie-dad afín o una variedad lineal) si para cualesquiera x; y 2 C y cualquier � 2 R

se tiene que .1 � �/x C �y 2 C . El conjunto vacío es afín. Una combinación afínde vectores v1; v2; : : : ; vn es una combinación lineal c1v1 C � � � C cnvn en la quec1 C � � � C cn D 1.

Un conjunto C Rn es afín si y sólo si es de la forma

C D fa C l W a 2 Rn; l 2 Lg ;

donde L es un subespacio vectorial de Rn asociado a C . Es decir, un conjunto afínes un subespacio desplazado del origen. La dimensión de un conjunto afín x C L

es la de su correspondiente subespacio L. Un plano afín en Rn es un traslado de unsubespacio de Rn. Una recta en Rn es un plano afín de dimensión 1. Es evidenteque cualquier conjunto afín es convexo aunque el recíproco no es cierto en general.

Si S Rn, la envoltura afín de S , aff.S/, es la intersección de todos los con-juntos afines que contienen a S . Como se puede comprobar, aff.S/ D aff.conv.S//.

Un conjunto de puntos o vectores fv1; : : : ; vpg de Rn es afínmente dependientesi existen números reales c1; : : : ; cp no todos cero tales que c1 C � � � C cp D 0 yc1v1 C � � � C cpvp D 0. De lo contrario será afínmente independiente.

Un simplex o simplejo es la envolvente convexa de un conjunto finito de vec-tores afínmente independientes. Para construir un simplex k-dimensional —o k-simplex— se procede como sigue (ver figura 7.19):

0-simplex S0 W un solo punto fv1g1-simplex S1 W conv.S0 [ fv2g/ con v2 no en aff.S0/

2-simplex S2 W conv.S1 [ fv3g/ con v3 no en aff.S1/

44

7 Optimización y Programación Matemática

:::

k-simplex Sk W conv.Sk�1 [ fvkC1g/ con vkC1 no en aff.Sk�1/:

S 0

v1

v1 v1 v1 v4

v2 v2 v3 v2 v3

S 1 S 2 S 3

Figura 7.19: El simplex S1 es un segmento de recta. El triángulo S2 proviene deseleccionar un punto v3 que no está en la recta que contiene a S1 y después formarla envolvente convexa con S1. El tetraedro S3 se produce al elegir un punto v4

que no esté en el plano de S2 y después formar la envolvente convexa con S2

Sea S D fv1; : : : ; vkg un conjunto afínmente independiente. Para cada punto p

en aff.S/ los coeficientes c1; : : : ; ck de la representación11 p D c1v1 C� � �C ckvk

son las coordenadas baricéntricas de p. Estas coordenadas tienen interpretacionesfísicas y geométricas de interés. Fueron originalmente definidas en 1827 por Au-gust F. Möbius, Alemania 1790-1868. Si a D

17

�, b D

30

�, c D

93

�y p D

53

�,

el punto p en el centro de la figura 7.20 tiene por coordenadas baricéntricas tresnúmeros no negativos ma, mb y mc tales que p es el centro de masa de un sistemaque consiste en le triángulo (sin masa) y las masas ma, mb y mc en los vérticescorrespondientes. Las masas están unívocamente determinadas al requerir que susuma sea 1.

Proposición 7.1 El conjunto de soluciones de un sistema de ecuaciones lineales,C D fx W Ax D b; A 2 Rm�n; b 2 Rmg, es un conjunto afín.

DEMOSTRACIÓN. En efecto, supongamos que x1; x2 2 C , es decir, Ax1 D b,Ax2 D b. Entonces, para cualquier � ,

A .�x1 C .1 � �/ x2/ D �Ax1 C .1 � �/ Ax2

D �b C .1 � �/ b

D b;

11Única.

45

7 Optimización y Programación Matemática

área = s área(Δabc )

a

b

cp

·

área = r área(Δabc ) ·

área = t área(Δabc ) ·

Figura 7.20: Punto p Dra C sb C tc. En este caso r D 14

, s D 13

y t D 512

:

lo que prueba que la combinación afín �x1 C.1��/x2 está también en el conjuntoC . El subespacio asociado con el conjunto afín C en este caso es el espacio nulode A, ker.A/.

Un conjunto C Rn se dice un cono si para todo x 2 C , �x 2 C , para

0

0 0

Figura 7.21: Tres conos: el primero y el segundo no son convexos; el tercero si

todo escalar � 2 R tal que � � 0. Un cono que también es convexo se denominacono convexo (figura 7.21). En este caso, para todo x1; x2 2 C y �1; �2 � 0,�1x1 C �2x2 2 C .

El conjunto fx 2 Rm W x D A˛; A 2 Rm�n; ˛ 2 Rn; ˛ � 0g es un conoconvexo generado por los vectores columna de la matriz A.

El conjunto de todas las combinaciones cónicas de los puntos de un conjuntoC , �1x1 C � � � C �kxk , �1; : : : ; �k � 0, es la envoltura cónica de C , cone.C /.

Un punto x es un punto extremo o vértice de un conjunto convexo C si y sólosi no es interior a un segmento de recta contenido en C . Es decir, si y sólo si

x D .1 � ˇ/y C ˇz con 0 < ˇ < 1 y y; z 2 C ) x D y D z:

46

7 Optimización y Programación Matemática

00

Figura 7.22: Envoltura cónica de los dos conjuntos de la figura 7.18

Dos resultados importantes de Constantin Carathéodory, Alemania, 1873-1950,dicen que si X Rn y x 2 cone.X/, existen xi y �i , i D 1; : : : ; n, tales quex D Pn

iD1 �i xi . Es decir, cualquier elemento de la envoltura cónica de X escombinación cónica de, a lo sumo, n puntos de X . Igualmente, si X Rn yx 2 conv.X/, existen xi y �i , i D 1; : : : ; n C 1, tales que x D PnC1

iD1 �i xi . Esdecir, cualquier elemento de la envoltura convexa de X es combinación convexade, a lo sumo, n C 1 puntos de X . La figura 7.23 ilustra estos resultados.

Figura 7.23: El teorema de Carathéodory

Llamaremos hiperplano H de vector característico a 2 Rn; a ¤ 0, al conjuntoH D fx 2 Rn W aT x D cg, con c 2 R. Un hiperplano es el conjunto de solucionesde una ecuación lineal en Rn.

Un hiperplano en Rn es un espacio afín o una variedad lineal .n � 1/ dimen-sional.

Dado un hiperplano H , aT x D c, llamaremos semiespacios cerrados de bordeH a los conjuntos HC D fx 2 Rn W aT x � cg y H� D fx 2 Rn W aT x �cg. Semiespacios abiertos de borde H a VHC D ˚

x 2 Rn W aT x > c�

y VH� D˚x 2 Rn W aT x < c

�. Los semiespacios de borde H son convexos; la unión de HC

y H� es el espacio Rn. En la figura 7.24 se representa el hiperplano �x1 C 4x2 D

47

7 Optimización y Programación Matemática

11, su vector característico a D Œ�1; 4�T y los semiespacios HC y H�.

x

H+

H−

H

x0

y

a

a

Figura 7.24: Hiperplano �x1 C 4x2 D 11 y los semiespacios en los que divideR2

En un hiperplano aT x D c la constante c determina el desplazamiento delhiperplano del origen. Un hiperplano se puede expresar de la forma fx W aT .x �x0/ D 0g, donde x0 es cualquier punto del hiperplano (aT x0 D c). Esa últimaexpresión se puede trabajar un poco más pues fx W aT .x � x0/ D 0g D x0 C a?,donde a? es el complemento ortogonal de a, es decir fv W aT v D 0g. Lo quelleva a que un hiperplano consiste en un desplazamiento x0 más todos los vectoresortogonales al vector característico a: el conjunto de soluciones de aT x D c:x0 C ker.a/, recordemos.

Un politopo es un conjunto formado por la intersección de un número finito desemiespacios cerrados. Un politopo cónico es un conjunto formado por la inter-sección de un número finito de semiespacios cerrados que pasan por un punto.

Un poliedro es un politopo acotado y no vacío: ver figura 7.25. Es fácil com-probar que la intersección de conjuntos convexos es convexa y que, por lo tanto,los politopos y los poliedros son conjuntos convexos. Si un politopo P es un polie-dro, cualquier punto se puede expresar como combinación convexa de sus puntosextremos o vértices.

Teorema 7.2 Sea C un conjunto convexo e y un punto exterior a la adherenciade C . Existe un vector a tal que aT y < Kınfx2C aT x.

DEMOSTRACIÓN. Seaı D Kınf

x2Ckx � yk2 > 0:

Existe un x0 en la frontera de C tal que kx0 � yk2 D ı. Esto es así pues lafunción continua f .x/ D kx � yk2 alcanza su mínimo en cualquier conjunto

48

7 Optimización y Programación Matemática

Figura 7.25: Diversos politopos; el del centro es un poliedro

cerrado y acotado por lo que sólo es necesario considerar x en la intersección dela adherencia de C y la bola abierta de centro y y radio 2ı.

A continuación probaremos que a D x0 � y satisface las condiciones delenunciado del teorema. En efecto, para cualquier ˛, 0 � ˛ � 1, al ser C unconjunto convexo, el punto x0 C ˛.x � x0/ 2 C , por lo que

kx0 C ˛.x � x0/ � yk22 � kx0 � yk2

2:

Desarrollando,

2˛.x0 � y/T .x � x0/ C ˛2kx � x0k22 � 0:

Considerando esta expresión cuando ˛ ! 0C, se tiene que

.x0 � y/T .x � x0/ � 0

o que

.x0 � y/T x � .x0 � y/T x0 D .x0 � y/T y C .x0 � y/T .x0 � y/

D .x0 � y/T y C ı2:

Haciendo a D x0 � y queda probado el teorema.

La interpretación geométrica de este teorema es que dado un conjunto convexoC y un punto y exterior a la adherencia de C existe un hiperplano que contiene ay , sin tocar a C , estando C en uno de sus semiespacios abiertos. Ese hiperplano,de vector característico a en el teorema, se denomina hiperplano separador de C

e y .Si C y D son dos conjuntos convexos disjuntos, C \D D ;, existe entonces un

a ¤ 0 y un b tales que aT x � b, para todo x 2 C , y aT x � b, para todo x 2 D.Dicho de otra manera, la función aT x � b es no positiva en C y no negativa en D.El hiperplano

˚x W aT x D b

�es un hiperplano separador de los conjuntos C y D

como se ve en la figura 7.26.

49

7 Optimización y Programación Matemática

D

C

a

aT x ≥ b aT x ≤ b

Figura 7.26: Hiperplano separador entre C y D

Existen bastantes principios de dualidad (en especial en la teoría y técnicas deoptimización) que relacionan un problema en términos de vectores en un espaciovectorial con otro en términos de subespacios en ese espacio. En varios de esosprincipios está presente la relación que se ilustra en la figura 7.27 que indica quela distancia más corta de un punto a un conjunto convexo es igual al máximo delas distancias desde el punto a los hiperplanos que separan el conjunto convexo delpunto. El problema original de minimización sobre vectores se convierte en otrode maximización sobre hiperplanos.

Figura 7.27: Distancia más corta de un punto a un conjunto convexo en términosde hiperplanos separadores

Teorema 7.3 Sea C un conjunto convexo e y un punto frontera de C . Existe unhiperplano que contiene a y y a C en uno de sus semiespacios cerrados.

DEMOSTRACIÓN. Sea fy.k/g una sucesión de puntos exteriores a la adherenciade C . Sea fa.k/g la sucesión de puntos normalizados, ka.k/k2 D 1, obtenida de

50

7 Optimización y Programación Matemática

aplicar el teorema anterior a la sucesión anterior, tales que,

�a.k/

T

y.k/ < Kınfx2C

�a.k/

T

x:

Como fa.k/g es una sucesión acotada, una subsucesión fa.k/g, k 2 H, convergeráa un límite a. Para este a se tiene que, para cualquier x 2 C ,

aT y D lKımk2H

�a.k/

T

y.k/ � lKımk2H

�a.k/

T

x D aT x:

Un hiperplano que contiene un conjunto convexo C en uno de sus semiespacioscerrados y que contiene algún punto frontera de C se denomina hiperplano deapoyo de C .

De acuerdo con esta definición, el teorema anterior dice que dado un conjuntoconvexo C y un punto frontera y de C existe un hiperplano de apoyo de C quecontiene y .

En la figura 7.28˚x W aT x D aT x0

�es el hiperplano de apoyo de C en el

C

a

x0

Figura 7.28: Hiperplano de apoyo de C en x0

punto x0: el punto x0 y el conjunto C están separados por el hiperplano fx WaT x D aT x0g. Geométricamente quiere decir que el hiperplano fx W aT x DaT x0g es tangente al conjunto C en x0 y el semiespacio x W aT x � aT x0 contienea C .

Si S es un politopo de dimensión 3 en R3 —un cubo– y H un plano que setraslada en R3 hasta que apenas se apoya en el cubo, pero no corta el interior deéste, hay tres posibilidades para H \ S dependiendo de la orientación de H . Seven en la figura 7.29.

51

7 Optimización y Programación Matemática

H � S es bidimensional H � S es unidimensional H � S es de dimensión 0

S S S

H

HH

Figura 7.29: H \ S es una cara cuadrada bidimensional del cubo, una arista uni-dimensional del cubo o un vértice de dimensión 0 del cubo

Lema 7.4 (Farkas) El sistema de ecuaciones

.I / Ax D b; x � 0;

no tiene solución si y sólo si la tiene el sistema

.II / yT A � 0T ; bT y > 0;

donde A 2 Rm�n.

DEMOSTRACIÓN. El lema —por Farkas Bolyai, Hungría 1775-1856— se puedereformular de la siguiente manera. Si existe un x � 0 tal que Ax D b, no existeningún y tal que yT A � 0T y bT y > 0. Recíprocamente, si no existe ningúnx � 0 tal que Ax D b, existe un y tal que yT A � 0T y bT y > 0.

Supongamos que el sistema (I) tiene una solución x tal que Ax D b y x � 0.Sea y un punto tal que yT A � 0T . En este caso bT y D xT AT y � 0 pues x � 0

y yT A � 0T . Esto demuestra que bT y no puede ser positivo y, por lo tanto, elsistema (II) no tiene solución.

Supongamos ahora que el sistema (I) no tiene solución. Esto quiere decir queb … S D fv D Ax W x � 0g; es decir que b no pertenece al politopo cónico S .Observando la figura 7.30, está claro que si b … S , existe un hiperplano separadordefinido por un y , que separa S y b, y para el cual yT ai � 0, i D 1; : : : ; n

y yT b > 0, es decir, y forma un ángulo de más de 90 grados con cada uno delos vectores columna de A y de menos de 90 grados con12 b. Esto verifica que elsistema (II) tiene solución.

12El hiperplano separador del politopo cónico S de la figura debería “casi” tocar a éste a lo largo dea5. El hiperplano de apoyo correspondiente, sí tocaría a a5.

52

7 Optimización y Programación Matemática

a 1

a 2a 3

a 4

a 5

b /∈ S

y

Hiperplano

Politopo conico S

Figura 7.30: Demostración del lema de Farkas

El lema de Farkas es un resultado importante para el estudio de sistemas linea-les de inecuaciones. Su interpretación geométrica es la siguiente:

1. Si ai ; i D 1; : : : ; n, son los n vectores columna de la matriz A, que se cumplaque b D Ax, x � 0, quiere decir que el vector b D Pn

iD1 ai xi , xi � 0; enotras palabras, que b pertenece al politopo cónico generado por los vectorescolumna de A. En la figura 7.31, a la izquierda, se muestra un ejemplo dondeel sistema (I) no tiene solución: el vector b no pertenece al cono generado pora1, a2, a3 y an. La intersección del cono fy W yT A � 0T g (conjunto formadopor los vectores y que forman un ángulo mayor o igual de 90ı con los vectorescolumna de la matriz A) y el semiespacio abierto fy W bT y > 0g, no es elconjunto vacío: el sistema (II) tiene solución, pues b y cualquier y en el conoque define la zona sombreada forma un ángulo menor de 90ı y, por lo tanto,bT y > 0.

2. El sistema (II) no tiene solución si la intersección del cono fy W yT A � 0T g y

53

7 Optimización y Programación Matemática

a 3a 1

a 2

b

an

Semiespacio abierto {y : bT y > 0}

Cono {y : y TA ≤ 0T }

an

b

a 2

a 1

Semiespacio abierto {y : bT y > 0}

Cono {y : yTA ≤ 0T }

Figura 7.31: Izquierda: El sistema (I) del lema de Farkas no tiene solución; si (II).Derecha: El sistema (II) no tiene solución; la tiene (I)

el semiespacio abierto fy W bT y > 0g es el conjunto vacío. En la figura 7.31 ala derecha se muestra un ejemplo donde el sistema (II) no tiene solución. Todovector y en la zona que define el cono indicado forma un ángulo mayor de 90ıcon b. La tiene sin embargo (I) pues b pertenece al cono generado por a1, a2 yan.

7.2 Caracterización del problema de optimización y condiciones

de punto óptimo

Volvamos al problema general de Optimización

minimizarx2Rn

f .x/

sujeta a ci .x/ D 0; i 2 E ;

cj .x/ � 0; j 2 I;

donde las función objetivo f y las condiciones ci y cj son, en general, no lineales,continuas y tienen derivadas parciales continuas hasta al menos primer orden. Losconjuntos E y I contienen los índices de las condiciones que son de igualdad yde desigualdad, respectivamente. El conjunto de puntos que satisfacen todas lascondiciones se denomina región factible.

54

7 Optimización y Programación Matemática

Un punto x que satisfaga todas las condiciones se dice regular si los vectoresgradiente del conjunto de condiciones activas en ese punto son linealmente inde-pendientes.

Un caso particular del problema de programación matemática enunciado esuno de Programación Lineal:

min. cT x

s. a Ax D b

x � 0:

Así expresado se denomina en forma estándar. La región factible, o conjunto desoluciones del programa lineal, P D fx 2 Rn W Ax D b; x � 0g, es un politopoconvexo.

Teorema 7.5 Condiciones de óptimo de primer orden de Karush-Kuhn-TuckerSupóngase que x� es un punto regular y mínimo local del problema general

de programación matemática anterior. Existe un vector de multiplicadores deLagrange, ��, con coeficientes �i , i 2 E [ I, tal que se cumple que

rxL.x�; ��/ D rf .x�/ � �T c.x�/ D 0;

ci .x�/ D 0; para todo i 2 E ;

ci .x�/ � 0; para todo i 2 I;

��i � 0; para todo i 2 I;

��i ci .x

�/ D 0; para todo i 2 E [ I:

Teorema 7.6 Equivalencia entre puntos extremos y soluciones básicas Sean A 2Rm�n una matriz de rango m, b 2 Rm y el politopo convexo

P D fx 2 Rn W Ax D b; x � 0g :

Un x 2 P es un punto extremo de P si y sólo si los vectores columna de A

asociados a los coeficientes positivos de x son linealmente independientes.

DEMOSTRACIÓN. Supongamos sin pérdida de generalidad que los p primeroscoeficientes del vector x son positivos y los n�p últimos cero. Si x D Œ NxT ; 0T �T ,Nx > 0, y designamos por NA las p primeras columnas de la matriz A, se tiene queAx D NA Nx D b.

Probemos primero la necesidad de la condición enunciada. Supongamos quelas columnas de NA no son linealmente independientes. En este caso existirá unvector Nw ¤ 0 tal que NA Nw D 0. De aquí que NA. Nx ˙ " Nw/ D NA Nx D b y, paraun " suficientemente pequeño, que . Nx ˙ " Nw/ � 0. Los puntos y 0 D NxC" Nw

0

�y

55

7 Optimización y Programación Matemática

y 00 D Nx�" Nw0

�están, por consiguiente, en P . Además, dado que x D .y 0 Cy 00/=2,

x no puede ser un punto extremo de P . Como consecuencia de esto, si x es unpunto extremo, las columnas de la matriz NA son linealmente dependientes.

Probemos ahora la suficiencia. Supongamos que x no es un punto extremo deP . Esto quiere decir que x D �y 0 C.1��/y 00, donde y 0; y 00 2 P; y 0 ¤ y 00 y 0 <

� < 1. Como x e y 0 están en P , A.x � y 0/ D Ax � Ay 0 D b � b D 0. Además,dado que � y 1�� son estrictamente positivos, los últimos n�p coeficientes de y 0y, por consiguiente, de x � y 0, han de ser cero pues lo son los de x. Las columnasde la matriz NA, en consecuencia, son linealmente dependientes. De aquí que, si lascolumnas de NA son linealmente independientes, x es un punto extremo.

Una dirección del politopo P D fx 2 Rn W Ax D b; x � 0g es un vector nonulo, d 2 Rn, tal que para todo x0 2 P el rayo fx 2 Rn W x D x0 C �d ; � � 0gpertenece a P .

Una dirección d de un politopo P se dice extrema si no puede ponerse comocombinación lineal no negativa de dos direcciones diferentes de P . Es decir, noexisten dos direcciones d1 y d2 en P , d1 ¤ d2, y unos ˛1; ˛2 > 0, tales qued D ˛1d1 C ˛2d2.

Cualquier dirección de un politopo se puede expresar como combinación li-neal no negativa de las direcciones extremas del politopo. Si P es un poliedro,obviamente, no tiene direcciones.

Teorema 7.7 Teorema de la representación Todo punto del politopo P D fx 2Rn W Ax D b; x � 0g se puede expresar de la forma

x DXi2I

�i vi C d ;

donde fvi W i 2 I g es el conjunto de puntos extremos o vértices de P ,P

i2I �i D1, �i � 0, y d , o es una dirección de P , o d D 0.

DEMOSTRACIÓN. La haremos por inducción en p, número de coeficientes posi-tivos de x. Si p D 0, el teorema es obvio, pues x D 0 es un punto extremo.Supongamos que se cumple lo enunciado para puntos con menos de p coeficientespositivos y que x tiene p coeficientes positivos.

Si x es un punto extremo, como x D vi para algún i 2 I , el teorema esobvio. Supongamos por tanto que x no es un punto extremo. En este caso existeun vector w ¤ 0, con wi D 0 si xi D 0, tal que Aw D 0. Se pueden dar los trescasos siguientes:

(a) Que w tenga coeficientes positivos y negativos. Consideremos los puntosx.�/ D x C �w en la recta que pasa por x que determina w, y sean � 0 y � 00

56

7 Optimización y Programación Matemática

el menor valor positivo y mayor valor negativo, respectivamente, de � paralos que x.�/ tiene al menos un coeficiente cero más que los que tiene x. Lospuntos x0 D x.� 0/ y x00 D x.� 00/ pertenecen claramente a P por lo que,por la hipótesis de inducción, al tener un coeficiente nulo más, se puedenexpresar según lo enunciado en el teorema. En consecuencia, como x estáen la recta que une x0 y x00, se puede expresar de la siguiente manera

x D x0 C .1 � /x00 donde D �� 00=.� 0 � � 00/

D

Xi2I

�0i vi C d 0

!C .1 � /

Xi2I

�00i vi C d 00

!

DXi2I

��0

i C .1 � /�00

i

vi C d 0 C .1 � /d 00:

Como 0 < < 1, �0i � 0 y �00

i � 0 para todo i 2 I ,P

i2I �0i D P

i2I �00i D

1 y Ad 0 D Ad 00 D 0, d 0 � 0 y d 00 � 0. Se deduce entonces que

�i D �0i C .1 � /�

00

i � 0 para todo i 2 I;Xi2I

�i D 1;

d D d 0 C .1 � /d 00 � 0 y Ad D 0;

quedando probado que x se puede expresar de la forma enunciada.

(b) Que w � 0. Definamos x0 como en el caso (a). El punto x se puede expresarcomo x D x0 C � 0.�w/, con � 0 > 0. Como x0 se puede expresar porinducción en la forma deseada y .�w/ es una dirección en P , x también sepuede expresar de la forma enunciada.

(c) Que w � 0. Este caso se prueba igual que el caso (b) sin más que sustituirx0, � 0 y �w por x00, �� 00 y w, respectivamente.

Corolario 7.8 Si el politopo P D fx 2 Rn W Ax D b; x � 0g es no vacío, tieneal menos un punto extremo o vértice.

Corolario 7.9 Si el politopo P D fx 2 Rn W Ax D b; x � 0g es cerrado yacotado (es un poliedro), todo punto x 2 P se puede expresar como combinaciónconvexa de sus puntos extremos.

Teorema 7.10 Teorema fundamental de la Programación Lineal Dado un poli-topo no vacío P D fx 2 Rn W Ax D b; x � 0g de soluciones de un PL, el valormínimo de la función objetivo cT x, para x 2 P , se alcanza en un punto extremode P (solución básica factible óptima), o cT x no está acotada inferiormente enP .

57

7 Optimización y Programación Matemática

x

yx 1

x 2

x 3

x 4

x 5

Figura 7.32: Representación de un punto de un politopo (poliedro) como combi-nación convexa de puntos extremos

DEMOSTRACIÓN. Sea V D fvi W i 2 I g el conjunto de puntos extremos de P .Como P es no vacío, al menos tiene un punto extremo vi 2 V . De acuerdo conel teorema de la representación, o el politopo P posee una dirección d tal quecT d < 0, o tal dirección no existe. Consideremos estos dos casos.

(a) El politopo P tiene una dirección d tal que cT d < 0. En este caso P noestá acotado y el valor de la función objetivo tiende a �1 en la dirección d .

(b) El politopo P no tiene una dirección d tal que cT d < 0. En este casocualquier x 2 P se puede expresar de una de las dos maneras siguientes:

x DXi2I

�i vi dondeXi2I

�i D 1; �i � 0 o

x DXi2I

�i vi C Nd dondeXi2I

�i D 1; �i � 0 y cT Nd � 0:

En ambos casos, suponiendo que cT vmin es el menor de los elementos delconjunto fcT vi W i 2 I g, se tiene que

cT x �Xi2I

�i

cT vi

� � cT vmin

Xi2I

�i

!D cT vmin:

Es decir, el mínimo de cT x se alcanza en un punto extremo de P : vmin.

7.3 Dualidad

La Dualidad juega un papel destacado en Programación Lineal y no lineal.Sirve para caracterizar y verificar la optimalidad de un proceso iterativo y las con-

58

7 Optimización y Programación Matemática

diciones en que se da el óptimo, para analizar la sensibilidad de una solución ala variación de los parámetros del problema, para estudiar la velocidad de con-vergencia de determinados algoritmos de optimización que usan su formulación ycontemplar diversos aspectos geométricos que permiten interpretar mejor lo quese está haciendo en la búsqueda de una solución.

Las ideas y formulación que exponemos a continuación siguen enteramente loque expone al respecto el libro de Luenberger citado en el apartado de bibliogra-fía. Se basa en una forma elegante y global de contemplar la dualidad en términosde conjuntos e hiperplanos que tocan esos conjuntos. Evidencia el papel de losmultiplicadores de Lagrange como definidores de hiperplanos que pueden ser con-siderados los duales de puntos en un espacio vectorial. Esta forma teórica de en-frentarse a la dualidad proporciona una simetría entre los problemas primal y dual,la cual pude considerarse perfecta si los problemas son convexos. Si no lo son, laimperfección la plasma el denominado gap de dualidad o brecha dual, que tieneuna interpretación geométrica muy sencilla en este contexto y mucha importanciaen los algoritmos de programación lineal y no lineal.

En el problema dual las incógnitas por resolver son los multiplicadores de La-grange del problema primal, que miden las sensibilidades del primal a variacionesen los coeficientes que determinan las condiciones de este problema y determinancomo unas penalizaciones que se introducen en su función objetivo por no utilizaradecuadamente los recursos que fijan esas condiciones. La función de Lagrangeincorpora así toda la información disponible del problema.

La teoría global que se expone en este apéndice es la base general sobre la queconstruir dualidades de tipo local de los diversos problemas lineales y no linea-les, incluso sin la existencia de convexidad, o en algoritmos especializados paraproblemas de Programación Lineal como los de punto interior, dual del Símplex,etc.

De momento vamos a referirnos a problemas de programación matemática co-mo

minimizarx2Rn

f .x/

sujeta a g.x/ � 0

x 2 �;

(1)

donde � 2 Rn es un conjunto convexo y las funciones, la escalar f W Rn ! R y lavectorial g W Rp ! Rn, están definidas en �. Este problema no es necesariamenteconvexo pero se asume que tiene al menos un punto factible. Esta notación es per-fectamente compatible con otras que se utilizan sin más que adoptar la convenciónde signos adecuada.

59

7 Optimización y Programación Matemática

La función primal asociada a (1) se define, para un z 2 Rp , como

!.z/ D Kınf ff .x/ W g.x/ � z; x 2 �g: (2)

Se llega a ella dejando que el término de la derecha de la inecuación que definenlas condiciones pueda tomar valores arbitrarios. Se entiende que (2) está definidaen el conjunto D D fz W g.x/ � z; para algunos x 2 �g.

Si el problema (1) tiene una solución x� con un valor de la función objetivoigual a f � D f .x�/, entonces f � es el punto de eje vertical de RpC1 donde lafunción primal se cruza con ese eje. Si (1) no tiene solución ese punto de cruce esf � D Kınf ff .x/ W g.x/ � 0; x 2 �g.

El principio de dualidad se deduce de la consideración de todos los hiperplanosque quedan por debajo de la función primal. Como ilustra la figura 7.33, todos loshiperplanos que se indican se cruzan con el eje vertical por debajo de f �, o en f �.

w(z)

Hiperplanodebajo de w(z)

z

r

f *

Figura 7.33: Hiperplano por debajo de !.z/.

Para expresar esta propiedad se define la función dual en el cono positivo deRp como

.�/ D Kınf˚f .x/ C �Tg.x/ W x 2 �

�: (3)

En general, puede que no sea finita dentro del ortante positivo, RpC, pero la

región donde está definida es convexa.

Proposición 7.11 La función dual es cóncava en la región donde es finita.

60

7 Optimización y Programación Matemática

DEMOSTRACIÓN. Supóngase que �1 y �2 están en la región finita y sea 0 � ˛ �1. Entonces

.˛�1 C .1 � ˛�2// D Kınf ff .x/ C .˛�1 C .1 � ˛/�2/T g.x/ W x 2 �g� Kınf f f .x1/ C ˛�T

1 g.�1/ W x1 2 �gC Kınf f.1 � ˛/f .x2/ C .1 � ˛/�T

2 g.x2/ W x2 2 �gD ˛ .�1/ C .1 � ˛/ .�2/:

Se define � D sup f .�/ W � � 0g, suponiéndose que el supremo se extiendea toda la región donde es finita.

Proposición 7.12 Forma débil de dualidad. � � f �.

DEMOSTRACIÓN. Para todo � � 0 se tiene que

.�/ D Kınf ff .x/ C �T g.x/ W x 2 �g� Kınf ff .x/ C �T g.x/ W g.x/ � 0; x 2 �g� Kınf ff .x/ W g.žx/ � 0; x 2 �g D f �:

Adoptando e supremos de .x/ se tiene que � � f �.

De acuerdo con este resultado la función dual proporciona cotas inferiores delvalor óptimo de f .

La función dual tiene una interpretación geométrica interesante. Si se considerael vector Œ1 �T �T 2 RpC1, con � � 0 y la constante c, el conjunto de vectoresŒr zT �T 2 RpC1 tales que el producto interior Œ1 �T �Œr zT �T � r C �T z D c

define un hiperplano en RpC1. Para diferentes valores de c se tiene diferenteshiperplanos, todos paralelos entre si.

Para un vector dado Œ1 �T �T consideremos el hiperplano más bajo posible deesa forma que casi toca —soporta— la región de encima de la función primal delproblema (1). Supongamos que x1 define ese punto de contacto y que r D f .x1/

y z D g.x1/. Se tendrá que c D f .x1/ C �T b.x1/ D .�/.Ese hiperplano se cruzará con el eje vertical en un punto de la forma Œr0 0�T .

Este punto también satisfará que Œ1 �T �T Œr0 0�T D c D .�/. Lo que lleva aque c D r0. Por lo que ese punto dará .�/ directamente. La función dual en �

es igual al punto donde se cruzan el hiperplano definido por � que justo toca elepigrafo —el conjunto de puntos situados por encima del gráfico de una función—de la función primal.

Además, como indica la figura 7.34, ese punto de cruce (y el valor de la funcióndual) se maximiza con el multiplicador de Lagrange que corresponde al plano más

61

7 Optimización y Programación Matemática

hiperplano más alto

ϕ∗

f∗ gap de dualidad

z

w (z)

Figura 7.34: Hiperplano más alto.

alto posible que intercepta el eje vertical, siendo el punto de esa intercepción menoro igual que el valor óptimo f �. La diferencia constituye el gap de dualidad.

Si se incorporan suposiciones de convexidad el análisis que estamos haciendose completa con el teorema de la dualidad fuerte cuando no hay gap de dualidad yla intersección de esos planos con el eje vertical es el propio f �. Se puede ver enla figura 7.35.

El teorema de la dualidad fuerte lo referimos al problema general

minimizarx2Rn

f .x/

sujeta a h.x/ D 0

g.x/ � 0

x 2 �;

(4)

donde h W Rm ! Rn es afín, g W Rp ! Rn es convexa y � es convexo. Lafunción dual de este problema es

.�; �/ D Kınf ff .x/ C �Th.x/ C �Tg.x/ W x 2 �g; (5)

y � D sup f .�; �/ W � 2 Rm; � 2 Rp; � � 0g.Un punto x que satisfaga todas las condiciones que se cumplen se dice regular

si los vectores gradiente del conjunto de condiciones activas en ese punto sonlinealmente independientes. Una función h.x/ es regular con respecto a � si elconjunto C D fy W h.x/ D y para algún x 2 �g de Rn contiene una bola abiertaen torno a 0; es decir, C contiene un conjunto de la forma fy W jyj < "g para algún" > 0. Esto viene a decir que h.x/ puede hacerse 0 y variar arbitrariamente en

62

7 Optimización y Programación Matemática

hiperplano óptimo

z

rw (z)

f * = ϕ∗

Figura 7.35: Expresión gráfica del teorema de la dualidad fuerte . No hay gap dedualidad.

torno a 0 en cualquier dirección. Esta condición es similar a la definición de puntoregular en el contexto de las condiciones de óptimo de primer orden.

Teorema 7.13 Teorema de la dualidad fuerte Supongamos que en el problema(4) h es regular con respecto a � y que existe un punto x 2 � en el que h.x/ D 0

y g.x/ � 0.Supongamos que el problema tiene como solución x� con un valor de la funciónobjetivo f .x�/ D f �. Entonces, para todo � y todo � � 0 se cumple que

� � f �:

Además, existen unos � y � � 0 tales que .�; �/ D f � y por lo tanto � Df �. Los vectores � y � son los multiplicadores de Lagrange del problema.

7.3.1 Dualidad Lagrangiana

Es una forma de denominar lo que acabamos de exponer. La función de La-grange del problema (4) escrito

minimizarx2Rn

f .x/

sujeta a h.x/ D 0

g.x/ � 0

x 2 �;

(6)

63

7 Optimización y Programación Matemática

es L.x; �; �/ D f .x/ � �Th.x/ � �Tg.x/. La función de Lagrange dual es

q.�; �/defD Kınf

xL.x; �; �/:

Si las funciones h.x/ y g.x/ son convexas, con � � 0, la función de Lagrange esconvexa y define una cota inferior del valor óptimo de la función objetivo de (6).El problema dual de éste es

maximizar q.�; �/

sujeta a � � 0;

que es siempre convexo.

7.3.2 Dualidad de Wolfe

Es ligeramente distinta de las anteriores. Es la que sirve de referencia a losmétodos de punto interior. El problema dual es

max. L.x; �; �/

s. a rxL.x; �; �/ D 0

� � 0:

7.3.3 Ejemplo

En el caso de un problema de Programación Lineal en forma estándar

minimizarx2Rn

cT x

sujeta a Ax D b

x � 0;

la función de Lagrange es L.x; �; �/ D cT x � �T .Ax � b/ � �T x, o

L.x; �; �/ D �T b C c � AT � � �

�Tx:

Su problema dual

max. q.�; �/ D Kınf fL.x; �; �/g D �T b C Kınfx

nc � AT � � �

�Txo

D(

�T b si c � AT � � � D 0

�1 si c � AT � � � ¤ 0

s. a � � 0:

64

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

Si c � AT � � � ¤ 0 el ínfimo es claramente �1, por lo que hay que excluirdel problema aquellos � para los que se den esos casos. De acuerdo con ello, elproblema dual queda

maximizar �T b

s. a c � AT � � � D 0; � � 0:

El dual de Wolfe sería exactamente el mismo. El gap de dualidad es

cT x � �T b D cT x � �T Ax D xTc � AT �

� D xT �:

8 Sobre el método de los elementos finitos para resol-

ver ecuaciones en derivadas parciales

D ESDE tiempos de C.F. Gauss, Alemania 1777-1855 y W. Thompson Irlanda,1775-1833, la equivalencia entre los problemas de ecuaciones en derivadas

parciales con condiciones de contorno y los de cálculo de variaciones ha ocupa-do un puesto destacado en el análisis matemático. En un principio el esfuerzo seconcentró en los aspectos teóricos de los problemas; posteriormente, dos físicos,Lord Rayleigh —John William Strutt, Reino Unido 1842-1919— y Walther Ritz,Suiza 1878-1909, independientemente al parecer, concibieron la idea de utilizaresa equivalencia para calcular numéricamente soluciones de problemas habitualesde física mediante la sustitución de los problemas de cálculo de variaciones porotros más simples de obtención de extremos con un número finito de parámetrospor determinar.

Sus métodos atrajeron pronto a ingenieros y físicos —los principios físicos dela mecánica son más sugestivos que las ecuaciones diferenciales— y se empeza-ron a aplicar a muchos problemas cercanos. El resultado era lógica consecuenciadel esquema conceptual de cómo se tratan en análisis matemático —y en muchosaspectos de la vida cotidiana— los problemas difíciles: Un problema P con solu-ción S se reemplaza por otro más o menos relacionado o próximo, Pn, más simplede resolver, cuya solución es Sn. Luego se mejora la aproximación Pn de P detal forma que la solución Sn, paso a paso, tienda a la deseada S . Lo esencial esescoger la sucesión de aproximaciones Pn de una manera adecuada.

Una de las cuestiones más interesantes y con más posibilidades de futuro quecontemplan las aplicaciones de las matemáticas para simular y resolver muchosproblemas de la vida cotidiana es el de utilizar modelos matemáticos expresadosen forma de ecuaciones diferenciales e integrales que reproducen procesos y fenó-menos complejos de la física y otras ciencias naturales y sociales cuyos orígenes

65

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

y evolución suelen estar distribuidos en el tiempo y en el espacio. Se modelan deesta forma la propagación del sonido o del calor, la electrostática, la electrodiná-mica, la dinámica de fluidos, la elasticidad, la mecánica cuántica, las emisiones decontaminantes, los fenómenos meteorológicos, la valoración de opciones y deri-vados financieros y muchos otros. El enfoque para resolverlos de forma prácticasigue exactamente el principio enunciado más arriba.

La idea esencial que seguiremos en estas notas es la de convertir elproblema con ecuaciones diferenciales, integrales o ecuaciones en de-rivadas parciales, suponiendo que tiene solución con unas determina-das características, en uno formulado en términos de cálculo de varia-ciones de funciones continuas —la minimización de un funcional—para así caracterizar en qué condiciones se da una solución u óptimodel mismo. Luego se discretiza ese problema continuo con un númeroinfinito de grados de libertad mediante un problema discreto, o siste-ma de ecuaciones, con un número de variables finito y más fácil deresolver y se resuelve mediante alguna de las diversas técnicas queexisten para ello.

Cuando se empieza a trabajar y aprender métodos numéricos para resolver pro-blemas matemáticos el de las diferencias finitas sigue ideas muy intuitivas: sim-plemente se aproxima una derivada de una curva en un punto de ella por una líneasecante. Si se estudia el método del volumen finito, también su idea es bastantesencilla: cada elemento de volumen es simplemente un pequeño equilibrio del flu-jo o de fuerzas. El método de los elementos finitos sigue esa senda más o menos,con alguna pequeña modificación.

La base matemática para el método de los elementos finitos se encuentra en elentorno de los espacios de Hilbert. Un espacio de Hilbert es una manera de trataruna función como un vector, por lo que podemos hacer algunos trucos de mate-máticas vectoriales con él. Recordemos que un vector es una serie de valores, oescalares, multiplicados por un conjunto de vectores de una base ortogonal (comolos vectores unitarios que definen la direcciones x, y y z, o los i , j y k). Podemosutilizar una técnica paralela para definir una función. Primeramente seleccionamosun conjunto de funciones de base en vez de aquellos vectores (esas funciones de-ben ser ortogonales entre sí) y luego definimos la función original como una sumade unos coeficientes multiplicados por las funciones de la base: de esta forma

u D1X

kD1

˛k k ;

donde cada una de las k es una función de la base.

66

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

El siguiente paso es convertir nuestra ecuación diferencial en algo llamado suformulación débil. Esto se hace básicamente multiplicando por una función deprueba y luego integrando en el espacio. Sin entrar en los detalles de momento,se trata de hacer lo mínimo necesario para convertir nuestra ecuación diferencialen algo en lo que podamos utilizar nuestras matemáticas de espacios vectoriales.Esencialmente, donde exista una forma de "producto interior", en nuestro casocon funciones como la de prueba en vez de vectores, y la solución. Este productointerior será una integral y podremos usar integración por partes para convertirloen formatos más manejables.

Después nos desharemos de alguna manera de la abstracción empleada y com-probaremos que realmente estamos tratando con un espacio vectorial de dimensiónfinita: los vectores función no son infinitos ni estamos sumando infinitos términos.Este proceso es lo que se entiende por discretización en las técnicas de los ele-mentos finitos. La discretización que se utiliza está determinada por una mallao retícula13 —mesh como la de la figura 8.36— y normalmente se emplean dosfunciones de base a cada lado de un elemento de la malla.

MESH

Figura 8.36: Discretización de una pieza sen-cilla.

Con esas funciones de ba-se la solución de nuestra ecua-ción diferencial se representaríade esta manera

u0 DnX

kD1

˛k k :

La única diferencia con la expre-sión anterior es el límite superiordel sumatorio.

El siguiente paso es hacerque nuestra función de pruebasea una función de base. Tam-bién habrá que asegurarse que

las funciones base no se superpongan, lo cual garantiza el que sean ortogonalescomo pretendíamos antes y nos permite aproximar más fácilmente la solución enel dominio de interés. Las funciones de base que se suelen usar son polinomios(especialmente polinomios lineales o cuadráticos).

Después de lo que puede parecer que es complicar el problema original agre-gando toda esta abstracción y matemáticas para llegar a lo que hemos llegado, ¿quéhemos conseguido realmente? Pues convertir el problema en una ecuación alge-braica matricial sencilla para poderlo resolver por medio del álgebra que conoce-

13Una retícula de por ejemplo 20 � 20 daría como resultado 441 funciones base únicas.

67

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

mos. Si el problema fuese lineal, simplemente tendremos que resolver la ecuaciónAx D b.

Para un problema simple com el de la ecuación de Poisson —Siméon DenisPoisson, Francia, 1781-1840—

u.x; y/ D @2u

@x2C @2u

@y2D f .x; y/

la matriz A es muy fácil de calcular y se denomina la matriz de rigidez en homena-je a los principios de las técnicas de elementos finitos en problemas de elasticidad.Esta matriz —muy dispersa (con pocos coeficientes distintos de cero) y diagonaldominante— está formada por el producto interior de las funciones de base conellas mismas, multiplicadas si es el caso por la constante que aparezca en la ecua-ción original. El vector solución de ese sistema se multiplica por el de las funcionesde base y se obtiene la del problema original, o una que se aproxima mucho a lamisma.

Resumiendo, el procedimiento de resolución del método de los elementos fini-tos consta de las siguientes fases u operaciones:

� Conversión del problema original de dimensión infinita, mediante las pro-piedades de los espacios de Hilbert, en uno similar próximo en un espaciovectorial de dimensión finita de cara a estudiar la existencia y unicidad de lasolución.

� Creación de una formulación débil del problema original con la que poda-mos usar las herramientas de producto interior y medida.

� Discretización del dominio de definición del problema y elección de unabase de funciones que sean ortogonales entre si.

� Conversión de los productos interiores entre funciones de base en sistemaslineales de ecuaciones.

� Resolución de ese sistema lineal resultante mediante técnicas de matricesdispersas.

Las ventajas de este método frente a otros son muchas en bastantes ámbitos dela ingeniería, la ciencia y la investigación por lo que su extensión y precisión,así como los algoritmos que emplea, cada vez son más amplios, ambiciosos ypotentes.

Para concretar con cierto detalle los pasos del método, vamos a desarrollar elestudio de un problema preciso habitual. Seguiremos esencialmente el trabajo deFrancisco Javier Sayas, [2015], de la Universidad de Delaware, EE.UU.

68

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

8.1 Solución de una ecuación en derivadas parciales

Consideraremos en lo que sigue el siguiente problema de una ecuación en de-rivadas parciales elíptica de segundo orden con condiciones de contorno:�

�u.x; y/ C cu.x; y/ D f .x; y/ dentro de �

u.x; y/ D g0.x; y/ en la frontera �D

@nu.x; y/ D g1.x; y/ en la frontera �N :

Esta forma de formularlo se denomina forma fuerte.

� La geometría del entorno físico esquemático en el que se desenvolverá serátan simple como la de la figura 8.37, o una generalización de ella. En este

Ω

ΓDΓN

Figura 8.37: Dominio de definición � y condiciones de contorno.

caso concreto es un subconjunto abierto � 2 Rd representado por un po-lígono en el plano R2, “pegado” o adherido en su frontera a la curva quedefine � , dividida ésta en dos partes: la que define �D , que materializanunas condiciones de contorno de Dirichlet —por Johann Peter Gustav Le-jeune Dirichlet, Alemania 1805-1859— y la �N , con condiciones de con-torno de Neumann —por Karl Gottfried Neumann, Alemania 1832-1925—.En términos físicos, las condiciones de Dirichlet determinan unos posiblesdesplazamientos físicos de esa frontera, mientras que las de Neumann unasposibles tensiones máximas o mínimas.

� La ecuación en derivadas parciales propiamente dicha, la primera en la for-mulación, se denomina habitualmente ecuación difusión-reacción. El tér-mino que representa la difusión es �u y el de reacción cu, cuando c > 0.La constante c es no negativa; en principio puede adoptar los valores 0 ó 1.

� La función escalar u.x; y/ W R2 ! R, definida en el dominio �, es laincógnita de este problema.

69

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

� La función f .x; y/ está definida en � y se puede considerar como una den-sidad superficial de fuerzas.

� Las dos funciones que expresan las condiciones de contorno, g0.x; y/ yg1.x; y/, están definidas en dos partes diferentes de la frontera. La funcióng0 deberá ser continua; la g1 puede ser discontinua.

� El símbolo @n designa la derivada normal hacia afuera, es decir

@nu D ru � n;

donde n es el vector unidad hacia afuera en puntos de la frontera � y ru esel gradiente de u. Supondremos que existe.

8.1.1 El problema en forma débil o variacional

Siguiendo cada uno de los pasos de la estrategia enunciada para resolver esteproblema, vamos a formularlo de una forma diferente de la original denominadaforma débil o forma variacional.

Para ello utilizaremos el teorema de Green —por George Green, Reino Unido1793-1841—, a menudo denominado primera fórmula o identidad de Green, de-rivada del teorema de la divergencia, que no es sino una forma de integración porpartes. Aplicado a nuestro caso dice queZ

.u/ v CZ

ru � rv DZ

.@nu/ v:

La función v es una función de prueba, continua, en principio definida en � D� [ � . En esa expresión hay dos tipos de integrales: las dos del miembro de laizquierda son integrales de superficie, en el dominio �. La del derecho es unaintegral lineal en el borde o frontera � . Hemos prescindido de los diferencialescorrespondientes para compactar la notación. El resultado sería aplicable tambiéna tres dimensiones: las dos integrales de la izquierda serían de volumen; la de laderecha de superficie. El punto de la segunda integral del miembro de la izquierdase refiere al producto interior de dos vectores, es decir ru � rv D @u

@x@v@x

C @u@y

@v@y

.La identidad expresada es una consecuencia del resultado del teorema de la

divergencia que dice que para un subconjunto V 2 Rn —en el caso de tres di-mensiones V representa un volumen como el de la figura 8.38—, en principiocompacto, de superficie o borde S continua a trozos (expresada por @V D S ), si F

es un campo vectorial con derivadas parciales de primer orden continuas definidoen un entorno de V , se cumple que•

V

.r � F/ dV D—

S

.F � n/ dS:

70

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

Figura 8.38: Región o volumen V acotada por la superficie o frontera S D @V

con la normal a la superficie n.

Aplicado a una función escalar f W Rn ! R y un vector constante c distinto decero •

V

c � rf dV C•

V

f .r � c/ dV D—

S

.cf / � dS;

donde dS expresa de forma compacta ndS .Haciendo f D ru y c D v se tiene la expresión anterior de la primera identi-

dad de Green.Si sustituimos u D f � cu en la expresión obtenida a partir de la identidad

de Green en donde se integra en � y que @nu D g1 en �N , después de reordenarun poco se llega aZ

ru � rv C c

Z�

uv DZ

f v CZ

N

g1v CZ

D

.@nu/ v:

Como no sabemos el valor de @nu en �D imponemos que la función v sea cero enesa parte de la frontera o borde: v D 0 en �D . A partir de ahí,Z

ru � rv C c

Z�

uv DZ

f v CZ

N

g1v; si v D 0 en �D :

La expresión del miembro de la izquierda es lineal en las funciones u y v. Es unaforma bilineal de las variables u y v. La de la derecha es lineal en v. Todavía nohemos hecho uso de la condición de Dirichlet en la frontera, u D g0 en �D .

La formulación débil del problema queda: así: Determinar una función u tal

que:

‚u D g0 en �DZ

ru � rv C c

Z�

uv D R�

f v C RN

g1v;

para todo v tal que v D 0 en la frontera �D :

71

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

En esta formulación la condición de Dirichlet —desplazamientos dados— se im-pone como una condición aparte que ha de cumplir la función de prueba v. Sedenomina condición esencial de borde o frontera. La condición de Neumann —fuerzas normales— aparece como una condición de frontera natural dentro de laformulación del problema.

Como indicábamos anteriormente, la función de prueba v chequea la ecuaciónque satisface u. Juega un papel de función de ponderación para comprobar el com-portamiento medio de la ecuación. En alguna referencia interesante se la denominadesplazamiento virtual para enfatizar que no es una incognita sino algo utilizadopara formular el problema de esta manera: mediante desplazamientos virtuales dela realidad, si se llega a conocer.

8.1.2 Espacios de trabajo

Hasta ahora hemos dado por hecho que el contexto matemático donde se desen-vuelve este problema y las formulaciones que estamos utilizando cumplen unaserie de requisitos matemáticos que permiten su existencia y solución. Vamos aformalizarlo un poco. El primer espacio que estamos utilizando14 es el espaciovectorial de las funciones al cuadrado integrables en �, es decir,

L2.�/ D�f W � ! R

ˇˇZ

jf j2 < 1�

:

Su estricta definición requeriría la introducción de la integral de Lebesgue15, la mé-trica o medida de Lebesgue y el espacio de Lebesgue —por Henrí Léon Lebesgue,Francia 1875-1941—. Simplificadamente, si

R�

f .x/ dx es la integral de Lebes-gue de f .x/ y se define la norma kf kLp.�/ D .

R�

f p dx/1=p , para 1 � p < 1,los espacios de Lebesgue son

Lp.�/ D ˚f .x/ W kf kLp.�/ < 1�

:

El segundo es el espacio de Sobolev —por Sergéi Lvóvich Sobolév, Rusia1908-1989—. Es une espacio vectorial de funciones dotado de una norma que escombinación de normas Lp de la función y de sus derivadas hasta un orden dado.Formalmente para dos dimensiones es

H 1.�/ D�u 2 L2.�/

ˇˇ @u

@x1

;@u

@x2

2 L2.�/

�:

14Ya introducido antes en estos apuntes.15Que generaliza la noción de la integral de Riemann extendiendo el concepto de área bajo una curva

para incluir funciones discontinuas.

72

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

Las derivadas de este espacio se entienden en un sentido débil16 que hagan queel espacio sea completo17 y por lo tanto sea un espacio de Banach. La normacorrespondiente de este espacio es

kuk1;�D�Z

jruj2 CZ

juj2�1=2

D Z

ˇˇ @u

@x1

ˇˇ2

CZ

ˇˇ @u

@x2

ˇˇ2

CZ

juj2!1=2

;

denominada en ingeniería norma de energía. Las funciones que usan esta formafinita son funciones de energía finita. Intuitivamente, un espacio de Sobolev es unespacio de funciones con derivadas de orden suficiente para un dominio de aplica-ción determinado y equipado con una norma que mida adecuadamente tamaño yregularidad en las funciones. Un subespacio de interés de ese espacio H 1.�/ es

H 1D

.�/ D ˚v 2 H 1.�/ jv D 0 en �D

�:

Establecido todo este aparato matemático, la formulación débil del problemaoriginal queda así:‚

Determinar una función u 2 H 1.�/ tal queu D g0 en �DZ

ru � rv C c

Z�

uv DZ

f v CZ

N

g1v; para todo v 2 H 1D

.�/:

La condición que se impone a la función de prueba, v 2 H 1D

.�/, es la misma que

v 2 H 1.�/ tal que v D 0 en �D;

lo que quiere decir que v está en el mismo espacio de la función que se busca u

pero satisface una versión homogénea de la condición esencial de borde o frontera.Los datos del problema están en los siguientes espacios f 2 L2.�/, g1 2

L2.�N / y g0 2 H 1=2.�D/. El segundo espacio restringe el dominio de las in-tegrales en la línea que marca �N en vez de en �. Que g0 2 H 1=2.�D/ quieredecir que existe al menos una función u0 2 H 1.�/ tal que u0 D g0 en �D . Dehecho, todas las demás que cumplen esta condición pertenecen a u0 C H 1

D.�/

Dnu0 C vjv 2 H 1

D.�/

oD ˚

w 2 H 1.�/jw D g0 en �D

�. Que g0 pertenezca a

H 1=2.�D/ significa que no se busca la solución en el conjunto vacío.

16Una generalización del concepto de derivada a funciones no necesariamente derivables pero siintegrables localmente en el sentido de Lebesgue en un dominio dado � de Lp.�/.

17Si toda sucesión de Cauchy en él tiene límite.

73

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

8.1.3 Discretización del problema en un subespacio de elementos finitos li-

neales

Como venimos anunciando, la resolución del problema que estudiamos conel concurso de “elementos finitos” está basada en la aproximación del espacioH 1.�/ mediante funciones polinomiales sencillas por tramos o trozos.

Para conseguirlo se utiliza una partición del dominio de cálculo � en subdo-minios, a los que se denomina mallado. El más sencillo es aquel en el que � esun intervalo de la recta real, por ejemplo el abierto .0; 1/, en el que se tiene lapartición 0 D x0 < x1 < � � � < xn D 1 dividida en subintervalos Ij D .xj �1; xj /

de longitud hj D xj � xj �1, j D 1; : : : ; n. Si h D mKax hj y Vh es el espaciolineal de funciones v tal que v 2 C 0.Œ0; 1�/, vjŒxi�1;xi � es un polinomio lineal,i D 1; : : : ; n, perteneciente por tanto a P1, y v.0/ D 0.

Para cada i D 1; : : : ; n se define la función i de tal forma que

i .xj / D ıij D(

1 si i D j

0 si i ¤ j;

delta de Kronecker —por Leopold Kronecker, Polonia 1823-Alemania 1891—,según se indica en la figura 8.39. Se tiene que f i W 1 � i � ng es una base de Vh.

0 1xi

i

Figura 8.39: Función de base lineal por tramos.

El conjunto f i g es una base nodal de Vh y fv.xi /g son los valores nodales de unafunción v. Los puntos .xi / se denominan nodos o nudos.

Dada una función v 2 C 0.Œ0; 1�/, el interpolante, o función de interpolación,vh 2 Vh de v se obtiene mediante vh D Pn

iD1 v.xi / i como se aprecia en lafigura 8.40. Si v 2 Vh ) v D vi .

Otra partición —quizás la más utilizada— consiste en triangularizar un domi-nio de dos dimensiones, como �, en pequeños triángulos que lo cubran entera-mente. En la figura 8.41 se ve la correspondiente al dominio con el que venimosexperimentando en estas notas.

Para simplificar se supone que la frontera o borde, � , del dominio � es unacurva poligonal. Si no lo es, primero se le aproxima a un polígono. La triangulari-

74

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

0 1xi

Vh

Figura 8.40: Aproximación mediante vh de una función de base lineal por tramos.

Figura 8.41: Triangularización del dominio �.

zación consiste en dividir � en un conjunto de triángulos Th D K1; : : : ; Km queno se solapen y que solo compartan lados completos, o lo que es lo mismo, queningún vértice de ningún triángulo caiga en algún lado de otro. Se cumplirá que

� D[

K2Th

K D K1 [ K2 � � � [ Km:

El subespacio Vh de H 1.�/ es ahora

Vh D ˚funciones v 2 C.�/

ˇvjKes lineal para todo K 2 Th; v D 0 en �

�;

donde vjK 2 P1 se refiere a la función v restringida a K. Recordemos que P1 es elespacio de polinomios lineales del tipo a0 C a1x1 C a2x2, donde los coeficientesa0, a1 y a2 serían los parámetros de cada triángulo.

Los parámetros que definirán la función v 2 Vh serán los valores v.Ni / de v enlos nodos Ni ; i D 1; : : : ; M de Th excluyendo aquellos en los bordes pues v D 0

en � . Los valores de los nodos de la triangularización del dominio son los grados

75

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

de libertad que determinan un elemento de Vh. Una numeración de esos nodospara nuestro dominio de trabajo sería la de la figura 8.42. Los nodos se indicanmediante el vector xi , donde i D 1; : : : ; M , el número de nodos.

712

13

9

8

10

6

5

2

3

4

1

17

16

1511

14

18

Figura 8.42: Numeración de los nodos del dominio �.

Si se fija un nodo del dominio y se le asocia el valor 1 y 0 a todos los demás,existe una función única i 2 Vh, función de base de nodo, tal que

i .xj / D ıij D(

1 si i D j

0 si i ¤ j; i; j D 1; : : : ; M:

El aspecto de una de estas funciones es el de la figura 8.43. Si un triángulo K no

i

xi

Figura 8.43: Gráfica de la funciones de base de los nodos del dominio �.

tiene a xi como uno de sus vértices, i es cero en todo el triángulo pues el valor dela función en todos sus vértices es cero. El soporte por tanto de i —la envolturadel conjunto de puntos donde i no es cero— es la misma que la unión de todoslos triángulos que comparten xi como vértices. Ver figura 8.44.

76

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

Figura 8.44: Soporte de dos funciones de base del dominio �.

Una función cualquiera uh 2 Vh se representa entonces como

uh DMX

j D1

uh.xj / j .xi / DMX

j D1

uh.xj /ıj i DMX

j D1

uh.xj / j :

El conjunto f i ; i D 1; : : : ; M g es una base de Vh.Hasta ahora no hemos tenido en cuenta si los nodos de la frontera están en el

segmento de borde tipo Dirichlet o Neumann. Si teníamos hasta ahora el espacio

H 1D

.�/ D ˚v 2 H 1.�/

ˇv D 0; en �D

�;

ahora nos interesa

VD

hD Vh \ H 1

D.�/ D ˚

vk 2 Vh

ˇvh D 0; en �D

�:

La idea es llevar constancia de qué nodos son Dirichlet —Dir— y cuáles no, inde-pendientes, —Ind—. En el caso del ejemplo que tratamos,

Dir D f9; 13; 14; 15; 17; 18gInd D f1; 2; 3; 4; 5; 6; 7; 8; 10; 11; 12; 16g :

Entonces, un elemento de Vh se podría escribir como

uh DX

j 2Induj j C

Xj 2Dir

uj j ; uj D uh.xj /

y uno de VD

hasí

uh DX

j 2Induj j :

77

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

8.1.4 Reformulación del problema como un sistema de ecuaciones lineales

Recapitulando, el método nos ha hecho llegar a la siguiente formulación paradeterminar la función uh„

Determinar una función uh 2 Vh tal queuh.xj / D g0.xj / 8j 2 DirZ

ruh � r i C c

Z�

uh i DZ

f i CZ

N

g1 i ; 8i 2 Ind:

Para ello:

� Hemos convertido el espacio de Sobolev en el que buscamos la función so-lución en uno de dimensión finita, Vh. Es decir, hemos reducido el problemaa calcular uh en los vértices de una triangularización —los nodos— y a unnúmero finito de incógnitas.

� Hemos sustituido las condiciones tipo Dirichlet fijando condiciones a losnodos Dirichlet, lo que reduce aún más el número de incógnitas: a los nodosindependientes.

� Hemos reducido el espacio de prueba de H 1D

.�/ a un subespacio discreto

VD

h, lo que reduce un número infinito de pruebas en la formulación débil a

un número finito de ecuaciones lineales.

Para obtener finalmente el sistema de ecuaciones lineales escribimos uh entérminos de las funciones de base de los nodos:

uh DX

j 2Induj j C

Xj 2Dir

uj j :

Luego sustituimos en esta expresión las condiciones de Dirichlet discretizadas:

uh DX

j 2Induj j C

Xj 2Dir

g0.xj / j :

Finalmente incorporamos esta expresión en la formulación variacional discreta:Z�

ruh � r i C c

Z�

uh i DZ

f i CZ

N

g1 i ;

linealizando, teniendo en cuenta que

ruh DX

j 2Induj r j C

Xj 2Dir

g0.xj /r j

78

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

y reordenando llegamos a

ij 2Ind

�Z�

r j � r i C c

Z�

j j

�uj D

Z�

f i CZ

N

g1 i

�ij 2Dir

�Z�

r j � r i C c

Z�

j j

�g0.xj /:

Este es un sistema de ecuaciones lineales con un número de ecuaciones igual alnúmero de incógnitas (# Ind D dim V

D

h), que son precisamente los valores de la

función uh en los nodos libres de la triangularización llevada a cabo.Hay dos matrices importantes en este sistema de ecuaciones, la matriz de rigi-

deces,

W ij DZ

r j � r i

y la matriz de masas

M ij DZ

j i :

Ambas son simétricas. La de masas es definida positiva. La de rigideces semidefi-nida positiva. Si hacemos bi D R

�f i C R

Ng1 i , i 2 Ind, se llega a

ij 2Ind

W ij C cM ij

!uj D bi �

ij 2Dir

W ij C cM ij

!g0.xj /; i 2 Ind:

Estas matrices poseen patrones de dispersidad muy pronunciados pues sólo inter-actúan nodos que están unidos entre si por lados de triángulos. Ello las hacen propi-cias para ordenaciones en torno a la diagonal principal. Su manipulación es sencillay las operaciones necesarias para resolver los gigantescos sistemas de ecuacioneslineales a que pueden dar lugar son perfectamente tratables por los ordenadoresdisponibles actualmente.

8.2 Algo sobre funcionales y cálculo de variaciones

Un funcional es una función que tiene funciones como argumento a las queasigna un valor real. Es decir, una función cuyo dominio es un conjunto de funcio-nes. En la figura 8.45 se esquematiza18 la diferencia entre una función ordinaria yun funcional.

18Fuente: http://www.colorado.edu/engineering/CAS/courses.d/AVMM.d/AVMM.Ch01.d/AVMM.Ch01.pdf.

79

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

Input: argument x(independent

variable)

Input 1: argument x(independent

variable)

Output: function value y (dependent

variable)

(a) f y=y(x)=f(x)

y=f(x)

x

fx

Input 2: function y=y(x) (primary

dependent variable)

Input 2: function y=y(x) (primary

dependent variable)

(b) J

Input 1: argument x(independent

variable)

fx

Input 3: derivativeof primary

dependent variable

(c)J J(y)=J(x,y,y')

J(y)=J(x,y)

y=f(x)

y'=dy/dx

Functionoperator

Functionaloperator

Functionaloperator

Output: functional value J (a scalar)

Output: functionalvalue J (a scalar)

FUNCIONALES

FUNCIONES

Figura 8.45: Diagrama de bloques que ilustra la diferencia formal en una dimen-sión entre una función ordinaria y un funcional. (a) Una función ordinaria y Dy.x/ D f .x/ de una variable independiente x; (b) Un funcional J.y/ D J.x; y/

de la función y.x/; Un funcional J.y/ D J.x; y; y0/ de la función y.x/ y suderivada y0 D dy=dx.

El funcional básico unidimensional lineal más típico tiene la forma

J.y/DZ b

a

Fx; y.x/; y0.x/

�dx; x D Œa; b�; a � b; y.a/D Oya; y.b/ D Oyb :

En palabras, la función y D y.x/ está definida en el segmento x 2 Œa; b�, a � b,de la recta real. Dado un x, y.x/ se supone real y único. Además, y.x/ es continuay derivable por lo que y0.x/ existe al igual que la integral enunciada. La funcióndebe satisfacer en x D a y en x D b unas determinadas condiciones de contorno:concretamente, Oya D y.a/ y Oyb D y.b/.

Así era cómo la palabra funcional fue utilizada inicialmente en el cálculo devariaciones, donde el integrando a ser minimizado debía ser un funcional, aplicadaa una todavía desconocida función que satisfacía solamente una cierta condiciónde contorno, y condiciones de derivabilidad.

Otro funcional lineal habitual es la función delta de Dirac —por Paul Adrien

80

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

Maurice Dirac, Reino Unido, 1902-1984—

ıt Œf .�/� D f .t/

que se puede escribir también como ıt Œf .�/� D R b

af .x/ı.x � t / dt .

Un problema de cálculo de variaciones o problema variacional típico sería elde encontrar la función y 2 Œa; b� ! R que minimiza el funcional anterior, J.y/,con las condiciones de contorno indicadas.

En varios campos de la ingeniería, la física matemática, el reconocimiento deimágenes y otros muchos, el cálculo de variaciones es un interesante problemamatemático consistente en buscar máximos y mínimos (o más generalmente extre-mos relativos) de funcionales continuos definidos sobre algún espacio funcional.Constituyen una generalización del cálculo elemental de máximos y mínimos defunciones reales de una variable. Muchos problemas de este tipo19 son fáciles deformular pero sus soluciones implican a menudo, a su vez, difíciles procedimientosde cálculo diferencial, los cuales generalmente suponen usar ecuaciones diferen-ciales ordinarias —Ordinary Differential Equations—, así como las ecuaciones(diferenciales) en derivadas parciales —Partial Differential Equations—.

En la figura 8.46 se pueden ver algunos problemas clásicos de funcionales enuna dimensión.

��������������������

B

A

B

A

(a) (c)

xx=a x=bx

y y

x=a x=b

y=y(x)Constantgravity g

Parabola

Cycloid

Straight line

y(a)=yy(b)=y

a

b

^

^Area A

B

A

(b)

x

y

x=a x=b

Arclength L

Figura 8.46: Ejemplos unidimensional clásicos de funcionales: (a) Área debajo deuna curva,

R b

ay.x/ dx; (b) Longitud de un arco de curva,

R b

a

p1 C .y0.x//2 dx;

(c) Curva braquistócrona,R b

a

q1C.y0.x//2

2gydx.

Por regla general, no todas las funciones pueden encajar en un funcional. Lafigura 8.47 ilustra algunos tipos de funciones permitidas y otras no permitidas,grosso modo.

Si se considera un funcional general

I DZ x2

x1

F.x; y; y0/ dx

19Por ejemplo el de encontrar la curva de longitud más corta que una dos puntos.

81

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

B

A

x=a x=b x x

y y

(a)

y(a)=yy(b)=yb

a

^^

B

A

x=a x=b

(b)

y(a)=yy(b)=yb

a

^^

1

12

23

34

4

55

Figura 8.47: Muestrario de funciones admisibles en un funcional: (a) Funcionescontinuas, C 1, con un sólo valor para cada x y que cumplen las condiciones decontorno; (b) Inadmisibles: La 1 y la 3 tienen derivadas discontinuas; la 2 es dis-continua y admite varios valores para un x; la 4 admite varios valores para un x yla 5 no cumple las condiciones de contorno.

donde F es una función conocida con derivadas continuas hasta segundo ordenrespecto a x, y y y0. El valor de I dependerá de la trayectoria de la función entre.x1; y1/ y .x2; y2/; es decir, dependerá de la función y.x/ que se escoja.

Si se introduce como prueba la familia de trayectorias

Qy.x/ D y.x/ C "�.x/;

donde " es un parámetro y �.x/ una función derivable a la que se le pide que�.x1/ D �.x2/ D 0, resulta que se pueden generar una infinidad de trayecto-rias para una �.x/ dada sin más que variar el parámetro ". Todas ellas pasan por.x1; y1/ y .x2; y2/. Consideremos

QI DZ x2

x1

F.x; Qy; Qy0/ dx DZ x2

x1

F.x; y C "�; y0 C "�0/ dx

Es evidente que los funcionales I y QI alcanzarán el mismo valor extremo (valormáximo o mínimo) cuando " D 0. Desarrollando, se tiene que

QI D . QI /"D0 C

d QId"

!"D0

" C

d 2 QId"2

!"D0

"2

2ŠC � � �

Para que QI sea extremo cuando " D 0 es necesario que d QId"

!"D0

D 0:

82

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

Es decir que �Z x2

x1

�@F

@ Qyd Qyd"

C @F

@ Qy0d Qy0

d"

�dx

�"D0

D 0:

Dado que d Qy=d" D �, que d Qy0=d" D �0 y que quitar las tildes de Qy y de Qy0 enlas derivadas de F es lo mismo que hacer " D 0 según se requería más arriba, laecuación anterior se puede reescribir así:Z x2

x1

�@F

@y� C @F

@y0 �0�

dx D 0:

Integrando por partes el segundo término,Z x2

x1

@F

@y0 �0 dx D @F

@y0 �

ˇˇx2

x1

�Z x2

x1

�d

dx

�@F

@y0

��� dx:

Cuando � D 0 en los extremos la primera expresión del miembro de la derecha deesta ecuación se hace cero. Sustituyendo lo que queda en la anterior se tiene queZ x2

x1

�@F

@y� d

dx

�@F

@y0

��� dx D 0:

Cualquiera que sea la función �.x/ entre los puntos extremos, según la fórmula deEuler-Lagrange se tiene que

d

dx

@F

@y0 � @F

@yD 0

que es la condición que debe cumplir y.x/ para ser un máximo o un mínimo: unextremo. Si en esta expresión se sustituye F por su expresión F.x; y; y0/ resultauna ecuación diferencial de segundo orden en y.x/.

8.2.1 Proposiciones esenciales

Lema 8.1 Lema fundamental del Cálculo de Variaciones Sea M.x/ una funcióncontinua definida en el intervalo a � x � b. Supongamos que para cualquierfunción continua �.x/ se tiene que

Z b

a

M.x/�.x/ dx D 0:

Se cumple entonces que

M.x/ D 0 para todo x 2 Œa; b�:

83

8 Sobre el método de los elementos finitos para resolver ecuaciones en derivadas parciales

DEMOSTRACIÓN. Supongamos que M.x/ no es cero en algún punto x0 2 .a; b/.Concretamente que M.x0/ > 0. Por la continuidad de M.x/, existe un ı > 0 talque

�M.x0/

2< M.x/ � M.x0/ <

M.x0/

2para jx � x0j < ı con x 2 Œa; b�:

En consecuencia, M.x/ > M.x0/=2 en ese intervalo. Escojamos una función

ba 0x 0 x +0x

x0

0x

M( )

M( )

2�.x/

Figura 8.48: Lema fundamental del Cálculo de Variaciones.

�.x/ tal que, como se ve en la figura 8.48,

�.x/ D

�0 si a � x � a1 D mKax.x0 � ı; a/

> 0 si jx � x0j < ı; x 2 Œa; b�

0 si mKın.x0 C ı; b/ D b1 � x � b:

Se tiene entonces que

0 DZ b

a

M.x/�.x/ dx DZ b1

ai

M.x/�.x/ dx >1

2M.x0/

Z b1

a1

�.x/ dx > 0;

lo cual es una contradicción.Si M.x0/ < 0 el argumento sería idéntico sustituyendo M.x/ por �M.x/. Si

x0 D a o x0 D b la demostración sería casi igual con pequeñas modificaciones enla línea argumental.

Corolario 8.2 El resultado del Lema 8.1 sigue siendo aplicable si�.a/ D �.b/ D 0:

84

9 Análisis de componentes principales

Corolario 8.3 Supóngase que M.x/ es continua en el intervalo I D Œa; b� y quef'n.x/g1

nD1 es un conjunto de funciones base. Supóngase además que

Z b

a

M.x/'n.x/ dx D 0 para n D 1; 2; : : :

Se cumple entonces que M.x/ D 0 para todo x 2 Œa; b�.

Lema 8.4 Sea M.x/ una función continua en a � x � b. Supongamos que paracualquier función continua �.x/, de derivada continua, se tiene que

Z b

a

M.x/�0.x/ dx D 0

para �.a/ D �.b/ D 0. Se cumple así que M.x/ D cte para todo x 2 Œa; b�:

Lema 8.5 Sea M.x/ una función continua definida en el intervalo a � x � b.Supongamos que para cualquier función continua �.x/, de derivadas continuasal menos hasta segundo grado, se tiene que

Z b

a

M.x/�00.x/ dx D 0

para �.a/ D �.b/ D 0 y �0.a/ D �0.b/ D 0. Se cumple entonces que M.x/ Dc0 C c1x para todo x 2 Œa; b�, donde c0 y c1 son constantes.

9 Análisis de componentes principales

E L análisis de componentes principales —ACP en español, PCA en inglés—tiene como objetivo representar la información de n observaciones de p va-

riables con un número sustancialmente menor de unas nuevas variables construidascomo combinaciones lineales de las originales. Sirve para hallar las causas funda-mentales de la variabilidad de un conjunto de datos y ordenarlas por importancia.Es uno de los instrumentos básicos del análisis de datos y del Big_Data que tantointerés despiertan en la actualidad para explicar multitud de tendencias y compor-tamientos de la vida cotidiana.

Técnicamente, el ACP busca la proyección del espacio original de variables enun subespacio en el cual los datos queden adecuadamente representados en térmi-nos de mínimos cuadrados lineales de unos componentes principales —variables

85

9 Análisis de componentes principales

artificiales independientes entre sí—, perdiéndose la menor cantidad de informa-ción original posible. Comporta el cálculo de la descomposición en valores pro-pios de la matriz de covarianza de los datos, una vez centrados en la media de cadaatributo. La PCA Es una extensión inmediata de lo apuntado en la sección 4.3.2dedicada a valores singulares de este documento, en la página 28.

El análisis de componentes principales fue formulado por Harold Hotelling,EE.UU. 1895-1973. Sus orígenes se remontan al trabajo sobre ajustes ortogonalespor mínimos cuadrados de Karl Pearson, Reino Unido, 1857-1936. Permite trans-formar las variables originales de los datos de un problema, en general correladas,en un número menor de nuevas variables incorreladas, facilitando así la interpre-tación de esos datos.

9.1 Algunos conceptos de estadística

Sea ŒX1 � � � Xn� una matriz p � n de n observaciones de p variables. La mediade esta muestra es

X DPn

iD1 X i

n:

La desviación típica, o estándar,

�.X/ DsPn

iD1

X i � X

�2n

:

La varianza, medida de la dispersidad de la muestra, es la desviación típica alcuadrado, esto es,

var.X/ DPn

iD1

X i � X

�2n

:

El grado de asociación lineal más simple de cada variable con las demás, dos ados, es lo que configura la matriz de covarianzas, de dimensión p � p,

cov.X ; Y / DPn

iD1

X i � X

� Y i � Y

�2n

D †:

Si la covarianza entre dos variables es positiva, cuando una de ellas se incrementala otra hace lo mismo. Si es negativa, cuando una de ellas se incrementa, la otradecrece. Si es cero, las dos variables son independientes entre si. Los coeficientesde la diagonal principal de la matriz de covarianzas son las varianzas de cadavariable individual. La matriz de covarianzas es simétrica. La varianza total de losdatos es la suma de cada varianza individual por lo que la traza de la matriz decovarianzas es precisamente esa varianza total. En la figura 9.49 se ilustran unospatrones de datos y las matrices de covarianzas correspondientes.

86

9 Análisis de componentes principales

Figura 9.49: La matriz de covarianzas expresa la forma de los datos. La variabi-lidad en torno a la diagonal la determina la covarianza mientras que alrededor delos ejes la define la varianza

La matriz de covarianzas es semidefinida positiva, es decir, xTcov.X ; Y /x � 0

para cualquier vector x ¤ 0.La covarianza como medida de asociación tiene el inconveniente de que depen-

de de las unidades de medida de las variables. Si por ejemplo la covarianza entre laestatura de una persona, medida en centímetros, y su peso, en gramos, es 200, si seexpresa el peso en kilogramos, la covarianza será 0;002. Para construir una mediaadimensional se divide la covarianza por un término con sus mismas dimensiones.Se define así el coeficiente de correlación y a partir de él la matriz de correlación,de dimensión también p � p, es

corr.X ; Y / D cov.X ; Y /

�.X/�.Y /D R:

Se utiliza para estandarizar los diversos datos. Es también semidefinida positiva.La matriz de covarianzas y la matriz de correlación están relacionadas mediante

la expresióncorr.X ; Y / D D�1cov.X ; Y /D�1;

87

9 Análisis de componentes principales

donde D es una matriz diagonal construida con las desviaciones típicas de lasvariables.

Una medida global escalar de la variabilidad conjunta de k variables es la va-rianza generalizada, que es el determinante de la matriz de covarianzas. Mideaproximadamente el área, volumen o hipervolumen ocupado por el conjunto dedatos.

La matriz de covarianzas —o la matriz de correlación— determinará si existenaltas correlaciones entre las variables y por tanto existe información redundan-te entre ellas, es decir, una misma información vista desde varios perspectivas.Cuanto mayor sea la variabilidad de los datos (varianza), más rica la informacióndisponible.

SiM D 1

n.X1 C � � � C Xn/

y OXk D Xk � M , la matriz de covarianzas es

cov.X ; Y / D 1

n

h OX1OX2 � � � OXn

i2666664

OXT1

OXT2

:::

OXTn

3777775 D 1

nBBT :

9.2 Planteamiento del problema matemático

Se trata de encontrar un subespacio de dimensión menor a p tal que al proyectarsobre él los puntos de la muestra se conserve su estructura con la menor distorsiónposible. Para ello se construye una transformación lineal que determina un nuevosistema ortogonal de coordenadas para el conjunto de datos original en el cual lavarianza de mayor tamaño de los datos define el primer eje —primer ComponentePrincipal— , la segunda varianza el segundo eje y así sucesivamente. Esto se llevaa efecto mediante la descomposición espectral de la matriz de covarianzas,

cov.X ; Y / D † D U ƒU T ;

donde U , U T U D U U T D I , es una matriz ortogonal p�p formada por los vec-tores propios correspondientes a los valores propios �1; � � � �p y ƒ D diag.�1; : : : ;

�p/.Se cumple que �1 � � � � � �p y que los Componentes Principales son los p

vectores fila de la matriz, p � n, U T B.

88

9 Análisis de componentes principales

El subespacio generado por los k primeros vectores propios es, de todos los po-sibles del espacio de dimensión p, el que mejor representa en términos de mínimoscuadrados lineales los datos originales.

Si la matriz de covarianzas de los datos es diagonal las varianzas son igualesa los valores propios de esa matriz y los vectores propios coinciden con los ejesx e y —las covarianzas son cero—. Si la matriz de covarianzas no es diagonal,la covarianzas no son cero pero los valores propios siguen indicando la magnitudde la varianza en las direcciones ortogonales de los vectores propios, de mayor amenor, que ya no coinciden con x e y. Esto se ilustra en la figura 9.5020 dondeun mismo conjunto de datos está rotado diversos ángulos para visualizar en quéconsiste la matriz de covarianzas.

Figura 9.50: Valores y vectores propios de un mismo conjunto de datos pero rota-do ángulos distintos

La matriz de covarianzas, desde el punto de vista del álgebra lineal, representauna transformación lineal. El utilizarla en estos algoritmos es como tratar de des-

20Fuente: http://www.visiondummy.com/2014/04/geometric-interpretation-covariance-matrix/.

89

9 Análisis de componentes principales

correlar los datos originales para encontrar sus componentes subyacentes o prin-cipales —llevar los datos a unos ejes donde se perciba el menor ruido posible—.

Para proceder numéricamente con este método y obtener esta transformaciónprimero se adaptan los datos originales para tratarlos según convenga. Luego deconstruye la matriz de covarianzas. A continuación, como esquematiza21 el dia-grama de bloques numéricos de la figura 9.51, se puede proceder de dos maneras:

� Se calculan los valores propios y los correspondientes vectores propios dela matriz de covarianzas. Luego se proyectan en esos vectores propios losdatos. Una versión de esta forma de actuar en Matlab sería el programapca1 de la figura 9.52.

� Se calcula la descomposición en valores singulares de Bpn

y se obtiene lasvarianzas. El programa pca2 materializa esta variante.

Como ejemplo de introducción a este análisis por componentes principales es-tudiamos los datos del cuadro 1.

X1 =Duracion media X2 =Precio medio X3 =Superficie mediahipoteca (anos) (millones euros) (m2) de cocina

1 8,7 0,3 3,12 14,3 0,9 7,43 18,9 1,8 9,04 19,0 0,8 9,45 20,5 0,9 8,36 14,7 1,1 7,67 18 8 2,5 12,68 37,3 2,7 18,19 12,6 1,3 5,910 25,7 3,4 15,9

Cuadro 1: Datos sobre pisos que promocionan diversas constructoras en España

En él se presenta información sobre pisos construidos por 10 constructorasdistintas en diversos lugares de España. Se trata de considerar sólo tres variablesX1, X2 y X3. La salida que proporciona una sesión de Matlab con los datos de latabla y los programas apuntados es la que se puede ver en la figura 9.53.

Como se puede observar en esa salida, la matriz de covarianzas de los datosestudiados es

† D2456;9685 5;1705 30;4775

5;1705 0;8941 3;647930;4775 3;6479 18;7641

35 :

Los valores propios son ƒ D diag.74;3739; 2;1580; 0;0948/.

21Fuente: http://mengnote.blogspot.com/2013/05/an-intuitive-explanation-of-pca.html.

90

9 Análisis de componentes principales

Figura 9.51: Esquema de la transformación del ACP mediante descomposición envalores propios y descomposición en valores singulares

Los componentes principales de este ejemplo sonP C1 D 0;8714X1 C 0;0853X2 C 0;4832X3;

P C2 D 0;4798X1 � 0;3542X2 � 0;8027X3 y

P C3 D �0;1026X1 C 0;9313X2 C 0;3495X3:

Los porcentajes de variabilidad que explican cada componente principal son

74;373976;6267 � 100 D 97;06 %; 2;1580

76;6267 � 100 D 2;82 % y 0;094876;6267 � 100 D 0;12 %:

Con el primer componente, y por supuesto con los dos primeros, sería suficientepara representar casi perfectamente este conjunto de datos.

91

9 Análisis de componentes principales

function [signals,PC,V] = pca1(data)% Se analizan datos por Componentes Principales% data-matriz MxN con los datos, M dimensiones y N datos% signals-matrix MxN de datos proyectados; % PC, cada componente en columna% V-Mx1 matrix de variances% [~,N] = size(data);

% subtract off the mean for each dimension mn = mean(data,2); data = data - repmat(mn,1,N);

% calculate the covariance matrix covariance = 1/N * (data * data')

% find the eigenvectors and eigenvalues [PC, V] = eig(covariance);

% extract diagonal of matrix as vector V = diag(V);

% sort the variances in decreasing order [~,rindi] = sort(-1*V); V = V(rindi); PC = PC(:,rindi);

% project the original data set signals = PC'*data;

end

function [signals,PC,V] = pca2(data)% Se analizan datos por Componentes Principales% data-matriz MxN con los datos, M dimensiones y N datos% signals-matrix MxN de datos proyectados; % PC, cada componente en columna% V-Mx1 matrix de variances% [~,N] = size(data);

% subtract off the mean for each dimension mn = mean(data,2); data = data - repmat(mn,1,N);

% construct the matrix Y Y = data'/sqrt(N);

% SVD does it all [u,S,PC] = svd(Y);

% calculate the variances S = diag(S); V = S .* S;

% project the original data signals = PC' * data;

end

Figura 9.52: Dos programas de Matlab para llevar a cabo un análisis PCA

>> datos=[1 2 3 4 5 6 7 8 9 10;8.7 14.3 18.9 19.0 20.5 14.7 18.8 37.3 12.6 25.7;0.3 0.9 1.8 0.8 0.9 1.1 2.5 2.7 1.3 3.4;3.1 7.4 9.0 9.4 8.3 7.6 12.6 18.1 5.9 15.9]

datos =1.0000 2.0000 3.0000 4.0000 5.0000 6.0000 7.0000 8.0000 9.0000 10.00008.7000 14.3000 18.9000 19.0000 20.5000 14.7000 18.8000 37.3000 12.6000 25.70000.3000 0.9000 1.8000 0.8000 0.9000 1.1000 2.5000 2.7000 1.3000 3.40003.1000 7.4000 9.0000 9.4000 8.3000 7.6000 12.6000 18.1000 5.9000 15.9000

>> [signal PC V]=pca1(datos(2:4,1:10))

covariance =56.9685 5.1705 30.47755.1705 0.8941 3.6479

30.4775 3.6479 18.7641

signal =-12.3303 -5.3219 -0.4638 -0.2687 0.5154 -4.8597 1.2482 20.0429 -7.4938 8.9318

0.8063 -0.1713 0.4326 0.5136 2.0809 -0.2107 -2.7532 1.6367 0.0756 -2.4105-0.0723 0.2971 -0.4540 0.6069 -0.0247 0.1397 0.1627 -0.0000 -0.4252 -0.2302

PC =0.8714 0.4798 -0.10260.0853 -0.3542 -0.93130.4832 -0.8027 0.3495

V =74.37392.15800.0948

>> [signal PC V]=pca2(datos(2:4,1:10))signal =

-12.3303 -5.3219 -0.4638 -0.2687 0.5154 -4.8597 1.2482 20.0429 -7.4938 8.93180.8063 -0.1713 0.4326 0.5136 2.0809 -0.2107 -2.7532 1.6367 0.0756 -2.4105

-0.0723 0.2971 -0.4540 0.6069 -0.0247 0.1397 0.1627 -0.0000 -0.4252 -0.2302

PC =0.8714 0.4798 -0.10260.0853 -0.3542 -0.93130.4832 -0.8027 0.3495

V =74.37392.15800.0948

Figura 9.53: Sesión de Matlab para analizar los datos sobre pisos construidos

92

10 Números complejos

10 Números complejos

Los números del cuerpo C de lo complejos surgen para dar sentido a raíces denúmeros negativos,

p�a2 D ˙ap�1 pues así se usan para representar modelos y

problemas en muchas áreas de la ciencia e ingeniería. Para ello se utiliza la unidadimaginaria i D p�1.

Cualquier número complejo z D x C yi , donde x es la parte real e y la ima-ginaria (ambas reales), se representa geométricamente en el plano complejo comose ve en la figura 10.54. El módulo de z, jzj D r D p

x2 C y2.

Figura 10.54: Un número en el plano complejo

Las operaciones elementales con números complejos, si z D a C ib y w Dc C id , son la suma, z C w D .a C c/ C .b C d/i y la multiplicación, zw D.ac � bd/ C i.ad C bc/. Como i � i D i2 D �1, 1

iD �i y i.�i/ D 1.

El complejo conjugado de un número complejo z D x Ciy es Nz D x �iy. Sólosi z es real se cumple que z D z. Es decir, su imagen en el espejo que define el ejex. Además, z C w D z C w, zw D z w y z D z. Estas fórmulas se extienden asumas y productos de más de don números complejos y a integrales (recordemosque son el límite de una suma de infinitos sumandos), así

Zf .t/g.t/ d t D

Zf .t/ g.t/ dt:

El cociente z=w es

z

wD a C bi

c C di

D a C bi

c C di

c � di

c � di

D .a C bi/.c � di/

c2 C d 2D .ac C bd/ C .bc � ad/i

c2 C d 2:

93

10 Números complejos

En su forma polar un número complejo se escribe22 z D rei' D r

cos ' Ci sen '

�, donde r D p

x2 C y2 y ' D arctan.y=x/.La circunferencia de radio unidad en el plano complejo es el lugar geométrico

de los números complejos con r D 1 —figura 10.55—. Si se multiplican dos

= i

e0 = 1 + 0ieiπ = –1 + 0i

y

x

iπ2e

iπ4e

Figura 10.55: Circunferencia de radio unidad en el plano complejo

números ei y ei� de esa circunferencia,

ei ei� D cos � C i sen �

�cos � C i sen �

�D cos � cos � � sen � sen � C i

sen � cos � C sen � cos �

�:

Reordenando,23 ei.C�/ D cos.� C �/ C i sen.� C �/. Por tanto, el producto dedos números complejos en la circunferencia de radio unidad es otro número de lamisma circunferencia cuyo ángulo es la suma de los dos precedentes.

Los números Moivre, z tales que zn �1 D 0, raíces n-ésimas de la unidad, porAbraham de Moivre, Francia, 1667-1754 , tienen interés:

� En la recta de números reales sólo hay dos: �1 y 1.

� En el plano complejo hay muchos. Por ejemplo, i es una raíz cuarta de 1:

i4 D�p�1

4 D .�1/2 D 1.

Están localizados en la circunferencia del plano complejo de radio la unidad: for-man los vértices de un polígono regular de n lados con un vértice en 1 como se veen la figura 10.56 para n D 5.

22A ei' D cos ' C i sen ' se la conoce como identidad de Euler23Es interesante saber que cos D ei� Ce�i�

2y sen D i e�i� �ei�

2.

94

10 Números complejos

0

+i

−i

−1 +1

Figura 10.56: Circunferencia de radio unidad en el plano complejo y números deMoivre para n D 5

Una raíz n-ésima de la unidad se denomina primitiva24 si no es una raíz k-ésima para k < n. Así, �1 es una raíz segunda primitiva de la unidad y cuarta noprimitiva de ella.

Es fácil ver que, para una n cualquiera, el número complejo !n D e�i2�=n esuna raíz n-ésima primitiva de la unidad (también lo es !n D ei2�=n).

En la figura 10.57 se ve la raíz cuarta primitiva de la unidad, !4 D e�i2�=4, ylas otras tres. También la figura anterior. Son, en general, las potencias !k

4 , k D0; 1; 2; 3.

Las !kn se denominan también factores twiddle.

Se puede verificar que la raíz n-ésima de la unidad, ! D e�i2�=n, con n > 1,cumple que

1 C ! C !2 C !3 C � � � C !n�1 D 0;

1 C !2 C !4 C !6 C � � � C !2.n�1/ D 0;

1 C !3 C !6 C !9 C � � � C !3.n�1/ D 0;

:::

1 C !n�1 C !.n�1/2 C !.n�1/3 C � � � C !.n�1/.n�1/ D 0:

24De otra manera, la raíz n-ésima de la unidad ˛ es primitiva, si sólo si sus k-ésimas potencias,k D 0; 1; : : : ; n � 1 son distintas. Las raíces cuartas de 1 son: 1, �1, i , �i . En el caso de 1 suspotencias de grado 0, 1, 2 y 3 son iguales; no es raíz primitiva. Para i , se calcula que las potencias degrado 0, 1, 2, 3 son, respectivamente, 1, i , �1, �i , distintas, luego i es una raíz cuarta primitiva de 1.

95

11 Bibliografía

...................

......................................................................

.....................................................

..........................................................................................................................................................................................................................................................................................................................................................................

...................

...................

...................

...................

...................

...................

...................

...................

...................

...................

...................

...................

...................

...................

...................

...................

...................

...................

...................

.

1 = ω04

i = ω34 = ω−1

4

ω24 = ω−2

4 = −1

−i = ω14 = ω−3

4

2π/4

ω4= 4 π/4ω4

ω3 ω =

ω0 = ω8 = 1

ω5 ω7

ω6

ω2

y

x

i2π8e

Figura 10.57: Raíz cuarta primitiva de la unidad !4 D e�i2�=4 y las otras tres; losnúmeros de Moivre para n D 8

También que

1 C !n C !2n C !3n C � � � C !n.n�1/ D 1 C 1 C 1 C 1 C � � � C 1 D n:

Además, si k es un número entero,

n�1Xj D0

!jk D(

n si k=n es entero,

0 en otro caso.

11 Bibliografía

BERTSEKAS, D.P. 2003. Convex Analysis and Optimization. Athena Scientific.

BOYD, S. Y VANDENBERGHE, L. 2004. Convex Optimization. Cambridge Uni-versity Press.

DE LA FUENTE, J.L. 1998. Técnicas de cálculo para sistemas de ecuaciones,programación lineal y programación entera. Segunda edición. Reverté.

DUOANDIKOETXEA, J. 2007. 200 años de convergencia de las series de Fourier.La Gaceta de la RSME, Vol. 10, No. 3.

FLETCHER, R. 1987. Practical methods of optimization. John Wiley & Sons,Ltd.

GANDER, M.J. Y WANNER, G. 2012. From Euler, Ritz, and Galerkin to ModernComputing. SIAM Review, Vol. 54, No. 4. Society for Industrial and AppliedMathematics.

96

11 Bibliografía

GRANÉ, A. Análisis de Componentes Principales. Departamento de Estadística,Universidad Carlos III de Madrid.

HALMOS, P.R. 1974. Finite-Dimensional Vector Spaces. Springer Verlag.

KOLMOGOROV, A.M. Y FOMIN, S.V. 1975. Introductory Real Analysis. DoverPublications.

KUHN, H.W. Y TUCKER, A.W. 1951. Nonlinear Programming. Proceedingsof the Second Berkeley Symposium on Mathematical Statistics and Probability.University of California Press. Verlag.

LAY, D.C. 2012. Álgebra lineal y sus aplicaciones. Cuarta edición. Pearson edu-cación.

LUENBERGER, D.G. 1969. Optimization by Vector Space Methods. John Wileyand Sons.

LUENBERGER, D.G. Y YE, Y. 2016. Linear and Nonlinear Programming. FourthEdition. Springer Verlag.

NOCEDAL, J. Y WRIGHT, S.J. 2006. Numerical Optimization. Springer Verlag.

PEÑA SÁNCHEZ DE RIVERA, D. 1986. Estadística. Modelos y métodos. 1. Fun-damentos. Alianza Universidad Textos.

RIAZA, R. Y ÁLVAREZ, M. 1996. Cálculo infinitesimal. Vol. I. Sociedad de Ami-gos de la Escuela Técnica Superior de Ingenieros Industriales de Madrid.

RIAZA, R. Y ÁLVAREZ, M. 1997. Cálculo infinitesimal. Vol. II. Sociedad deAmigos de la Escuela Técnica Superior de Ingenieros Industriales de Madrid.

ROCKAFELLAR, R.T. 1970. Convex Analysis. Princeton University Press.

SAUER, T. 2013. Análisis numérico. Segunda edición. Pearson educación.

SAYAS, F.J. 2015. A gentle introduction to the Finite Element Method.

WOLFE, P. 1961. A Duality Theorem for Non-Linear Programming. Quart. Appl.Math. 19, Nı 3.

97