Download - Aplicaciones de Las Representaciones Tiempo Frecuencia en El Procesamiento de Voz

MORELIA, MICHOACN ABRIL DEL 2010

INSTITUTO TECNOLGICO DE MORELIA

DIVISIN DE ESTUDIOS PROFESIONALES DEPARTAMENTO DE INGENIERA ELECTRNICA

MONOGRAFA

APLICACIONES DE LAS REPRESENTACIONES TIEMPO

FRECUENCIA EN PROCESAMIENTO DE VOZ

QUE PARA OBTENER EL TTULO DE:

INGENIERO EN ELECTRNICA

PRESENTA:

JESS VLADIMIR ALVARADO MAGDALENO

ASESOR:

M.C. JULIO CSAR HERRERA GARCA

SUBSECRETARA DE EDUCACIN SUPERIOR DIRECCIN GENERAL DE EDUCACIN SUPERIOR TECNOLGICA

INSTITUTO TECNOLGICO DE MORELIA

i

A G R A D E C I M I E N T O S

A ti pap, por haberme dado los consejos y el nimo necesario para ir viviendo

cada etapa de mi vida. Por tu enseanza de saber disfrutar y buscar las cosas

que verdaderamente son importantes en la vida.

A ti mam, por demostrarme la fuerza y el nimo incansable para hacer

siempre bien las cosas. Por la preocupacin y el nimo que nos das para

vernos volar en grande.

A ustedes Nathaly y Sofi, por la confianza y el apoyo que siempre he tenido de

su parte, por la enseanza que en ocasiones, sin querer, me brindan.

A ti Eli, por ser la persona que ha vivido ms cercano el proceso de lograr este

proyecto, por los tiempos que se sacrificaron, por el apoyo y compresin que

siempre me has dado. Te amo.

A mis amigos y compaeros de estudio, por el hecho de estar siempre cerca,

de apoyarnos mutuamente en todo.

A mis tas, Loren y Elena, que s que les hubiera encantado estar aqu, junto a

mi, pero que s que donde quiera que se encuentren estarn muy felices de

verme terminar este proceso

A toda mi familia, que siempre unida, se apoya los unos a los otros. A la familia

Alvarado Gonzlez, y la familia Magdaleno Martnez.

ii

N D I C E

RESUMEN iv OBJETIVOS v JUSTIFICACIN vi MOTIVACIN vii INTRODUCCIN 1 CAPTULO 1 CONCEPTOS DE PROCESAMIENTO DE SEALES 1.1 SEALES 2

1.1.1 Tipos de seales 3 1.1.2 Seales continuas y discretas 4 1.1.3 Sistemas discretos 6

1.2 SISTEMAS LINEALES INVARIANTES EN EL TIEMPO 6

1.2.1 Discretos 7 1.2.2 Continuos 8 1.2.3 Propiedades de los sistemas lti 10

1.3 LA TRANSFORMADA CONTINUA DE FOURIER 12

1.3.1 Representacin de seales aperidicas 13 1.3.2 La transformada de Fourier para seales peridicas 19 1.3.3 Propiedades de la transformada continua de Fourier 20

1.4 LA TRANSFORMADA DE FOURIER DE TIEMPO DISCRETO 26

1.4.1 Representacin de seales aperidicas 26 1.4.2 La transformada de Fourier de tiempo discreto para

seales peridicas 31 1.4.3 Propiedades de la transformada de Fourier de tiempo discreto 33

CAPTULO 2 CARACTERIZACIN EN TIEMPO Y FRECUENCIA 2.1 CONCEPTO DE TIEMPO FRECUENCIA 36 2.2 TRANSFORMADA DE FOURIER DE TIEMPO CORTO 39 2.3 DISTRIBUCIN WIGNER VILLE 42 2.4 TRANSFORMADA DE GABOR 47 2.4.1 Ventanas comnmente utilizadas 49 2.4.2 Ejemplo de anlisis de voz 51 2.5 TRANSFORMADA WAVELET 53

iii

CAPTULO 3 APLICACIONES DE PROCESAMIENTO DE VOZ 3.1 APLICACIONES CON MATLAB Y CSLU TOOLKIT 57 3.1.1 CSLU Toolkit 57 3.1.2 MatLab 60 3.2 APLICACIONES UTILIZANDO ESPECTROGRAMAS 64 3.2.1 Sistema de reconocimiento de voz mediante el anlisis de espectrograma. 64 3.2.2 Mtodos de identificacin usando anlisis de voz 71 3.3 APLICACIONES USANDO WAVELETS 77 3.3.1 Procedimiento y dispositivo de clasificacin de las seales

del habla. 77 3.3.2 Mtodo para la extraccin de caractersticas de seales de voz y sistema relacionado con el reconocimiento de voz. 86 3.4 APLICACIONES USANDO OTRAS DISTRIBUCIONES TIEMPO FRECUENCIA 93 3.4.1 Anlisis de palabras utilizando la transformada de Gabor. 93 3.4.2 Anlisis tiempo- frecuencia para reconocimiento de voz utilizando la distribucin Wigner Ville suavizada. 97 CONCLUSIONES 102 LISTA DE FIGURAS 104 REFERENCIAS 106

iv

R E S U M E N

En este trabajo de investigacin se vern las principales funciones matemticas

en el procesamiento de voz. Todo descrito de una manera simple y detallada,

hablando de diversos temas, desde la transformada de Fourier hasta los

mtodos que se utilizan para trabajar con el anlisis tiempo frecuencia, tales

como la transformada de Gabor y la transformada Wavelets, sus anlisis

matemticos, propiedades y la utilizacin ms frecuente que se les da a dichas

transformadas. Tambin se tendr la oportunidad de analizar diferentes tipos

de aplicaciones relacionadas con el reconocimiento de voz, los cuales utilizan

todas las herramientas descritas anteriormente.

v

O B J E T I V O S

El objetivo general de esta monografa consiste en presentar de una manera

global las aplicaciones que tiene en el mundo actual el procesamiento de voz y

conocer las herramientas matemticas necesarias para poder capturar y

procesar los sonidos.

Tambin podemos delimitar algunos objetivos particulares:

Explicar las nociones bsicas acerca del procesamiento de seales.

Explicar y analizar la Transformada, continua y discreta, de Fourier. En

cada una presentar el caso de aplicarla en seales peridicas y

aperidicas, as como sus propiedades.

Hablar sobre la caracterizacin Tiempo Frecuencia y conocer las

diferentes funciones que nos ayudan a dicha caracterizacin.

Mostrar algunas de las aplicaciones actuales de las representaciones

Tiempo Frecuencia en el tema de procesamiento de voz, cules son

sus funciones y de qu manera aplican el procesamiento de voz.

vi

J U S T I F I C A C I N

Los avances tecnolgicos en el mundo actual crecen de una manera

impresionante da a da, y las empresas de diferentes rubros se han

concentrado en realizar equipos con reconocimiento de voz. Es por eso que es

importante realizar un documento donde se estudien las bases, las funciones

matemticas y las aplicaciones que se le da a este tema. Tambin es

importante que generaciones futuras cuenten con un documento de consulta

donde se puedan informar del avance tecnolgico y los pasos que ha tomado

el reconocimiento de voz.

vii

M O T I V A C I N

Se eligi este tema debido al gran inters de mi parte hacia todo lo nuevo que

nos presenta la tecnologa, en especial en el campo de lo acstico, incluyendo

voz y msica. Me interes porque es un tema actual, con aplicaciones en

diversos sistemas para diferentes fines, desde un telfono celular, hasta un

sistema de seguridad para casa o empresa. Un tema que da a da ir

evolucionando y que los interesados en l tendremos que actualizarnos

constantemente.

1

I N T R O D U C C I N

En este tiempo en el que la carrera tecnolgica avanza cada vez a pasos

ms agigantados, es indispensable que las personas y profesionistas que

pertenecen al mundo de la tecnologa, se mantengan al da y actualizados con

los diferentes procesos y proyectos que se desarrollan da a da alrededor del

mundo.

Los procesos en los que el ser humano puede ser capaz de controlar

diferentes dispositivos mediante la voz han tomado un auge importante en los

ltimos aos, debido a que es muy extensa la lista de cosas que se pueden

hacer con tales desarrollos. Solo hay que observar con cuidado a nuestro

alrededor para saber que la industria del procesamiento de voz es cada vez

ms extensa, se pueden controlar los equipos de comunicacin mvil mediante

el uso de la voz, se le puede hacer dictados a las computadora para evitar

usar el teclado, se puede tener un sistema de seguridad en el hogar o en la

industria que se base en el reconocimiento de voz.

Todas estas aplicaciones se basan en un principio: poder procesar la

voz. Este proceso comienza desde el momento en que se captura los datos,

aplicar diferentes frmulas y aplicaciones matemticas para poder conocer los

datos importantes de la voz, tales como frecuencia, duracin, separacin de

palabras.

En esta investigacin se tomarn los temas acerca de la relacin tiempo

frecuencia y las herramientas matemticas que nos ayudan a obtener la

informacin necesaria acerca del sonido y su procesamiento.

Captulo 1. Conceptos de Procesamiento de Seales

APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 2

CAPTULO 1. CONCEPTOS DE PROCESAMIENTO DE SEALES

1.1 SEALES

Los conceptos de seales [22], surgen de una gran variedad de eventos. La

obtencin, representacin e interpretacin de dichas seales juegan un papel

trascendental en la ciencia y tecnologa, incluyendo todas sus ramas como las

comunicaciones, la electrnica, la acstica, la sismologa, el diseo de circuitos

y equipos, la ingeniera biomdica y el procesamiento de voz entre otros.

Aunque las seales pueden representarse de diferentes maneras, en todos los

casos la informacin de una seal est contenida en un patrn de variaciones

que representan una forma determinada [5]. Por ejemplo, si tomamos el circuito

de la figura 1.1, las seales que obtendramos seran los patrones que tiene la

variacin en el tiempo de los voltajes Vs y Vc [1]; otro ejemplo podra ser la voz

humana, ya que aqu encontramos dos variables, la frecuencia y el tiempo, las

cuales se representaran de la forma ilustrada en la figura 1.2

Fig. 1.1 Circuito RC sencillo con voltaje en la fuente Vs y voltaje del capacitor Vc [4].

Fig. 1.2 Representacin grfica de una palabra en funcin del tiempo [2].



1.1.1 Clasificacin de las seales [21]

Existen cuatro tipos de seales:

Analgicas

Digitales

Muestreadas

Cuantizadas

Clasificacin de seales de acuerdo a su duracin:

Causales

Anticausales

No causales

Continuas

Peridicas

Clasificacin de seales basadas en simetras

Simetra Par

Simetra Impar

Asimtrica



Clasificacin de seales basadas en Energa y Potencia

Seales de Energa

Seales de Potencia

Ejemplos de seales

Escaln unidad

Rampa

Pulso

Triangular

Sinc

Impulso

1.1.2 Seales Continuas y Discretas

En las seales continuas la variable independiente tiene un valor determinado

para cada momento del tiempo, por lo tanto se puede definir para una sucesin

continua de puntos de la variable independiente [22]. Por ejemplo, en la figura

1.3 se tiene un ejemplo tpico del tiempo de carga de un capacitor en un circuito

RC.



Fig. 1.3 Perfil tpico del tiempo de carga de un capacitor.

En las seales discretas la variable independiente solamente se encuentra

definida en tiempos discretos y, por lo tanto, para estas seales la variable

independiente solamente toma valores discretos. La densidad de poblacin con

respecto a cada una de las ciudades del pas y la seal de voz como funcin

del tiempo son ejemplos de seales discretas [22]. Otros ejemplos seran: el

ndice semanal de la Bolsa Mexicana de Valores, ingreso promedio de las

familias en una ciudad, el ndice de criminalidad por ciudad.

Para diferencias a las seales continuas de las discretas en una grfica, se

utiliza el smbolo t para denominar a la variable independiente continua y n para

denominar a la variable independiente discreta [21].

1.1.3 Sistemas Discretos

Un sistema es una transformacin aplicada a una seal de entrada x) para

obtener una seal de salida y [5]. A dicha transformacin se le denomina

funcin de transferencia, y habitualmente se representa mediante una T. Los



sistemas discretos son aquellos que trabajan con seales discretas. En la

figura se muestra el diagrama de bloques de este tipo de sistemas.

Fig. 1.4 Diagrama de Bloques. Sistema Discreto [22].

1.2 SISTEMAS LINEALES INVARIANTES EN EL TIEMPO (LIT )

Las propiedades bsicas de los sistemas de seales, como la linealidad y la

invariancia en el tiempo tienen una importancia muy grande en el anlisis de

las seales y sistemas, por dos razones [11]. La primera, demasiados procesos

fsicos poseen stas mismas propiedades, por lo que pueden modelarse como

sistemas lineales e invariantes en el tiempo (LIT). Adems es importante decir

que los sistemas LIT se pueden analizar con mucho detalle para proporcionar

el conocimiento de sus propiedades, as como un conjunto de variadas

herramientas que forman el ncleo del anlisis de seales y sistemas [12].

1.2.1 LIT DISCRETOS (SUMA DE CONVOLUCIN)

La idea de visualizar cmo el impulso unitario discreto se puede utilizar para

construir cualquier seal discreta consiste en pensar en una seal discreta

como una sucesin de impulsos individuales.



Suponiendo un sistema LIT cualquiera con las propiedades citadas, como se

muestra en la figura 1.4, se cumple la expresin [22].

=

=

Ec. 1.1

Por la propiedad de la linealidad se obtiene:

=

Ec. 1.2

Y ahora considerando

= respuestaalimpulsounitario

Se puede representar la funcin de transferencia del sistema como:

= =

Ec. 1.3



La funcin de transferencia de un sistema LIT podr ser formulado mediante su

respuesta el impulso, representada por h(n). Y la operacin mostrada en la

ecuacin, que relaciona dicha respuesta al impulso y la entrada al sistema, se

le atribuye el nombre de suma de convolucin [22].

1.2.2 LIT CONTINUOS (INTEGRAL DE CONVOLUCIN)

Como se vio en el sistema discreto, la clave para el desarrollo de la suma de

convolucin fue la propiedad de representar matemticamente una seal como

la superposicin de funciones impulso unitario escaladas y desplazadas. En el

caso de los LIT continuos no existe una secuencia discreta de valores de

entrada [23]. Sin embargo, al pensar en el impulso unitario como la idealizacin

de un pulso tan corto que su duracin no tiene consecuencias en un sistema

fsico real, se puede realizar y desarrollar una representacin para seales

continuas arbitrarias en trminos de stos pulsos idealizados con una duracin

pequea que tiende a desaparecer [12].

Para esta seccin tomamos como base una seal &' que representa a la suma de versiones escaladas y desplazadas de la seal pulso bsico ), por lo tanto la respuesta &' de un sistema lineal a esta seal ser la superposicin de las respuestas a las versiones escaladas y desplazadas de

) [22]. Se define a *' como la respuesta de un sistema LIT a la entrada ' .



Entonces, suponiendo un sistema lineal de tiempo continuo, vemos que:

&' = *' Ec. 1.4

Dado que el pulso ' corresponde a un impulso unitario desplazado conforme 0, la respuesta *' a este pulso de entrada se convierte en la respuesta a un impulso en el lmite. Por lo tanto, se hace ,' denote la respuesta en el tiempo t a un impulso unitario ' - localizado en el tiempo -, entonces

' = lim. '

Ec. 1.5

[22] Conforme 0, la sumatoria del lado de derecho se convierte en una integral, por tanto,

' = 0 -,'1- Ec. 1.6

Quitando el subndice y definiendo la respuesta al impulso unitario h(t) como

' = .' Ec. 1.7



Es decir, h(t) es la respuesta a '. En este caso la ecuacin se vuelve:

' = 0 -' -1- Ec. 1.8

A sta ecuacin se le conoce como integral de convolucin , y corresponde a

la representacin de un sistema LIT continuo en trminos de su respuesta a un

impulso unitario [5]. La convolucin de dos seales x(t) y h(t) se representa

simblicamente como

' = ' ' Ec. 1.9

1.2.3 Propiedades de los sistemas LIT

Los sistemas LIT tiene varias propiedades que no poseen otros sistemas, en

esta seccin se explorarn algunas de las ms importantes y bsicas de estas

propiedades, las cuales se separan en discretas y continuas para poder

observar cada uno de los tipos de LIT por separado [11].

Propiedad Conmutativa

Una propiedad bsica de la convolucin tanto continua como discreta,

consiste en que es una operacin conmutativa.



Caso discreto:

= =

Ec. 1.10

Caso continuo:

' ' = ' ' = 0 -' -1- Ec. 1.11

Propiedad Distributiva

Otra propiedad bsica de la convolucin es la propiedad distributiva. La

convolucin se distribuye a travs de la adicin [21].

Caso Discreto:

2 + 4 = 2 + 4 Ec. 1.12

Caso Continuo:

' 2' + 4' = ' 2' + ' 4' Ec. 1.13



Propiedad asociativa

Otra propiedad importante y til de la convolucin es la asociativa [22].

Caso Discreto:

2 4 = 2 4 Ec. 1.14

Caso Continuo:

' 2' 4' = ' 2' 4' Ec. 1.15

1.3 LA TRANSFORMADA CONTINUA DE FOURIER

La representacin de seales no peridicas se puede lograr mediante una

combinacin lineal de exponenciales complejas [12]. Mientras que para las

seales peridicas las exponenciales complejas que las constituyen estn

relacionadas armnicamente, para las seales aperidicas estn

infinitesimalmente cercanas en frecuencia, y la representacin en trminos de

una combinacin lineal adopta la forma de una integral, en lugar de una suma.

El espectro de coeficientes resultante en esta representacin se conoce como

transformada de Fourier, y la integral de sntesis por s misma, la cual usa

estos coeficientes para representar la seal como una combinacin lineal de

exponenciales complejas, se llama la transformada inversa de Fourier [11].



1.3.1 Representacin de seales aperidicas

Para tener una idea sobre le representacin de la transformada de Fourier,

comenzaremos por definir la representacin de la transformada de Fourier de

una onda peridica cuadrada continua sobre un periodo de tiempo [5].

' = 5 1,|'| < 20,2 < |'| < 2

Para esta forma, los coeficientes de la serie de Fourier ; para esta onda cuadrada son

; = 2.2>? Ec. 1.16

donde >. = 4@A . Una forma alternativa de representar la ecuacin 1.16 es en forma de muestras de una funcin envolvente, resultando

; = 2



independiente de T [22]. Se deduce que a medida que T se incrementa, o a

medida que la frecuencia fundamental B. = 2F/ disminuye, la envolvente se muestrea con un espaciamiento cada vez ms estrecho. Por otro lado,

conforme T incrementa, la onda cuadrada peridica original se aproxima a un

pulso rectangular. As mismo, los coeficientes de la serie de Fourier,

multiplicados por T, resultan en muestras de la envolvente con un

espaciamiento cada vez ms estrecho; de alguna manera el conjunto de

coeficientes de la serie de Fourier se aproxima a la funcin de la envolvente a

medida que [11].

Este ejemplo muestra la idea bsica que permiti a Fourier el desarrollo de una

representacin para seales aperidicas. En forma especfica, se piensa en

una seal aperidica como el lmite de una seal peridica cuando el periodo

se hace excesivamente grande, y se examina el comportamiento limitante de la

representacin de la serie de Fourier para esta seal [23]. Ahora se considera

una seal x(t) con duracin finita, para un nmero de 2, ' = 0



Fig. 1.5 (a) Seal aperidica x(t) (b) Seal peridica &' construida para que sea igual a x(t) en un periodo [22].

Se examina ahora el efecto de esto sobre la representacin en serie de Fourier

de &', sobre el intervalo /2 K ' K /2 tenemos

&' ;=LCD)

Ec.1.18

; 1 0&'A4

A4

=LCD)1'

Ec. 1.19

donde B. 2F/ [11]. Ya que &' ' para |'| 9 /2, y tambin, ya que x(t)=0 fuera de dicho intervalo, la ecuacin 1.19 se puede escribir como



; = 1 0 'A/4

A/4=LCD)1' = 1 0 '=LCD)1'

Ec. 1.20

Por lo tanto, se define la envolvente MNB de ; como

MNB = 0 '=LCD)1'

Ec. 1.21

Tenemos para los coeficientes ;,

; = 1MNB. Ec. 1.22

Combinando las ecuaciones 1.22 y 1.18 se puede expresar en trminos de

MNB como



&' = 1 MNB.

=LCD)

Ec. 1.23

O de manera equivalente, ya que 4@A B.,

&' 12F MNB.=LCD)

B.

Ec. 1.24

Cuando , &' se aproxima a ' y en consecuencia, la ecuacin 1.24 en el lmite se convierte en una representacin de ' [22]. Adems, B. 0 conforme , y el miembro derecho de la ecuacin 1.24 se vuelve una integral. Esto se puede ver al considerar la interpretacin grfica de la ecuacin

que se muestra en la figura 1.6.

Fig. 1.6 Representacin grfica de la ecuacin 1.24 [22].



Cada trmino en la sumatoria en el miembro derecho es el rea de un

rectngulo de altura MNB.=LCD) y ancho B.. Conforme B. 0, la sumatoria converge a la integral de MNB=LC). Por lo tanto, como &' ' conforme , se puede ver que las ecuaciones 1.24 y 1.21 se convierten respectivamente [5].

' = 12F 0 MNB=LC)1B

Ec. 1.25

MNB = 0 '=LC)

1' Ec. 1.26

Las ecuaciones 1.25 y 1.26 son conocidas como el par de transformadas de

Fourier cuya funcin MNB se conocer como transformada de Fourier o integral de Fourier de x(t), y la ecuacin 1.25 como la ecuacin de la transformada

inversa de Fourier [12]. La ecuacin, en las seales aperidicas, representan la

seal como una combinacin lineal de exponenciales complejas. La

transformada MNB de una seal aperidica ' se conoce comnmente como el espectro de ', ya que nos proporciona la informacin necesaria para describir a ' como una combinacin lineal de seales senoidales a diferentes frecuencias.



1.3.2 LA TRANSFORMADA DE FOURIER PARA SEALES PERI DICAS

En la seccin anterior se desarroll la representacin de la transformada de

Fourier, ah se enfoc sobre todo en las seales aperidicas, pero se pudo

tambin desarrollar las representaciones de la transformada de Fourier para

seales peridicas. Se puede construir de forma directa la transformada de

Fourier de una seal peridica a partir de su representacin en serie de

Fourier. La transformada resultante consistir en un tren de impulsos en el

dominio de la frecuencia, con las reas de los impulsos proporcionales a los

coeficientes de la serie de Fourier [22].

Se considera una seal ' con transformada de Fourier MNB que consiste en un solo impulso de rea 2F en B = B.; esto es,

MNB = 2FB B. Ec. 1.27

Para determinar la seal ' de la cual sta es la transformada de Fourier podemos aplicar la relacin de la transformada inversa, ecuacin 1.25, para

obtener

' = 12F 0 2FB B.=LC)1B

Ec 1.28



De manera ms general, si MNB es de la forma de una combinacin lineal de impulsos igualmente espaciados en frecuencia, esto sera

MNB = 2F;B B. Ec. 1.29

Entonces la aplicacin de la ecuacin 1.25 nos da

' = ;=LCD) Ec. 1.30

Vemos que la ecuacin 1.30 corresponde exactamente a la representacin de

la serie de Fourier de una seal peridica. Por lo tanto, la transformada de

Fourier de una seal peridica con coeficientes de la serie de Fourier ; se pueden interpretar como un tren de impulsos que ocurren a las frecuencias

relacionadas armnicamente y para las cuales el rea del impulso en la kesima

frecuencia armnica B. es 2F veces el k-simo coeficiente de la serie de Fourier ; [11].

1.3.3 PROPIEDADES DE LA TRANSFORMADA CONTINUA DE F OURIER

En esta seccin se consideran varias propiedades de la transformada de

Fourier. Las propiedades de la transformada de Fourier proporcionan un gran

conocimiento acerca de la transformada y de la relacin que existe entre las



descripciones de una seal en los dominios del tiempo y de la frecuencia [12].

Adems, la mayora de estas propiedades son tiles para reducir la

complejidad en la evaluacin de las transformadas o de las transformadas

inversas de Fourier. Existe mucha relacin entre las representaciones de la

serie de Fourier y de la transformada de Fourier de una seal peridica, por lo

tanto, haciendo uso de esta relacin es posible trasladar muchas de las

propiedades de las transformadas de Fourier hacia las propiedades

correspondientes de las series de Fourier [23].

Durante el anlisis de las propiedades, se remitir con frecuencia a funciones

de tiempo y sus transformadas de Fourier, por lo cual se usar una notacin

sinttica para indicar la relacin entre una seal y su transformada. Una seal

' y su transformada de Fourier MNB estn relacionadas mediante las ecuaciones de sntesis (Ec. 1.25) y de anlisis (Ec. 1.26) de la transformada de

Fourier [11].

' = 12F 0 MNB=LC)1B

Ec. 1.31

MNB = 0 '=LC)

1' Ec. 1.32

Tambin se podr aludir a MNB mediante la notacin O|'| y a ' con la notacin de O2|MNB|. Tambin se referir a ' y MNB como un par de transformadas de Fourier mediante la notacin:



' PMNB Linealidad [22]

Si

' PMNB y

' PRNB entonces

;' + S' P;MNB + SRNB Ec. 1.33

Desplazamiento del tiempo [11]

Si

' PMNB Entonces

' '. P=LC)DMNB Ec. 1.34

Para establecer esta propiedad se considera la ecuacin 1.31:

' = 12F 0 MNB=LC)1B

Reemplazando t con ' '. en esta ecuacin, se obtiene: ' '. = 12F0 MNB

=LC))D1B



= 12F0 =LC)DMNB =LC)1B

Se reconoce en sta como la ecuacin de sntesis para ' '., se concluye que

O' '. = =LC)DMNB

Una consecuencia de la propiedad de desplazamiento es que una seal

que es desplazada en tiempo, no tendra alterada la magnitud de su

transformada de Fourier [22]. Por lo tanto, un efecto de un

desplazamiento en el tiempo de una seal es introducir en su

transformada un desplazamiento de fase, esto es, B'., la cual es una funcin de B.

Diferenciacin e integracin

Sea ' una seal con una transformada de Fourier MNB. [23] Entonces, al diferenciar ambos miembros de la ecuacin de sntesis (Ec.

1.31) de la transformada de Fourier, se obtiene:

1'1' = 12F0 NBMNB=LC)1B

Por tanto



1'1' P NBMNB Ec. 1.35

sta es una propiedad de particular importancia, ya que reemplaza la

operacin de diferenciacin en el dominio del tiempo con la de

multiplicacin por NB en el dominio de la frecuencia.

Escalamiento de tiempo y frecuencia [22]

Si

' PMNB

Entonces

;' P 1|;| MNB; Ec. 1.36

Donde ; es una constante real. Esta propiedad se obtiene directamente de la definicin de la transformada de Fourier. Especficamente,

OT;'U = 0 ;' =LC)1'

Usando la sustitucin de variables - = ;', se obtiene:



OT;'U =VWXWY1; 0 -=LZC[\,1-,; > 0

1;0 -=LZC[\,1-,; > 0

La cual corresponde a la ecuacin 1.36. Entonces, adems del factor de

amplitud de 1/|;|, el escalamiento lineal en tiempo por un factor a corresponde a un escalamiento lineal en frecuencia por un factor 1/;, y viceversa.

Tambin, considerando que ; = 1, en la ecuacin 1.36 se tiene:

' PMNB Ec. 1.37

Esto es, al invertir una seal en el tiempo tambin se invierte su

transformada de Fourier.

Un ejemplo de la ecuacin 1.36 es el efecto en el contenido de la

frecuencia que resulta cuando una cinta de audio se graba a una

velocidad y se reproduce a diferente velocidad. Si la velocidad de

reproduccin es mayor que la velocidad de grabacin, corresponde a

una compresin en tiempo (; > 1), entonces el espectro se expande en frecuencia y el efecto auditivo consiste en que las frecuencias de la

reproduccin son ms altas [12]. De manera contraria, la seal tendr



frecuencias ms bajas si la velocidad de reproduccin es ms lenta que

la velocidad de grabacin (0 < ;).

La propiedad de escalamiento es un ejemplo de la relacin inversa entre

el tiempo y la frecuencia. Por ejemplo, conforme se incrementa el

periodo de una seal senoidal, disminuimos su frecuencia [11].

La relacin inversa entre el dominio del tiempo y de la frecuencia es de

gran importancia dentro de una amplia variedad de contextos de seales

y sistemas, incluyendo el filtrado y diseo de filtros.

1.4 LA TRANSFORMADA DE FOURIER DE TIEMPO DISCRETO

En las secciones anteriores se pudo ver que existen muchas similitudes y un

marcado paralelismo en el anlisis de las seales continuas y discretas, pero

tambin se observ que existen diferencias importantes, por ejemplo, la

representacin en serie de Fourier de una seal peridica discreta es una serie

finita, opuesta a la representacin en serie infinita requerida para las seales

peridicas continuas [22].

Existen diferencias que son correspondientes en las transformadas de Fourier

continua y de tiempo discreto.



1.4.1 Representacin de seales aperidicas

En la seccin 1.3.1 se estableci que los coeficientes de la serie de Fourier

para una onda cuadrada peridica continua se pueden considerar como las

muestras de una funcin envolvente y que, conforme el periodo de la onda

cuadrada se incrementa, estas muestras llegan a estar cada vez ms cercanas

unas de otras [11]. Esta propiedad sugiri la representacin para una seal

aperidica ' construyendo primero una seal peridica ]' que igualara a ' sobre un periodo. Entonces conforme este periodo se aproximaba a infinito ]' era igual a ' sobre intervalos de tiempo cada vez ms grandes, y la representacin en serie de Fourier para ]' se aproximaba a la representacin de la transformada de Fourier de ' [22]. Ahora se aplicar un procedimiento anlogo a las seales discretas para desarrollar la representacin de la

transformada de Fourier para secuencias aperidicas discretas.

Se considera una secuencia general ^_ que tiene duracin finita. Esto es, para algunos enteros 2 y 4, ^_ = 0 fuera del intervalo 2 4. En la figura (a) se muestra una seal de este tipo [23]. A partir de esta seal

aperidica podemos construir una secuencia peridica ] para la cual ^_ sea un periodo, como se ilustra en la figura (b). Cuando se hace que el periodo

sea ms grande,] es idntica a ^_ sobre un intervalo ms grande, y conforme ` , ] = para cualquier valor finito de n.



Fig. 1.7 (a) Seal x[n] de duracin finita. (b) seal peridica ] construida para que sea igualada a x[n] en un periodo [22].

Se examina la representacin en serie de Fourier de ], se tiene:

] = ;=LZ4@a \ba Ec. 1.38

; = 1` ]=LZ4@a \bba Ec. 1.39

Puesto que ] sobre un periodo que incluye el intervalo 2 K K 4, es conveniente seleccionar un intervalo de la sumatoria en la ecuacin 1.39

que incluya este intervalo, de manera que ] pueda reemplazarse por x[n] en la sumatoria [11]. Por lo tanto,

; 1` =LZ4@a \b

ac

bad 1` =

LZ4@a \b

b



Ec. 1.40

donde en la segunda igualdad nos hemos valido del hecho de que x[n] es cero

fuera del intervalo 2 4. Definiendo la funcin

Me=LCf = =LCbb

Ec. 1.41

Se puede observar que los coeficientes ; son proporcionales a las muestras de M=LC, es decir,

; = 1 M=LCD Ec. 1.42

Donde B. = 2F/` es el espaciamiento de las muestras en el dominio de la frecuencia [22]. Al combinar las ecuaciones 1.38 y 1.42 se obtiene

] = 1 M=LCD

a

=LCDb Ec. 1.43

Ya que B. = 2F/` o de manera equivalente, 1/N = B./2F, la ecuacin 1.43 se puede reescribir como

] = 12F M=LCD=LCDbB.a Ec. 1.44



Conforme N aumenta, B. disminuye, y conforme ` la ecuacin 1.44 se vuelve una integral. Para ver esto ms claramente, se considera que se

representa M=LC=LCb como el trazo de la figura 1.8. De la ecuacin 1.41 se puede ver que M=LC es peridica en B con periodo 2F y tambin lo es =LCb. Entonces el producto M=LC=LCb tambin ser peridico [12].

Fig. 1.8 Representacin grfica de la ecuacin 1.44 [22].

Como hemos representado en la figura, cada trmino en la sumatoria de la

ecuacin 1.44 representa el rea de un rectngulo de altura M=LCD=LCDb y ancho B.. A medida que B. 0, la sumatoria se vuelve una integral. Debido a que la sumatoria se realiza sobre N intervalos consecutivos de ancho

B. 2F/`, el intervalo total de integracin siempre tendr un ancho de 2F [23]. Por lo tanto, medida que ` , ] , y la ecuacin 1.44 se convierte en

12F0 M=LC=LCb1B4@



donde, debido a que M=LC=LCb es peridica con periodo 2F, el intervalo de integracin se puede tomar como cualquier intervalo de longitud 2F [12] . Se tiene as el siguiente par de ecuaciones:

= 12F0 M=LC=LCb1B4@ Ec. 1.45

Me=LCf = =LCbb

Ec. 1.46

Las ecuaciones (1.45) y (1.46) son la contraparte discreta de las ecuaciones de

(1.25) y (1.26). La funcin M=LC so conoce como la transformada de Fourier de tiempo discreto y el par de ecuaciones se conocen como el par de

transformada de Fourier. La ecuacin 1.45 es la ecuacin de sntesis y la

ecuacin 1.46 es la ecuacin de anlisis [22]. La ecuacin de sntesis es una

representacin de x[n] como una combinacin lineal de exponenciales

complejas muy cercanas en frecuencia y con amplitudes Me=LCfgC4@. Es por esto, igual que en el caso continuo, que regularmente se hace referencia a la

transformada Me=LCf como el espectro de x[n], ya que proporciona la informacin acerca de cmo x[n] est compuesta de exponenciales complejas

a frecuencias diferentes.



1.4.2 LA TRANSFORMADA DE FOURIER DE TIEMPO DISCRETO PARA

SEALES PERIDICAS.

Como en el caso continuo [11], las seales peridicas discretas se pueden

incorporar dentro del marco de referencia de la transformada de Fourier de

tiempo discreto cuando se interpreta la transformada de una seal peridica

como un tren de pulsos en el domino de la frecuencia. Para deducir la forma de

esta representacin, se considera la seal

= =LCDb Ec. 1.47

En el caso continuo se vio que la transformada de Fourier de =LCD) se puede interpretar como un impulso en B = B.. Por lo tanto, se espera que resulte el mismo tipo de transformada para la seal discreta de la ecuacin 1.47. Sin

embargo, la transformada de Fourier de tiempo discreto debe ser peridica en

B con periodo de 2F [22]. Esto nos seala entonces que la transformada de Fourier de x[n] en la ecuacin 1.47 debe tener impulsos en B., B. 2F, B. 4F y as sucesivamente.

Esto nos da la transformada de Fourier de x[n] como un tren de impulsos que

se muestra en la figura 1.9

Me=LCf = 2FB B. 2Fjk Ec. 1.48



Fig. 1.9Transformada de Fourier de = =LCDb [22].

Se observa que cualquier intervalo de longitud 2F incluye exactamente un impulso en la sumatoria expresada en la ecuacin 1.48.

1.4.3 PROPIEDADES DE LA TRANSFORMADA DE FOURIER DE TIEMPO

DISCRETO

Justo como ocurre con la transformada continua de Fourier, existen una gran

variedad de propiedades de la transformada de Fourier de tiempo discreto, esto

proporciona un mayor conocimiento de la transformada, lo cual es muy til

conocer para reducir la complejidad de la evaluacin de las transformadas y las

transformadas inversas [23]. Es importante conocer que existe una estrecha

relacin entre la serie de Fourier y la transformada de Fourier, por lo cual

muchas propiedades de la transformada se derivan de las propiedades

correspondientes de la serie de Fourier de tiempo discreto.

Es conveniente utilizar una notacin especfica para indicar el par de una seal

y su transformada. Esto es,

Me=LCf OTU O2lM=LCm



PM=LC Periodicidad de la transformada de Fourier de tiemp o discreto

Como se analiz anteriormente, la transformada de Fourier de tiempo

discreto siempre es peridica en B con un periodo 2F; es decir, Me=LCn4@f = M=LC

Ec. 1.49

Esta expresin contrasta con la transformada continua de Fourier, la

cual en general es no peridica [11].

Linealidad de la transformada de Fourier [12]

Si

2 PM2=LC Y

4 PM4=LC Entonces

;2 + S4 P;M2e=LCf + SM4=LC Ec. 1.50

Desplazamiento de tiempo y desplazamiento de frecue ncia [22]

Si

PM=LC Entonces



. P =LCbDMe=LCf Ec. 1.51

Y

=LCDb PM=LCCD Ec. 1.52

La ecuacin 1.51 se puede obtener mediante la sustitucin directa de

. en la ecuacin de anlisis (1.46), mientras que la ecuacin 1.52 se deduce al sustituir M=LCCD en la ecuacin de sntesis (1.45).

Captulo 2. Caracterizacin en tiempo y frecuencia


CAPTULO 2. CARACTERIZACIN EN TIEMPO Y FRECUENCI A

Los campos de aplicacin de las representaciones Tiempo Frecuencia son

cada vez ms amplios, pues se ha comprobado que mejoran los resultados de

los mtodos espectrales y temporales clsicos al ser capaces de reflejar

cambios en frecuencia con respecto al tiempo (transitorio espectrales), cosa

que en un anlisis espectral clsico no se puede detectar, por lo que la

clasificacin o deteccin de determinadas propiedades de la seal analizada se

mejora [6]. Anlogamente, los mtodos basados en caractersticas temporales

no consiguen detectar caractersticas esenciales de la seal que son las que

muestran con certeza su naturaleza. Por ello, un uso combinado de ambos

dominios resulta en el aprovechamiento de caractersticas tiles presentes en

ambos dominios para as realizar diagnsticos ms fiables [10]. Inicialmente se

aplic en la deteccin por radar y reconocimiento del habla, pero hoy en da se

aplica en casi todos los campos de tratamiento digital de seales.

2.1 CONCEPTO DE TIEMPO - FRECUENCIA

Especificar la representacin en dominio del tiempo o de la frecuencia a una

seal cualquiera, no es necesariamente el primer paso de un anlisis tiempo

frecuencia. De hecho, las limitaciones de estas representaciones pueden

obstaculizar en gran medida nuestra comprensin de las propiedades de la

seal [23]. En una seal musical, el odo humano la interpreta como una serie

de notas, una serie de tomos de sonido apareciendo a determinados



tiempos, cada nota tiene una duracin finita y determinada altura (la frecuencia

del tono). Si la seal contiene una nota, por ejemplo LA, una representacin de

Fourier de la seal mostrar un pico en la frecuencia correspondiente, sin

ninguna indicacin de la duracin. La msica generalmente se representa en

una partitura. Y se sabe que la relacin tiempo frecuencia es precisamente la

informacin que est codificada en la notacin musical (Ver Fig. 2.1). Por ello,

se puede decir que la notacin musical es el prototipo de la representacin

tiempo frecuencia de las seales [30].

Fig. 2.1. Partitura de un arpegio [23].

(a)

(b)

Fig. 2.2. Seal (a) y Espectro de Fourier (b) del arpegio [23].



Fig. 2.3. Representacin Tiempo Frecuencia del arpegio [23].

Cuando la seal mostrada en la Fig. 2.1 es tocada con algn instrumento como

una flauta, es difcil de detectar su estructura matemtica De hecho, la

representacin grfica de la seal y su espectro de Fourier (Fig. 2.2) no son

capaces de revelar dicha estructura [7]. Por el contrario, el hecho de que es un

arpegio es mucho ms claro en una representacin tiempo frecuencia como

la representada en la Fig. 2.3, en la cual el tiempo y la frecuencia se

representan simultneamente. Se puede ver claramente que la representacin

tiempo frecuencia de la seal se localiza alrededor de cierto nmero de

puntos, y es posible asociar dichos puntos con las notas individuales (o sus

armnicos). Tambin se puede seguir la evolucin de la frecuencia

fundamental de la seal [23]. En la Fig. 2.3 se observa que la seal sigue una

curva que corresponde con la partitura de la Fig. 2.1.

En este captulo se hablar de algunos mtodos matemticos usados en la

representacin tiempo frecuencia de seales, tambin es necesario

mencionar alguno de las caractersticas principales de las representaciones

tiempo frecuencia,



No existe un solo mtodo para la representacin tiempo frecuencia:

Existen diferentes maneras de describir el contenido tiempo

frecuencia de una seal.

Para una determinada representacin tiempo frecuencia, es imposible

lograr una localizacin tiempo frecuencia perfecta. Debido al principio

de incertidumbre de Heisenberg. Esto significa que siempre se debe

suponer un pequeo error entre la localizacin del tiempo y la

localizacin de la frecuencia [8].

2.2 TRANSFORMADA DE FOURIER DE TIEMPO CORTO (STFT)

Como primera aproximacin a las transformadas tiempo frecuencia, una

posibilidad consiste en analizar la seal con transformadas de Fourier de

tiempo corto. As, tomando pequeas ventanas de la seal se apreciar que la

distribucin espectral de cada una de ellas vara con el tiempo, pudiendo

conocer con ms precisin la evolucin de las componentes espectrales [15].

La transformada corta de Fourier ha sido muy utilizada en diferentes

aplicaciones debido a su sencillez de implementacin, pero dada su baja

resolucin espectral y temporal se tiende a dejar de utilizarla a favor de otros

mtodos. Es empleada frecuentemente para el anlisis de voz, y en el campo

de las seales biomdicas para deteccin de FV [10].

Si para una seal de larga duracin se toman pequeos tramos de ella

realizando un enventanado, y se calcula la transformada de Fourier de ese



tramo, podremos conocer las componentes frecuenciales de cada tramo en una

ventana de tiempo pequea. As, analizando cada transformada de Fourier se

observa el cambio de dichas componentes frecuenciales [18]. La transformada

de Fourier de tiempo corto se define como:

, = [ ]

Ec. 2.1

La eleccin del tamao de la ventana es crtica a la hora de obtener buena resolucin. Si lo que se desea es obtener una resolucin grande en el dominio

temporal elegiremos una ventana de poca longitud, en cambio, la distribucin

espectral estar muy dispersa y no podremos conocer con exactitud sus

componentes. Por el contrario, la eleccin de una ventana grande nos mostrar

con ms precisin las componentes en frecuencia, pero se perder la idea del

momento en que se produjeron cada una de ellas [30].

La ventana de anlisis que se haya escogido para trabajar suprime a toda la

seal fuera de sta, el resultado es un espectro local alrededor de t.

Se toma como ejemplo la palabra GABOR, la cual se muestra su grfica de

tiempo y su densidad espectral de energa en la Fig. 2.4.



Fig 2.4. Seal de voz correspondiente a la palabra GABOR. Seal en el tiempo y su densidad

espectral de energa [6].

En la Fig. 2.4 se puede observar que existen componentes principales a

diferentes frecuencias, pero no se puede especificar en que momento

ocurrieron [6].

Despus de utilizar la Transformada de Fourier de Tiempo Corto, se grafica la

magnitud al cuadrado utilizando una ventana de anlisis de Hamming de 85

puntos. El resultado se muestra en la Fig. 2.5.



Fig. 2.5. Seal de voz analizada en el plano tiempo frecuencia [6].

En la Fig. 2.5. se puede observar un primer patrn correspondiente a la slaba

GA, un segundo patrn correspondiente a la slaba BOR y armnicas de

menor amplitud.

Los principales campos de aplicacin dentro del procesado de seales han sido

la identificacin de sistemas, estimacin espectral, deteccin de seales,

estimacin de parmetros y anlisis del habla [6].

2.3 DISTRIBUCIN WIGNER VILLE

La distribucin Wigner - Ville (WVD) data de 1948 y es histricamente la

primera tcnica que busca obtener informacin sobre una seal, consiguiendo

simultneamente una localizacin temporal y frecuencial. Fue propuesta por

J. Ville como una densidad temporal frecuencial. Cuando se la aplica a



oscilaciones puras, proporciona una localizacin ptima. El buen

comportamiento se mantiene tambin a seales que son ciertas

transformaciones simples de una nica oscilacin pura. Pero aparecen

problemas al analizar seales ms complejas, por ejemplo la suma de seales

simples. En estos casos el resultado no es la suma de las WVD de aqullas,

sino que aparecen trminos de interferencia. En definitiva, la WVD no es

lineal [14].

Dada una seal f, su transformada Wigner Ville est definida como

, = + 2

2"

#

#

Ec. 2.2.

siendo x(t) la seal analtica asociada a la seal original. Es decir:

= + $% Ec. 2.3

siendo H( f(t) ) la transformada de Hilbert de f(t).

Si denotamos:

= + 2 2

Ec. 2.4



a esta funciTrn se le denomina t-autocorrelacin. Siendo su interpretacin

similar a la autocorrelacin pero dando informacin localizada en el instante t

[13].

Como la transformada de Fourier de la autocorrelacin proporciona el mdulo

de la transformada de Fourier de la seal, la distribucin de Wigner Ville se

interpresta como el mdulo de la contribucin para una frecuencia ' en un instante t de la seal [7].

La sugerencia original de Ville fue considerar la transformada Wigner Ville de

una seal como una probabilidad de medida en el plano tiempo frecuencia.

Esta propuesta demostr ser inadecuada, debido a los valores negativos que

tiene la representacin. Sin embargo, la transformada de Wigner Ville tiene

algunas propiedades interesantes. Entre ellas, las propiedades de localizacin

son consideradas de gran importancia [14]. Ellas expresan que la transformada

se adapta de una manera excelente para algunas clases especficas de

seales; por ejemplo, se puede decir que la Transformada es Fourier es ptima

para sinos y cosenos, tomando en cuenta que toda la energa de la

transformada de Fourier en dichas funciones, est localizada en un solo punto

[7]. Teniendo en cuenta que una localizacin optima para diferentes clases de

seales es una de las metas ms importantes en el anlisis de tiempo

frecuencia, tenemos que:

La transformada de Wigner Ville tiene una localizacin ptima para

seales Dirac.



La transformada de Wigner Ville tiene una localizacin ptima en el

dominio de la frecuencia en las ondas monocromticas puras y en las

seales chirp lineales. (Fig. 2.6)

Fig. 2.6 . Distribucin Wigner Ville de una seal chirp linear: casi una perfecta localizacin en

el plano tiempo frecuencia [6].

Conservacin de la Energa [13]: Integrando la distribucin Wigner

Ville en todo el plano tiempo frecuencia, se obtiene la energa de x:

() = ), ####

Ec. 2.5

Propiedad Marginal: La densidad del expectro de energa y a potencia

instantnea pueden obtenerse como distribuciones marginales de ).



), = |+|#

#

), = ||#

#

Traduccin de covarianza [14]: La distribucin de Wigner Ville es

covariante en tiempo y frecuencia.

= , ., = ) ,,

= "/ ., = ), ,

Compatibilidad con filtraciones: Si una seal y es la convolucin de x y h,

la WVD de y es la convolucin del tiempo entre la WVD de h y la WVD

de x.

= 000 ., = 1 0, )0, 0#

#

#

#

Compatibilidad con modulaciones: Si y es la modulacin de x de una

funcin m, la WVD de y es la convolucin de las frecuencias entre la

WVD de x y la WVD de m.

= 2 ., = 3, 4),#

#44



La distribucin Wigner Ville es bastante efectiva en la descomposicin tiempo

frecuencia de seales no estacionarias; su resolucin es mayor comparada a la

resolucin entregada por tcnicas lineales como la STFT, lo que permite una

mejor localizacin de la energa en el espacio tiempo frecuencia [13].

2.4 TRANSFORMADA DE GABOR

Una clase de representaciones tiempo frecuencia ampliamente difundida en

el mbito del procesamiento de seales se basa en el empleo de ventanas

temporales, esto es de funciones suaves y bien localizadas en un intervalo.

La ventana g(t) enmarca una porcin de la seal y permite aplicar localmente la

Transformada de Fourier. De este modo, se releva la informacin en frecuencia

localizada temporalmente en el dominio efectivo de la ventana.

Desplazando temporlamente la ventana se cubre el dominio de la seal

obtenindose la completa informacin tiempo frecuencia de la misma [6]:

05, 6 = 07 8#

#

Ec. 2.6.

Asumiendo que la ventana real g(t) est bien localizada en un intervalo

centrado en t=0, de longitud y que su transformada g(w) est tambin localizada en una banda centrada en w=0, de ancho 6, las ventanas desplazadas y moduladas 7 8 son funciones elementales bien



localizadas en el domunio conjunto tiempo frecuencia. Cada funcin

elemental se localiza en el rectngulo centrdo en el punto , 6 de dimensin 6.

Por tanto el conjunto de valores :05, 6; nos da un completo mapa en el dominio tiempo frecuencia que despliega la informacin de la seal. Ms an,

sta puede recuperarse con la frmula de inversin [12]:

0 = 12= 05, '>'#

#

#

#

Ec. 2.7.

La misma sintetiza la seal como la superposicin integral de las funciones

elementales 7 >. El mapeo sobre dominio tiempo frecuencia, bajo las condiciones referidas, se conoce como la transformada de Gabor y

representa una atractiva generalizacin de la transformada de Fourier.

Esta transformada se puede reformular considerando ahora el par de ventanas

moduladas reales 7 cos' y 7 sin'. Estos pares de ventanas moduladas actan como filtros pasabanda, con definicin de fase. De tal modo

la Transformada de Gabor puede entenderse como un tratamiento localizado

de la seal mediante filtros pasabanda deslizantes, de ancho de banda

constante [18].



2.4.1 Ventanas comunmente utilizadas

Cualquier ventana integrable puede utilizarse en la transformada de Gabor,

pero algunas opciones son ms convenientes que otras. La principal

caracterstica de una buena ventana es estar bien definidas en los dominios

del tiempo y la frecuencia. Algunas de las usadas ms comunmente se

muestran en la Fig. 2.7, y los logaritmos de sus transformadas de Fourier se

pueden ver en la Fig. 2.8.

Fig. 2.7. Ventanas comunmente utilizadas en el anlisis de Gabor. La notacin del eje

horizontal debe dividirse entre 512 para coincidir con las frmulas matemticas dadas en la

monografa [23].



Fig. 2.8. Grfica del logaritmo ' DE7F,|7| de las grficas mostradas en la Fig 2.7 [23].

La razn principal para usar estas ventanas es el hecho de que tengan formas

simples y funcionales y que sus transformadas de Fourier estan concentradas

esencialmente alrededor del origen ' = 0, como se ven en la Fig. 2.8. Las frmulas matemticas que definen a dichas ventanas son las siguientes[18]:

Rectangular

7 = H1,0 I I 1/20,1/2 K K 0 Ec. 2.8

Triangular (Bartlett)

7 L2,0 I I 1/221 ,1/2 K I 10,1 K K 0 Ec. 2.9



Hanning

7 = H0.54 0.46 cos2= ,0 10,1 < < 0 Ec. 2.10

Blackman

7 = H0.42 0.5 cos2= + 0.08 cos4= ,0 10,1 < < 0

Ec. 2.11

2.4.2 Ejemplo de Anlisis de Voz

Se considera la seal de voz de la Fig. 2.9. Un posible modelo para describir la

seal, al menos en su parte central, est dado por la ecuacin

=RSTUE0TW

TXF

Ec. 2.12

Con frecuencias aproximadamente de la forma TY D,Y D',, donde ', es la frecuencia de paso [12].



Es claro que si el ancho de banda de la ventana a usarse en este ejemplo

excede ',, cada una de las funciones de Gabor con frecuencia dentro de la banda de frecuencia de la seal ver varias armnicas de la seal. Esto es

perfectamente visible en la Fig. 2.9(c), donde la transformada de Gabor oscila

en funcin del tiempo con frecuencia igual a la altura de la seal [23].

Fig. 2.9 (a) Seal de Voz How are you, (b) Transformada de Gabor con una ventana estrecha,

(c) Transformada de Gabor con una ventana ms amplia [23].

En contraste, cuando el ancho de banda es ms pequeo que la frecuencia de

corte, no existe la interferencia.



2.5 TRANSFORMADA WAVELET

Una alternativa a la transformada de Gabor es la de utilizar ventanas

moduladas, pero de dimensin variable, ajustada a la frecuencia de oscilacin.

Ms precisamente, que mantenga un mismo nmero de oscilaciones en el

dominio de la ventana. Esto sugiere, contar con una nica ventana modulada y

generar una completa familia de funciones elementales mediante sus

dilataciones o contracciones y traslaciones en el tiempo [20]:

[ 1\|]|[ ^]

Ec. 2.13

Donde ] 0 y b son los parmetros de escala y traslacin. Se preserva la energa de las funciones mediante un factor de normalizacin.

La funcin [, debe verificar ciertas condiciones de admisibilidad y se denomina wavelet madre y el resto de las funciones generadas, simplemente

wavelets [17]. Se denotan las mismas como:

[`,a 1\|]|[ ^]

Ec. 2.14

Las condiciones de admisibilidad bsicamente requieren que la funcin [, est bien localizada en tiempo, de media nula y que la transformada [b' sea



un filtro continuo pasa banda, con rpido decaimiento hacia el infinito y hacia

' = 0.

Entonces, dada una seal s(t), de energa finita la Transformada Wavelet

Continua de s se define como:

c0], ^ = 0[`,a#

#

Ec. 2.15

Para cada par de parmetros reales (a,b), ] 0. Si la onda es real, la definicin se restringe para valores positivos de a [19]. La transformacin as

definida preserva la energa de la seal, y posee una frmula integral de

inversin. Si la wavelet madre es real, la reconstruccin se realiza como:

0 = dc c0], ^[`,a ^]]#

#

#

,

Ec. 2.16

Donde dc es una constante positiva.

La frmula expresa la sntesis de la seal como la superposicin integral de las

funciones elementales [`,a.

El mapeo sobre dominio tiempo frecuencia en (a,b), esto es la Transformada

Wavelet Continua, representa una novedosa alternativa a la Transformada de



Fourier por ventanas. Ella despliega la informacin de la seal en una

estructura radicalmente diferente [6].

Cualquier wavelet real [, admisible, est bien localizada en un intervalo centrado en un ,, de longitud y que su transformada [b' est localizada en una banda biltera 0 'F |'| ', de ancho >. Entonces, las waveletes [`,a estn localizadas en el intervalo centrado en ], + ^, de longitud ] en la banda biltera 0 'F/] |'| '/], de ancho >/].

Se observa que la precisin en tiempo es inversamente proporcional a la

precisin en frecuencia, mantenindose constante la relacin 8. Esta es la diferencia fundamental con la Transformada de Gabor [20].

Ms an, para cada valor de a, la familia de wavelets parametrizada por b, se

comporta como una ventana deslizante, de ancho de banda constante, pero el

nmero de oscilaciones de estas ondas elementales es siempre el mismo, en el

marco efectivo de la ventana.

Por otra parte, si la transformada [b' decae rpidamente a cero en torno de ' = 0, se verifica la propiedad de oscilacin:

e[ = 0#

#

Ec. 2.17



Para k = 0,..,K. Esta importante propiedad, que no posee la Transformada de

Gabor, es trascendente en las aplicaciones de anlisis de seales, para la

deteccin de fenmenos puntuales, como discontinuidades o bruscos cambios

en las derivadas [19].

En efecto, si modelamos apropiadamente la seal fsica, por una funcin s(t),

de modo que las derivadas reflejen los cambios de locales de comportamiento,

en torno de cada punto `,a = ], + ^, de radio , el proceso queda caracterizado por el correspondiente polinomio de Taylor, hasta cierto orden

K+1. Si el proceso es razonablemente suave en el entorno, la propiedad de

oscilacin nos dice que la magnitud fc0], ^f es no significativa. En contraposicin, un brusco cambio en el entorno, que se refleja en la derivada

de orden K+1, podr ser bien detectado.

Otra propiedad relevante de la transformada continua es su invariancia

respecto de las traslaciones o cambios de escala de seal. Estructuras

similares, sern detectadas de la misma forma, independientemente de su

localizacin temporal o escala [23].

En suma, por sus propiedades la Transformada Wavelet constituye una

promisoria y ventajosa alternativa para el procesamiento de seales, en

particular las de Emisiones Acsticas.

Captulo 3. Aplicaciones de Procesamiento de Voz.


CAPITULO 3. APLICACIONES DE PROCESAMIENTO DE VOZ

Las aplicaciones de procesamiento de voz son cada vez ms frecuentes en

todos los mbitos de nuestra vida, las empresas de todos los rubros avanzan a

pasos agigantados en cuanto a tecnologa se refiere y dentro de esta

evolucin, el procesamiento de voz adquiere un papel cada vez ms

importante.

En esta investigacin se advirti que casi todas las aplicaciones utilizan las

mismas bases para aplicar el procesamiento de voz en sus productos. La

relacin tiempo frecuencia. Esto para obtener los espectros de las seales de

audio y compararlos con una base de datos preestablecida para as poder

obtener un resultado deseado.

3.1 APLICACIONES CON MATLAB Y CSLU TOOLKIT [25]

3.1.1 CSLU Toolkit

CSLU Toolkit es un programa creado por el Oregon Graduate Institute of

Science & Technology (OGI). Las siglas CSLU corresponden al Center for

Spoken Language Understanding del mismo instituto.

El CSLU Toolkit es una plataforma para la investigacin y desarrollo de

sistemas de lenguaje hablado, la cual incluye herramientas audiovisuales para

el procesamiento y reconocimiento de voz.



Entre estas herramientas tenemos la llamada Speech Viewer .

Fig. 3.1 Anlisis grfico en Speech Viewer [25].

En la Figura 3.1 se muestra el anlisis grfico de la pronunciacin de la letra

a. Este anlisis proporciona la siguiente informacin:

La ventana 1 muestra la forma de onda seleccionada del archivo de

sonido utilizado, el cual fue previamente grabado. Este grfico muestra

dos variables: Amplitud y Tiempo.

La ventana 2 muestra el espectrograma de la forma de onda

seleccionada. En este grfico se manejan tres variables: Frecuencia

(Hz), Tiempo (ms) y Amplitud (dB). Esta ltima variable se mide sobre el

eje z de la grfica. Las zonas rojas representan las frecuencias con

mayor amplitud, en tanto que las zonas verdes y oscuras presentan las

frecuencias con menor amplitud.

Con este programa se puede enfocar a detectar particularidades en los

diferentes sonidos grabados, tanto en el dominio del tiempo, como en el



dominio de la frecuencia. Estas particularidades nos llevaran a establecer que

es posible diferenciar un sonido de otro, aunque su pronunciacin sea similar.

En las figuras 3.2 y 3.3 se presentan las grficas obtenidas para las

pronunciaciones de 2 vocales ms. Estas grficas muestran la forma de onda

de la voz (sonido) y su espectrograma.

Fig. 3.2 Pronunciacin de la letra E [25].

Fig. 3.3 Pronunciacin de la letra I [25].

Por la tanto se sabe que aunque existen pronunciaciones similares en su forma

de onda, presentarn diferencias en su espectro de frecuencias

(espectrograma). Debido a esto, la manera de diferenciar y reconocer los

diferentes sonidos requiere de ms informacin, la cual puede encontrarse en

su representacin en el dominio de la frecuencia.



3.1.2 MatLab

MatLab ofrece los medios necesarios para la implementacin de algoritmos

especializados en el procesamiento digital de seales. En esta etapa se

obtiene, con la misma calidad, los resultados que da Speech Viewer.

Adicionalmente se presentarn las bases para la programacin en Matlab,

como son:

Digitalizacin de un archivo de sonido

Implementacin de la Transformada de Fourier para representar la seal

en el dominio de la frecuencia.

Graficar los resultados

Es necesario convertir la muestra de audio en una serie de datos que se

puedan interpretar. Para esto se graba en la computadora la muestra de sonido

en un archivo con extensin .wav y despus se procesa mediante la

instruccin wavread incluida en Matlab. Esta instruccin nos proporciona dos

parmetros:

Fs= Frecuencia de muestreo en Hz.

s= Vector que contiene los datos obtenidos de la lectura de la muestra.

Debido a que se trabaja en el dominio de la frecuencia, es necesario que el

vector de datos (s) cumpla ciertas condiciones. Para representar la seal en el

dominio de la frecuencia se aplica la Transformada Discreta de Fourier. La

longitud del vector s se representa mediante el parmetro m. Los componentes



reales e imaginarios resultantes de la DFT del vector s son almacenados en el

vector x, y la magnitud de la DFT(x) se representa por mag.

Se presenta el algoritmo para graficar la representacin del archivo de sonido

en el dominio de la frecuencia.

f=(0:s/2)*Fs/m;

subplot(221), plot(s), axis tight, grid on, title(Seal de Voz);

subplot(222), specgram(s), title(Espectrograma), colorbar;

subplot(223), plot (f,mag(1:m/2+1)), axis ([0 5000 0 10]), grid on, xlabel(Frecuencia (Hz)),

ylabel(Magnitud), title(Representacin en Frecuencia);

Como resultado se obtiene una imagen con los siguientes grficos:

Seal de voz.- Graficacin de los datos del vector s.

Espectrograma.- Espectro de frecuencias del vector s.

Representacin en frecuencia.- Representa los parmetros frecuencia (f)

vs. Magnitud (mag).

En la figura 3.4 se observan los resultados obtenidos con la pronunciacin de la

letra A.

Fig. 3.4 Pronunciacin de la letra A [25]



La representacin en frecuencia nos muestra diferencias entre sonidos

similares en su forma de onda. Sin embargo los programas como Matlab, tratan

a la voz como una serie de datos, no se le da una interpretacin visual,

originando que puedan existir errores de reconocimiento. El espectro de la

seal presenta valores mximos y mnimos, distribuidos de diferente manera

para cada sonido. Si la intensidad de la seal cambia, tambin lo har la

magnitud del espectro. Aunque la forma de onda se conserva, no as su escala

de valores. Esto provoca la confusin y el no reconocimiento de sonidos, ya

que estos valores pueden caer dentro del rango correspondiente a otro sonido

[25].

Para solucionar el problema de confusin entre sonidos se realiza lo siguiente:

Estabilizacin de la seal. c=s./max(abs(s)); En donde c es el vector

normalizado de s.

Despus de aplicar la DFT de el vector c, se obtiene la magnitud del

mismo y se eleva al cuadrado. mag=(abs(x)).^2; Con esto se mantienen

altos los mximos y mnimos ms significativos, y se mantienen bajos

los menos significativos. De igual manera se establece una diferencia

mayor entre estos valores y los correspondientes a otro sonido. As se

reduce la probabilidad de confusin entre los mismos, ya que esta

diferencia no es lineal.



Fig. 3.5 Comparacin entre el espectro original y el espectro Normalizado del fonema EME

[25].

Despus de dicho procedimiento prcticamente ha desaparecido el ruido

presente en las frecuencias mayores a 1KHz. Si se toma como mximo

dominante el pulso que se encuentra dentro del rango de 400 a 700 Hz. Se

encuentra que, en el espectro original, la diferencia entre ellos es muy pequea

(11-10=1). Sin embargo, en el espectro normalizado, la diferencia entre ellos es

mayor (8.510 5.510 3.310).Con este procedimiento se pueden diferenciar mejor los sonidos y evitar las confusiones en el procedimiento de

lectura de datos y mejorar notablemente el reconocimiento de voz.



3.2 APLICACIONES UTILIZANDO ESPECTROGRAMAS

3.2.1 Sistema de reconocimiento de voz mediante an lisis de

espectrograma.

(Pat. US 2002/0128834 A1, 12/Sep/2002)

El reconocimiento de elementos conocidos del habla humana (fonemas, grupos

de fonemas, slabas, palabras o frases) en los sonidos de una pronunciacin

humana es fundamental para cualquier aplicacin computacional donde la

operacin de dicha computadora dependa en lo que el usuario diga [33]. Tales

aplicaciones incluyen, por ejemplo, sistemas de dictado, donde el texto

pronunciado por un usuario es procesado en la computadora en forma textual.

Otra de las aplicaciones es el sistema de comandos, en el cual el texto

pronunciado por el usuario forma un comando que deber realizar la

computadora.

La figura 3.6 ilustra una red de computadoras 610 en la cual la presente

invencin se ha implementado. Un usuario (620) proporciona el procesamiento,

guardado, dispositivos de entrada y salida para proveer el procesamiento de

voz. El usuario puede estar tambin conectado a una red de comunicaciones

(610) en la cual tiene acceso a otros dispositivos computacionales, incluidos los

servidores de las computadoras (630 y 632). La red de comunicaciones puede

ser parte de Internet y utilizar protocolos TCP/IP para comunicarse con otros

equipos.



Un usuario proporciona la grabacin de voz mediante algn hardware

(micrfono) en una forma aceptable de pronunciacin del lenguaje (602) y lo

guarda en una forma digital (604). El sonido digitalizado tambin se puede

obtener de un archivo (606) o a travs de la red (610). El sistema

computacional de procesamiento de voz (660) recibe la informacin de un

diccionario (603).

Fig. 3.6 Sistema de computadoras donde se implementa la invencin [33].

La figura 3.7 ilustra la estructura interna de una computadora de la red, donde

se muestran el sistema de bus (700), interfaces de entrada y salida para

conectar los dispositivos a la computadora tales como micrfonos y bocinas

(702) , interfaces de red (706) , memoria voltil (708), memoria de disco o no

voltil (710), una Unidad Central de Proceso (704). Todo esto utilizado con la

finalidad de procesar el sonido de la pronunciacin humana.



Fig 3.7 Estructura interna de la computadora [33].

La figura 3.8 muestra la estructura de uno de los diccionarios utilizados en la

presente invencin. Cada diccionario contiene diversos segmentos que ayudan

en el procesamiento de las muestras de voz.



Fig. 3.8 Estructura interna de un diccionario [33].

Los segmentos pertenecen a diferentes tipos: vocales acentuadas, vocales no

acentuadas, consonantes sonoras adyacentes, sonido sordo, sonido no sordo,

pausas e irreconocibles (este ltimo se utiliza si el segmento no puede ser

reconocido dentro de ninguno de los segmentos). En consecuencia, cualquier

diccionario incluye diversos segmentos como los mencionados anteriormente,

para as clasificar lo que el usuario dice. Adicionalmente, un diccionario puede

contener alguna informacin suprasegmental, que describe por ejemplo, la

fuerza o la duracin de las palabras dichas. Tambin puede contener algunos

algoritmos creados especficamente para detectar la pronunciacin humana.

Estos algoritmos pueden asociarse a cualquiera de los segmentos ya

mencionados.

El diccionario se puede cargar usando un proceso manual o un proceso

interactivo. El proceso incluye analizar el espectrograma de la muestra de voz

para as determinar crestas. Las crestas son utilizadas para distinguir e

identificar formantes reales en las muestras de sonidos externos. Esto permite

capturar la informacin en sonidos de vocales, que es especialmente

importante. La informacin de los formantes se pueden guardar en el



diccionario para ser usados de manera posterior en comparacin de segmentos

de voces.

En la presente invencin, algunos segmentos son de expresin continua. La

figura 3.9 ilustra la estructura de un segmento de expresin continua en una

entrada de diccionario.

Fig. 3.9 Estructura de un segmento de voz continua dentro de una entrada de diccionario [33].

La figura 3.9 muestra la informacin contenida en uno de los diferentes

diccionarios, para un segmento de expresin continua (802). Cada persona

mediante su voz, y la duracin del segmento hablado produce al menos un pico

prominente en el espectrograma. Este pico se le llama formante. La

informacin contiene los contornos para cada formante (805, 506, 807), la

duracin del segmento (815) y el tiempo promedio de la frecuencia para cada

formante (808, 809, 810). Tambin incluye los corredores 811, 812 u 813,



dentro de los cuales contiene la frecuencia promedio del correspondiente

formante cuando el segmento es pronunciado. Cada corredor es un intervalo

definido por dos frecuencias: la ms alta y la ms baja. Dentro del sistema

tambin pueden existir algunos algoritmos optimizados especficamente para la

deteccin de ste segmento dentro de la pronunciacin humana.

El Mtodo ptimo de Inversin, es la operacin de la presente invencin en la

forma de una operacin para emparejar diccionarios, el cual trabaja sobre una

grabacin de sonido digitalizada. El mtodo se divide en una secuencia de

segmentos 901-905. Los segmentos 802, 803 y 804 de la entrada de

diccionario se comparan primero con los segmentos 901, 902, 903, despus

con los segmentos 902, 903, 904 y finalmente con los segmentos 903, 904 y

905. El nmero de segmentos a compararse debe de ser igual a los de la

entrada de diccionario. Al resultado de las comparaciones se le llama

Secuencias de Segmentos Probadas.

Debido a que el tema de esta monografa es la relacin tiempo frecuencia

omitir las siguientes explicaciones hasta llegar a la caracterizacin de los

espectrogramas que son la parte fundamental de esta invencin y de esta

monografa.

El sonido de la voz humana tiene un espectro discreto de armnicos. Un

espectrograma normalmente se obtiene mediante un arreglo de frecuencias. El

principal objetivo de los mtodos de la obtencin de espectrograma es crearlo

mediante la captura de la mayor parte de los armnicos del sonido de voz, y



tomar lo menos posible el ruido inevitablemente presente en cualquier

grabacin de sonido. Estos mtodos estn diseados para trabajar con

diferentes usuarios, y tambin con el mismo usuario en tiempos diferentes.

Fig. 3.10 Mtodo de Transformada de Tiempo Triple [33].

En la figura 3.10 se ilustra el mtodo de la Transformada de Tiempo Triple

usado para obtener un espectrograma (1006) de un segmento de voz continua

(900). Despus de que se determina la frecuencia de tono bsico. La

frecuencia del tono bsico es la frecuencia del menor de los armnicos dentro

de un segmento de voz continua. (1001), la grabacin de sonido se escala

como se muestra en 1003. Esta grabacin de sonido escalada se procesa,

1004, utilizando un grupo de frecuencias 1002 para obtener un espectrograma



intermedio, 1005. El espectrograma intermedio ti