MORELIA, MICHOACN ABRIL DEL 2010
INSTITUTO TECNOLGICO DE MORELIA
DIVISIN DE ESTUDIOS PROFESIONALES DEPARTAMENTO DE INGENIERA ELECTRNICA
MONOGRAFA
APLICACIONES DE LAS REPRESENTACIONES TIEMPO
FRECUENCIA EN PROCESAMIENTO DE VOZ
QUE PARA OBTENER EL TTULO DE:
INGENIERO EN ELECTRNICA
PRESENTA:
JESS VLADIMIR ALVARADO MAGDALENO
ASESOR:
M.C. JULIO CSAR HERRERA GARCA
SUBSECRETARA DE EDUCACIN SUPERIOR DIRECCIN GENERAL DE EDUCACIN SUPERIOR TECNOLGICA
INSTITUTO TECNOLGICO DE MORELIA
i
A G R A D E C I M I E N T O S
A ti pap, por haberme dado los consejos y el nimo necesario para ir viviendo
cada etapa de mi vida. Por tu enseanza de saber disfrutar y buscar las cosas
que verdaderamente son importantes en la vida.
A ti mam, por demostrarme la fuerza y el nimo incansable para hacer
siempre bien las cosas. Por la preocupacin y el nimo que nos das para
vernos volar en grande.
A ustedes Nathaly y Sofi, por la confianza y el apoyo que siempre he tenido de
su parte, por la enseanza que en ocasiones, sin querer, me brindan.
A ti Eli, por ser la persona que ha vivido ms cercano el proceso de lograr este
proyecto, por los tiempos que se sacrificaron, por el apoyo y compresin que
siempre me has dado. Te amo.
A mis amigos y compaeros de estudio, por el hecho de estar siempre cerca,
de apoyarnos mutuamente en todo.
A mis tas, Loren y Elena, que s que les hubiera encantado estar aqu, junto a
mi, pero que s que donde quiera que se encuentren estarn muy felices de
verme terminar este proceso
A toda mi familia, que siempre unida, se apoya los unos a los otros. A la familia
Alvarado Gonzlez, y la familia Magdaleno Martnez.
ii
N D I C E
RESUMEN iv OBJETIVOS v JUSTIFICACIN vi MOTIVACIN vii INTRODUCCIN 1 CAPTULO 1 CONCEPTOS DE PROCESAMIENTO DE SEALES 1.1 SEALES 2
1.1.1 Tipos de seales 3 1.1.2 Seales continuas y discretas 4 1.1.3 Sistemas discretos 6
1.2 SISTEMAS LINEALES INVARIANTES EN EL TIEMPO 6
1.2.1 Discretos 7 1.2.2 Continuos 8 1.2.3 Propiedades de los sistemas lti 10
1.3 LA TRANSFORMADA CONTINUA DE FOURIER 12
1.3.1 Representacin de seales aperidicas 13 1.3.2 La transformada de Fourier para seales peridicas 19 1.3.3 Propiedades de la transformada continua de Fourier 20
1.4 LA TRANSFORMADA DE FOURIER DE TIEMPO DISCRETO 26
1.4.1 Representacin de seales aperidicas 26 1.4.2 La transformada de Fourier de tiempo discreto para
seales peridicas 31 1.4.3 Propiedades de la transformada de Fourier de tiempo discreto 33
CAPTULO 2 CARACTERIZACIN EN TIEMPO Y FRECUENCIA 2.1 CONCEPTO DE TIEMPO FRECUENCIA 36 2.2 TRANSFORMADA DE FOURIER DE TIEMPO CORTO 39 2.3 DISTRIBUCIN WIGNER VILLE 42 2.4 TRANSFORMADA DE GABOR 47 2.4.1 Ventanas comnmente utilizadas 49 2.4.2 Ejemplo de anlisis de voz 51 2.5 TRANSFORMADA WAVELET 53
iii
CAPTULO 3 APLICACIONES DE PROCESAMIENTO DE VOZ 3.1 APLICACIONES CON MATLAB Y CSLU TOOLKIT 57 3.1.1 CSLU Toolkit 57 3.1.2 MatLab 60 3.2 APLICACIONES UTILIZANDO ESPECTROGRAMAS 64 3.2.1 Sistema de reconocimiento de voz mediante el anlisis de espectrograma. 64 3.2.2 Mtodos de identificacin usando anlisis de voz 71 3.3 APLICACIONES USANDO WAVELETS 77 3.3.1 Procedimiento y dispositivo de clasificacin de las seales
del habla. 77 3.3.2 Mtodo para la extraccin de caractersticas de seales de voz y sistema relacionado con el reconocimiento de voz. 86 3.4 APLICACIONES USANDO OTRAS DISTRIBUCIONES TIEMPO FRECUENCIA 93 3.4.1 Anlisis de palabras utilizando la transformada de Gabor. 93 3.4.2 Anlisis tiempo- frecuencia para reconocimiento de voz utilizando la distribucin Wigner Ville suavizada. 97 CONCLUSIONES 102 LISTA DE FIGURAS 104 REFERENCIAS 106
iv
R E S U M E N
En este trabajo de investigacin se vern las principales funciones matemticas
en el procesamiento de voz. Todo descrito de una manera simple y detallada,
hablando de diversos temas, desde la transformada de Fourier hasta los
mtodos que se utilizan para trabajar con el anlisis tiempo frecuencia, tales
como la transformada de Gabor y la transformada Wavelets, sus anlisis
matemticos, propiedades y la utilizacin ms frecuente que se les da a dichas
transformadas. Tambin se tendr la oportunidad de analizar diferentes tipos
de aplicaciones relacionadas con el reconocimiento de voz, los cuales utilizan
todas las herramientas descritas anteriormente.
v
O B J E T I V O S
El objetivo general de esta monografa consiste en presentar de una manera
global las aplicaciones que tiene en el mundo actual el procesamiento de voz y
conocer las herramientas matemticas necesarias para poder capturar y
procesar los sonidos.
Tambin podemos delimitar algunos objetivos particulares:
Explicar las nociones bsicas acerca del procesamiento de seales.
Explicar y analizar la Transformada, continua y discreta, de Fourier. En
cada una presentar el caso de aplicarla en seales peridicas y
aperidicas, as como sus propiedades.
Hablar sobre la caracterizacin Tiempo Frecuencia y conocer las
diferentes funciones que nos ayudan a dicha caracterizacin.
Mostrar algunas de las aplicaciones actuales de las representaciones
Tiempo Frecuencia en el tema de procesamiento de voz, cules son
sus funciones y de qu manera aplican el procesamiento de voz.
vi
J U S T I F I C A C I N
Los avances tecnolgicos en el mundo actual crecen de una manera
impresionante da a da, y las empresas de diferentes rubros se han
concentrado en realizar equipos con reconocimiento de voz. Es por eso que es
importante realizar un documento donde se estudien las bases, las funciones
matemticas y las aplicaciones que se le da a este tema. Tambin es
importante que generaciones futuras cuenten con un documento de consulta
donde se puedan informar del avance tecnolgico y los pasos que ha tomado
el reconocimiento de voz.
vii
M O T I V A C I N
Se eligi este tema debido al gran inters de mi parte hacia todo lo nuevo que
nos presenta la tecnologa, en especial en el campo de lo acstico, incluyendo
voz y msica. Me interes porque es un tema actual, con aplicaciones en
diversos sistemas para diferentes fines, desde un telfono celular, hasta un
sistema de seguridad para casa o empresa. Un tema que da a da ir
evolucionando y que los interesados en l tendremos que actualizarnos
constantemente.
1
I N T R O D U C C I N
En este tiempo en el que la carrera tecnolgica avanza cada vez a pasos
ms agigantados, es indispensable que las personas y profesionistas que
pertenecen al mundo de la tecnologa, se mantengan al da y actualizados con
los diferentes procesos y proyectos que se desarrollan da a da alrededor del
mundo.
Los procesos en los que el ser humano puede ser capaz de controlar
diferentes dispositivos mediante la voz han tomado un auge importante en los
ltimos aos, debido a que es muy extensa la lista de cosas que se pueden
hacer con tales desarrollos. Solo hay que observar con cuidado a nuestro
alrededor para saber que la industria del procesamiento de voz es cada vez
ms extensa, se pueden controlar los equipos de comunicacin mvil mediante
el uso de la voz, se le puede hacer dictados a las computadora para evitar
usar el teclado, se puede tener un sistema de seguridad en el hogar o en la
industria que se base en el reconocimiento de voz.
Todas estas aplicaciones se basan en un principio: poder procesar la
voz. Este proceso comienza desde el momento en que se captura los datos,
aplicar diferentes frmulas y aplicaciones matemticas para poder conocer los
datos importantes de la voz, tales como frecuencia, duracin, separacin de
palabras.
En esta investigacin se tomarn los temas acerca de la relacin tiempo
frecuencia y las herramientas matemticas que nos ayudan a obtener la
informacin necesaria acerca del sonido y su procesamiento.
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 2
CAPTULO 1. CONCEPTOS DE PROCESAMIENTO DE SEALES
1.1 SEALES
Los conceptos de seales [22], surgen de una gran variedad de eventos. La
obtencin, representacin e interpretacin de dichas seales juegan un papel
trascendental en la ciencia y tecnologa, incluyendo todas sus ramas como las
comunicaciones, la electrnica, la acstica, la sismologa, el diseo de circuitos
y equipos, la ingeniera biomdica y el procesamiento de voz entre otros.
Aunque las seales pueden representarse de diferentes maneras, en todos los
casos la informacin de una seal est contenida en un patrn de variaciones
que representan una forma determinada [5]. Por ejemplo, si tomamos el circuito
de la figura 1.1, las seales que obtendramos seran los patrones que tiene la
variacin en el tiempo de los voltajes Vs y Vc [1]; otro ejemplo podra ser la voz
humana, ya que aqu encontramos dos variables, la frecuencia y el tiempo, las
cuales se representaran de la forma ilustrada en la figura 1.2
Fig. 1.1 Circuito RC sencillo con voltaje en la fuente Vs y voltaje del capacitor Vc [4].
Fig. 1.2 Representacin grfica de una palabra en funcin del tiempo [2].
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 3
1.1.1 Clasificacin de las seales [21]
Existen cuatro tipos de seales:
Analgicas
Digitales
Muestreadas
Cuantizadas
Clasificacin de seales de acuerdo a su duracin:
Causales
Anticausales
No causales
Continuas
Peridicas
Clasificacin de seales basadas en simetras
Simetra Par
Simetra Impar
Asimtrica
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 4
Clasificacin de seales basadas en Energa y Potencia
Seales de Energa
Seales de Potencia
Ejemplos de seales
Escaln unidad
Rampa
Pulso
Triangular
Sinc
Impulso
1.1.2 Seales Continuas y Discretas
En las seales continuas la variable independiente tiene un valor determinado
para cada momento del tiempo, por lo tanto se puede definir para una sucesin
continua de puntos de la variable independiente [22]. Por ejemplo, en la figura
1.3 se tiene un ejemplo tpico del tiempo de carga de un capacitor en un circuito
RC.
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 5
Fig. 1.3 Perfil tpico del tiempo de carga de un capacitor.
En las seales discretas la variable independiente solamente se encuentra
definida en tiempos discretos y, por lo tanto, para estas seales la variable
independiente solamente toma valores discretos. La densidad de poblacin con
respecto a cada una de las ciudades del pas y la seal de voz como funcin
del tiempo son ejemplos de seales discretas [22]. Otros ejemplos seran: el
ndice semanal de la Bolsa Mexicana de Valores, ingreso promedio de las
familias en una ciudad, el ndice de criminalidad por ciudad.
Para diferencias a las seales continuas de las discretas en una grfica, se
utiliza el smbolo t para denominar a la variable independiente continua y n para
denominar a la variable independiente discreta [21].
1.1.3 Sistemas Discretos
Un sistema es una transformacin aplicada a una seal de entrada x) para
obtener una seal de salida y [5]. A dicha transformacin se le denomina
funcin de transferencia, y habitualmente se representa mediante una T. Los
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 6
sistemas discretos son aquellos que trabajan con seales discretas. En la
figura se muestra el diagrama de bloques de este tipo de sistemas.
Fig. 1.4 Diagrama de Bloques. Sistema Discreto [22].
1.2 SISTEMAS LINEALES INVARIANTES EN EL TIEMPO (LIT )
Las propiedades bsicas de los sistemas de seales, como la linealidad y la
invariancia en el tiempo tienen una importancia muy grande en el anlisis de
las seales y sistemas, por dos razones [11]. La primera, demasiados procesos
fsicos poseen stas mismas propiedades, por lo que pueden modelarse como
sistemas lineales e invariantes en el tiempo (LIT). Adems es importante decir
que los sistemas LIT se pueden analizar con mucho detalle para proporcionar
el conocimiento de sus propiedades, as como un conjunto de variadas
herramientas que forman el ncleo del anlisis de seales y sistemas [12].
1.2.1 LIT DISCRETOS (SUMA DE CONVOLUCIN)
La idea de visualizar cmo el impulso unitario discreto se puede utilizar para
construir cualquier seal discreta consiste en pensar en una seal discreta
como una sucesin de impulsos individuales.
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 7
Suponiendo un sistema LIT cualquiera con las propiedades citadas, como se
muestra en la figura 1.4, se cumple la expresin [22].
=
=
Ec. 1.1
Por la propiedad de la linealidad se obtiene:
=
Ec. 1.2
Y ahora considerando
= respuestaalimpulsounitario
Se puede representar la funcin de transferencia del sistema como:
= =
Ec. 1.3
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 8
La funcin de transferencia de un sistema LIT podr ser formulado mediante su
respuesta el impulso, representada por h(n). Y la operacin mostrada en la
ecuacin, que relaciona dicha respuesta al impulso y la entrada al sistema, se
le atribuye el nombre de suma de convolucin [22].
1.2.2 LIT CONTINUOS (INTEGRAL DE CONVOLUCIN)
Como se vio en el sistema discreto, la clave para el desarrollo de la suma de
convolucin fue la propiedad de representar matemticamente una seal como
la superposicin de funciones impulso unitario escaladas y desplazadas. En el
caso de los LIT continuos no existe una secuencia discreta de valores de
entrada [23]. Sin embargo, al pensar en el impulso unitario como la idealizacin
de un pulso tan corto que su duracin no tiene consecuencias en un sistema
fsico real, se puede realizar y desarrollar una representacin para seales
continuas arbitrarias en trminos de stos pulsos idealizados con una duracin
pequea que tiende a desaparecer [12].
Para esta seccin tomamos como base una seal &' que representa a la suma de versiones escaladas y desplazadas de la seal pulso bsico ), por lo tanto la respuesta &' de un sistema lineal a esta seal ser la superposicin de las respuestas a las versiones escaladas y desplazadas de
) [22]. Se define a *' como la respuesta de un sistema LIT a la entrada ' .
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 9
Entonces, suponiendo un sistema lineal de tiempo continuo, vemos que:
&' = *' Ec. 1.4
Dado que el pulso ' corresponde a un impulso unitario desplazado conforme 0, la respuesta *' a este pulso de entrada se convierte en la respuesta a un impulso en el lmite. Por lo tanto, se hace ,' denote la respuesta en el tiempo t a un impulso unitario ' - localizado en el tiempo -, entonces
' = lim. '
Ec. 1.5
[22] Conforme 0, la sumatoria del lado de derecho se convierte en una integral, por tanto,
' = 0 -,'1- Ec. 1.6
Quitando el subndice y definiendo la respuesta al impulso unitario h(t) como
' = .' Ec. 1.7
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 10
Es decir, h(t) es la respuesta a '. En este caso la ecuacin se vuelve:
' = 0 -' -1- Ec. 1.8
A sta ecuacin se le conoce como integral de convolucin , y corresponde a
la representacin de un sistema LIT continuo en trminos de su respuesta a un
impulso unitario [5]. La convolucin de dos seales x(t) y h(t) se representa
simblicamente como
' = ' ' Ec. 1.9
1.2.3 Propiedades de los sistemas LIT
Los sistemas LIT tiene varias propiedades que no poseen otros sistemas, en
esta seccin se explorarn algunas de las ms importantes y bsicas de estas
propiedades, las cuales se separan en discretas y continuas para poder
observar cada uno de los tipos de LIT por separado [11].
Propiedad Conmutativa
Una propiedad bsica de la convolucin tanto continua como discreta,
consiste en que es una operacin conmutativa.
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 11
Caso discreto:
= =
Ec. 1.10
Caso continuo:
' ' = ' ' = 0 -' -1- Ec. 1.11
Propiedad Distributiva
Otra propiedad bsica de la convolucin es la propiedad distributiva. La
convolucin se distribuye a travs de la adicin [21].
Caso Discreto:
2 + 4 = 2 + 4 Ec. 1.12
Caso Continuo:
' 2' + 4' = ' 2' + ' 4' Ec. 1.13
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 12
Propiedad asociativa
Otra propiedad importante y til de la convolucin es la asociativa [22].
Caso Discreto:
2 4 = 2 4 Ec. 1.14
Caso Continuo:
' 2' 4' = ' 2' 4' Ec. 1.15
1.3 LA TRANSFORMADA CONTINUA DE FOURIER
La representacin de seales no peridicas se puede lograr mediante una
combinacin lineal de exponenciales complejas [12]. Mientras que para las
seales peridicas las exponenciales complejas que las constituyen estn
relacionadas armnicamente, para las seales aperidicas estn
infinitesimalmente cercanas en frecuencia, y la representacin en trminos de
una combinacin lineal adopta la forma de una integral, en lugar de una suma.
El espectro de coeficientes resultante en esta representacin se conoce como
transformada de Fourier, y la integral de sntesis por s misma, la cual usa
estos coeficientes para representar la seal como una combinacin lineal de
exponenciales complejas, se llama la transformada inversa de Fourier [11].
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 13
1.3.1 Representacin de seales aperidicas
Para tener una idea sobre le representacin de la transformada de Fourier,
comenzaremos por definir la representacin de la transformada de Fourier de
una onda peridica cuadrada continua sobre un periodo de tiempo [5].
' = 5 1,|'| < 20,2 < |'| < 2
Para esta forma, los coeficientes de la serie de Fourier ; para esta onda cuadrada son
; = 2.2>? Ec. 1.16
donde >. = 4@A . Una forma alternativa de representar la ecuacin 1.16 es en forma de muestras de una funcin envolvente, resultando
; = 2
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 14
independiente de T [22]. Se deduce que a medida que T se incrementa, o a
medida que la frecuencia fundamental B. = 2F/ disminuye, la envolvente se muestrea con un espaciamiento cada vez ms estrecho. Por otro lado,
conforme T incrementa, la onda cuadrada peridica original se aproxima a un
pulso rectangular. As mismo, los coeficientes de la serie de Fourier,
multiplicados por T, resultan en muestras de la envolvente con un
espaciamiento cada vez ms estrecho; de alguna manera el conjunto de
coeficientes de la serie de Fourier se aproxima a la funcin de la envolvente a
medida que [11].
Este ejemplo muestra la idea bsica que permiti a Fourier el desarrollo de una
representacin para seales aperidicas. En forma especfica, se piensa en
una seal aperidica como el lmite de una seal peridica cuando el periodo
se hace excesivamente grande, y se examina el comportamiento limitante de la
representacin de la serie de Fourier para esta seal [23]. Ahora se considera
una seal x(t) con duracin finita, para un nmero de 2, ' = 0
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 15
Fig. 1.5 (a) Seal aperidica x(t) (b) Seal peridica &' construida para que sea igual a x(t) en un periodo [22].
Se examina ahora el efecto de esto sobre la representacin en serie de Fourier
de &', sobre el intervalo /2 K ' K /2 tenemos
&' ;=LCD)
Ec.1.18
; 1 0&'A4
A4
=LCD)1'
Ec. 1.19
donde B. 2F/ [11]. Ya que &' ' para |'| 9 /2, y tambin, ya que x(t)=0 fuera de dicho intervalo, la ecuacin 1.19 se puede escribir como
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 16
; = 1 0 'A/4
A/4=LCD)1' = 1 0 '=LCD)1'
Ec. 1.20
Por lo tanto, se define la envolvente MNB de ; como
MNB = 0 '=LCD)1'
Ec. 1.21
Tenemos para los coeficientes ;,
; = 1MNB. Ec. 1.22
Combinando las ecuaciones 1.22 y 1.18 se puede expresar en trminos de
MNB como
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 17
&' = 1 MNB.
=LCD)
Ec. 1.23
O de manera equivalente, ya que 4@A B.,
&' 12F MNB.=LCD)
B.
Ec. 1.24
Cuando , &' se aproxima a ' y en consecuencia, la ecuacin 1.24 en el lmite se convierte en una representacin de ' [22]. Adems, B. 0 conforme , y el miembro derecho de la ecuacin 1.24 se vuelve una integral. Esto se puede ver al considerar la interpretacin grfica de la ecuacin
que se muestra en la figura 1.6.
Fig. 1.6 Representacin grfica de la ecuacin 1.24 [22].
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 18
Cada trmino en la sumatoria en el miembro derecho es el rea de un
rectngulo de altura MNB.=LCD) y ancho B.. Conforme B. 0, la sumatoria converge a la integral de MNB=LC). Por lo tanto, como &' ' conforme , se puede ver que las ecuaciones 1.24 y 1.21 se convierten respectivamente [5].
' = 12F 0 MNB=LC)1B
Ec. 1.25
MNB = 0 '=LC)
1' Ec. 1.26
Las ecuaciones 1.25 y 1.26 son conocidas como el par de transformadas de
Fourier cuya funcin MNB se conocer como transformada de Fourier o integral de Fourier de x(t), y la ecuacin 1.25 como la ecuacin de la transformada
inversa de Fourier [12]. La ecuacin, en las seales aperidicas, representan la
seal como una combinacin lineal de exponenciales complejas. La
transformada MNB de una seal aperidica ' se conoce comnmente como el espectro de ', ya que nos proporciona la informacin necesaria para describir a ' como una combinacin lineal de seales senoidales a diferentes frecuencias.
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 19
1.3.2 LA TRANSFORMADA DE FOURIER PARA SEALES PERI DICAS
En la seccin anterior se desarroll la representacin de la transformada de
Fourier, ah se enfoc sobre todo en las seales aperidicas, pero se pudo
tambin desarrollar las representaciones de la transformada de Fourier para
seales peridicas. Se puede construir de forma directa la transformada de
Fourier de una seal peridica a partir de su representacin en serie de
Fourier. La transformada resultante consistir en un tren de impulsos en el
dominio de la frecuencia, con las reas de los impulsos proporcionales a los
coeficientes de la serie de Fourier [22].
Se considera una seal ' con transformada de Fourier MNB que consiste en un solo impulso de rea 2F en B = B.; esto es,
MNB = 2FB B. Ec. 1.27
Para determinar la seal ' de la cual sta es la transformada de Fourier podemos aplicar la relacin de la transformada inversa, ecuacin 1.25, para
obtener
' = 12F 0 2FB B.=LC)1B
Ec 1.28
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 20
De manera ms general, si MNB es de la forma de una combinacin lineal de impulsos igualmente espaciados en frecuencia, esto sera
MNB = 2F;B B. Ec. 1.29
Entonces la aplicacin de la ecuacin 1.25 nos da
' = ;=LCD) Ec. 1.30
Vemos que la ecuacin 1.30 corresponde exactamente a la representacin de
la serie de Fourier de una seal peridica. Por lo tanto, la transformada de
Fourier de una seal peridica con coeficientes de la serie de Fourier ; se pueden interpretar como un tren de impulsos que ocurren a las frecuencias
relacionadas armnicamente y para las cuales el rea del impulso en la kesima
frecuencia armnica B. es 2F veces el k-simo coeficiente de la serie de Fourier ; [11].
1.3.3 PROPIEDADES DE LA TRANSFORMADA CONTINUA DE F OURIER
En esta seccin se consideran varias propiedades de la transformada de
Fourier. Las propiedades de la transformada de Fourier proporcionan un gran
conocimiento acerca de la transformada y de la relacin que existe entre las
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 21
descripciones de una seal en los dominios del tiempo y de la frecuencia [12].
Adems, la mayora de estas propiedades son tiles para reducir la
complejidad en la evaluacin de las transformadas o de las transformadas
inversas de Fourier. Existe mucha relacin entre las representaciones de la
serie de Fourier y de la transformada de Fourier de una seal peridica, por lo
tanto, haciendo uso de esta relacin es posible trasladar muchas de las
propiedades de las transformadas de Fourier hacia las propiedades
correspondientes de las series de Fourier [23].
Durante el anlisis de las propiedades, se remitir con frecuencia a funciones
de tiempo y sus transformadas de Fourier, por lo cual se usar una notacin
sinttica para indicar la relacin entre una seal y su transformada. Una seal
' y su transformada de Fourier MNB estn relacionadas mediante las ecuaciones de sntesis (Ec. 1.25) y de anlisis (Ec. 1.26) de la transformada de
Fourier [11].
' = 12F 0 MNB=LC)1B
Ec. 1.31
MNB = 0 '=LC)
1' Ec. 1.32
Tambin se podr aludir a MNB mediante la notacin O|'| y a ' con la notacin de O2|MNB|. Tambin se referir a ' y MNB como un par de transformadas de Fourier mediante la notacin:
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 22
' PMNB Linealidad [22]
Si
' PMNB y
' PRNB entonces
;' + S' P;MNB + SRNB Ec. 1.33
Desplazamiento del tiempo [11]
Si
' PMNB Entonces
' '. P=LC)DMNB Ec. 1.34
Para establecer esta propiedad se considera la ecuacin 1.31:
' = 12F 0 MNB=LC)1B
Reemplazando t con ' '. en esta ecuacin, se obtiene: ' '. = 12F0 MNB
=LC))D1B
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 23
= 12F0 =LC)DMNB =LC)1B
Se reconoce en sta como la ecuacin de sntesis para ' '., se concluye que
O' '. = =LC)DMNB
Una consecuencia de la propiedad de desplazamiento es que una seal
que es desplazada en tiempo, no tendra alterada la magnitud de su
transformada de Fourier [22]. Por lo tanto, un efecto de un
desplazamiento en el tiempo de una seal es introducir en su
transformada un desplazamiento de fase, esto es, B'., la cual es una funcin de B.
Diferenciacin e integracin
Sea ' una seal con una transformada de Fourier MNB. [23] Entonces, al diferenciar ambos miembros de la ecuacin de sntesis (Ec.
1.31) de la transformada de Fourier, se obtiene:
1'1' = 12F0 NBMNB=LC)1B
Por tanto
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 24
1'1' P NBMNB Ec. 1.35
sta es una propiedad de particular importancia, ya que reemplaza la
operacin de diferenciacin en el dominio del tiempo con la de
multiplicacin por NB en el dominio de la frecuencia.
Escalamiento de tiempo y frecuencia [22]
Si
' PMNB
Entonces
;' P 1|;| MNB; Ec. 1.36
Donde ; es una constante real. Esta propiedad se obtiene directamente de la definicin de la transformada de Fourier. Especficamente,
OT;'U = 0 ;' =LC)1'
Usando la sustitucin de variables - = ;', se obtiene:
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 25
OT;'U =VWXWY1; 0 -=LZC[\,1-,; > 0
1;0 -=LZC[\,1-,; > 0
La cual corresponde a la ecuacin 1.36. Entonces, adems del factor de
amplitud de 1/|;|, el escalamiento lineal en tiempo por un factor a corresponde a un escalamiento lineal en frecuencia por un factor 1/;, y viceversa.
Tambin, considerando que ; = 1, en la ecuacin 1.36 se tiene:
' PMNB Ec. 1.37
Esto es, al invertir una seal en el tiempo tambin se invierte su
transformada de Fourier.
Un ejemplo de la ecuacin 1.36 es el efecto en el contenido de la
frecuencia que resulta cuando una cinta de audio se graba a una
velocidad y se reproduce a diferente velocidad. Si la velocidad de
reproduccin es mayor que la velocidad de grabacin, corresponde a
una compresin en tiempo (; > 1), entonces el espectro se expande en frecuencia y el efecto auditivo consiste en que las frecuencias de la
reproduccin son ms altas [12]. De manera contraria, la seal tendr
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 26
frecuencias ms bajas si la velocidad de reproduccin es ms lenta que
la velocidad de grabacin (0 < ;).
La propiedad de escalamiento es un ejemplo de la relacin inversa entre
el tiempo y la frecuencia. Por ejemplo, conforme se incrementa el
periodo de una seal senoidal, disminuimos su frecuencia [11].
La relacin inversa entre el dominio del tiempo y de la frecuencia es de
gran importancia dentro de una amplia variedad de contextos de seales
y sistemas, incluyendo el filtrado y diseo de filtros.
1.4 LA TRANSFORMADA DE FOURIER DE TIEMPO DISCRETO
En las secciones anteriores se pudo ver que existen muchas similitudes y un
marcado paralelismo en el anlisis de las seales continuas y discretas, pero
tambin se observ que existen diferencias importantes, por ejemplo, la
representacin en serie de Fourier de una seal peridica discreta es una serie
finita, opuesta a la representacin en serie infinita requerida para las seales
peridicas continuas [22].
Existen diferencias que son correspondientes en las transformadas de Fourier
continua y de tiempo discreto.
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 27
1.4.1 Representacin de seales aperidicas
En la seccin 1.3.1 se estableci que los coeficientes de la serie de Fourier
para una onda cuadrada peridica continua se pueden considerar como las
muestras de una funcin envolvente y que, conforme el periodo de la onda
cuadrada se incrementa, estas muestras llegan a estar cada vez ms cercanas
unas de otras [11]. Esta propiedad sugiri la representacin para una seal
aperidica ' construyendo primero una seal peridica ]' que igualara a ' sobre un periodo. Entonces conforme este periodo se aproximaba a infinito ]' era igual a ' sobre intervalos de tiempo cada vez ms grandes, y la representacin en serie de Fourier para ]' se aproximaba a la representacin de la transformada de Fourier de ' [22]. Ahora se aplicar un procedimiento anlogo a las seales discretas para desarrollar la representacin de la
transformada de Fourier para secuencias aperidicas discretas.
Se considera una secuencia general ^_ que tiene duracin finita. Esto es, para algunos enteros 2 y 4, ^_ = 0 fuera del intervalo 2 4. En la figura (a) se muestra una seal de este tipo [23]. A partir de esta seal
aperidica podemos construir una secuencia peridica ] para la cual ^_ sea un periodo, como se ilustra en la figura (b). Cuando se hace que el periodo
sea ms grande,] es idntica a ^_ sobre un intervalo ms grande, y conforme ` , ] = para cualquier valor finito de n.
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 28
Fig. 1.7 (a) Seal x[n] de duracin finita. (b) seal peridica ] construida para que sea igualada a x[n] en un periodo [22].
Se examina la representacin en serie de Fourier de ], se tiene:
] = ;=LZ4@a \ba Ec. 1.38
; = 1` ]=LZ4@a \bba Ec. 1.39
Puesto que ] sobre un periodo que incluye el intervalo 2 K K 4, es conveniente seleccionar un intervalo de la sumatoria en la ecuacin 1.39
que incluya este intervalo, de manera que ] pueda reemplazarse por x[n] en la sumatoria [11]. Por lo tanto,
; 1` =LZ4@a \b
ac
bad 1` =
LZ4@a \b
b
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 29
Ec. 1.40
donde en la segunda igualdad nos hemos valido del hecho de que x[n] es cero
fuera del intervalo 2 4. Definiendo la funcin
Me=LCf = =LCbb
Ec. 1.41
Se puede observar que los coeficientes ; son proporcionales a las muestras de M=LC, es decir,
; = 1 M=LCD Ec. 1.42
Donde B. = 2F/` es el espaciamiento de las muestras en el dominio de la frecuencia [22]. Al combinar las ecuaciones 1.38 y 1.42 se obtiene
] = 1 M=LCD
a
=LCDb Ec. 1.43
Ya que B. = 2F/` o de manera equivalente, 1/N = B./2F, la ecuacin 1.43 se puede reescribir como
] = 12F M=LCD=LCDbB.a Ec. 1.44
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 30
Conforme N aumenta, B. disminuye, y conforme ` la ecuacin 1.44 se vuelve una integral. Para ver esto ms claramente, se considera que se
representa M=LC=LCb como el trazo de la figura 1.8. De la ecuacin 1.41 se puede ver que M=LC es peridica en B con periodo 2F y tambin lo es =LCb. Entonces el producto M=LC=LCb tambin ser peridico [12].
Fig. 1.8 Representacin grfica de la ecuacin 1.44 [22].
Como hemos representado en la figura, cada trmino en la sumatoria de la
ecuacin 1.44 representa el rea de un rectngulo de altura M=LCD=LCDb y ancho B.. A medida que B. 0, la sumatoria se vuelve una integral. Debido a que la sumatoria se realiza sobre N intervalos consecutivos de ancho
B. 2F/`, el intervalo total de integracin siempre tendr un ancho de 2F [23]. Por lo tanto, medida que ` , ] , y la ecuacin 1.44 se convierte en
12F0 M=LC=LCb1B4@
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 31
donde, debido a que M=LC=LCb es peridica con periodo 2F, el intervalo de integracin se puede tomar como cualquier intervalo de longitud 2F [12] . Se tiene as el siguiente par de ecuaciones:
= 12F0 M=LC=LCb1B4@ Ec. 1.45
Me=LCf = =LCbb
Ec. 1.46
Las ecuaciones (1.45) y (1.46) son la contraparte discreta de las ecuaciones de
(1.25) y (1.26). La funcin M=LC so conoce como la transformada de Fourier de tiempo discreto y el par de ecuaciones se conocen como el par de
transformada de Fourier. La ecuacin 1.45 es la ecuacin de sntesis y la
ecuacin 1.46 es la ecuacin de anlisis [22]. La ecuacin de sntesis es una
representacin de x[n] como una combinacin lineal de exponenciales
complejas muy cercanas en frecuencia y con amplitudes Me=LCfgC4@. Es por esto, igual que en el caso continuo, que regularmente se hace referencia a la
transformada Me=LCf como el espectro de x[n], ya que proporciona la informacin acerca de cmo x[n] est compuesta de exponenciales complejas
a frecuencias diferentes.
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 32
1.4.2 LA TRANSFORMADA DE FOURIER DE TIEMPO DISCRETO PARA
SEALES PERIDICAS.
Como en el caso continuo [11], las seales peridicas discretas se pueden
incorporar dentro del marco de referencia de la transformada de Fourier de
tiempo discreto cuando se interpreta la transformada de una seal peridica
como un tren de pulsos en el domino de la frecuencia. Para deducir la forma de
esta representacin, se considera la seal
= =LCDb Ec. 1.47
En el caso continuo se vio que la transformada de Fourier de =LCD) se puede interpretar como un impulso en B = B.. Por lo tanto, se espera que resulte el mismo tipo de transformada para la seal discreta de la ecuacin 1.47. Sin
embargo, la transformada de Fourier de tiempo discreto debe ser peridica en
B con periodo de 2F [22]. Esto nos seala entonces que la transformada de Fourier de x[n] en la ecuacin 1.47 debe tener impulsos en B., B. 2F, B. 4F y as sucesivamente.
Esto nos da la transformada de Fourier de x[n] como un tren de impulsos que
se muestra en la figura 1.9
Me=LCf = 2FB B. 2Fjk Ec. 1.48
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 33
Fig. 1.9Transformada de Fourier de = =LCDb [22].
Se observa que cualquier intervalo de longitud 2F incluye exactamente un impulso en la sumatoria expresada en la ecuacin 1.48.
1.4.3 PROPIEDADES DE LA TRANSFORMADA DE FOURIER DE TIEMPO
DISCRETO
Justo como ocurre con la transformada continua de Fourier, existen una gran
variedad de propiedades de la transformada de Fourier de tiempo discreto, esto
proporciona un mayor conocimiento de la transformada, lo cual es muy til
conocer para reducir la complejidad de la evaluacin de las transformadas y las
transformadas inversas [23]. Es importante conocer que existe una estrecha
relacin entre la serie de Fourier y la transformada de Fourier, por lo cual
muchas propiedades de la transformada se derivan de las propiedades
correspondientes de la serie de Fourier de tiempo discreto.
Es conveniente utilizar una notacin especfica para indicar el par de una seal
y su transformada. Esto es,
Me=LCf OTU O2lM=LCm
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 34
PM=LC Periodicidad de la transformada de Fourier de tiemp o discreto
Como se analiz anteriormente, la transformada de Fourier de tiempo
discreto siempre es peridica en B con un periodo 2F; es decir, Me=LCn4@f = M=LC
Ec. 1.49
Esta expresin contrasta con la transformada continua de Fourier, la
cual en general es no peridica [11].
Linealidad de la transformada de Fourier [12]
Si
2 PM2=LC Y
4 PM4=LC Entonces
;2 + S4 P;M2e=LCf + SM4=LC Ec. 1.50
Desplazamiento de tiempo y desplazamiento de frecue ncia [22]
Si
PM=LC Entonces
Captulo 1. Conceptos de Procesamiento de Seales
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 35
. P =LCbDMe=LCf Ec. 1.51
Y
=LCDb PM=LCCD Ec. 1.52
La ecuacin 1.51 se puede obtener mediante la sustitucin directa de
. en la ecuacin de anlisis (1.46), mientras que la ecuacin 1.52 se deduce al sustituir M=LCCD en la ecuacin de sntesis (1.45).
Captulo 2. Caracterizacin en tiempo y frecuencia
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 36
CAPTULO 2. CARACTERIZACIN EN TIEMPO Y FRECUENCI A
Los campos de aplicacin de las representaciones Tiempo Frecuencia son
cada vez ms amplios, pues se ha comprobado que mejoran los resultados de
los mtodos espectrales y temporales clsicos al ser capaces de reflejar
cambios en frecuencia con respecto al tiempo (transitorio espectrales), cosa
que en un anlisis espectral clsico no se puede detectar, por lo que la
clasificacin o deteccin de determinadas propiedades de la seal analizada se
mejora [6]. Anlogamente, los mtodos basados en caractersticas temporales
no consiguen detectar caractersticas esenciales de la seal que son las que
muestran con certeza su naturaleza. Por ello, un uso combinado de ambos
dominios resulta en el aprovechamiento de caractersticas tiles presentes en
ambos dominios para as realizar diagnsticos ms fiables [10]. Inicialmente se
aplic en la deteccin por radar y reconocimiento del habla, pero hoy en da se
aplica en casi todos los campos de tratamiento digital de seales.
2.1 CONCEPTO DE TIEMPO - FRECUENCIA
Especificar la representacin en dominio del tiempo o de la frecuencia a una
seal cualquiera, no es necesariamente el primer paso de un anlisis tiempo
frecuencia. De hecho, las limitaciones de estas representaciones pueden
obstaculizar en gran medida nuestra comprensin de las propiedades de la
seal [23]. En una seal musical, el odo humano la interpreta como una serie
de notas, una serie de tomos de sonido apareciendo a determinados
Captulo 2. Caracterizacin en tiempo y frecuencia
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 37
tiempos, cada nota tiene una duracin finita y determinada altura (la frecuencia
del tono). Si la seal contiene una nota, por ejemplo LA, una representacin de
Fourier de la seal mostrar un pico en la frecuencia correspondiente, sin
ninguna indicacin de la duracin. La msica generalmente se representa en
una partitura. Y se sabe que la relacin tiempo frecuencia es precisamente la
informacin que est codificada en la notacin musical (Ver Fig. 2.1). Por ello,
se puede decir que la notacin musical es el prototipo de la representacin
tiempo frecuencia de las seales [30].
Fig. 2.1. Partitura de un arpegio [23].
(a)
(b)
Fig. 2.2. Seal (a) y Espectro de Fourier (b) del arpegio [23].
Captulo 2. Caracterizacin en tiempo y frecuencia
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 38
Fig. 2.3. Representacin Tiempo Frecuencia del arpegio [23].
Cuando la seal mostrada en la Fig. 2.1 es tocada con algn instrumento como
una flauta, es difcil de detectar su estructura matemtica De hecho, la
representacin grfica de la seal y su espectro de Fourier (Fig. 2.2) no son
capaces de revelar dicha estructura [7]. Por el contrario, el hecho de que es un
arpegio es mucho ms claro en una representacin tiempo frecuencia como
la representada en la Fig. 2.3, en la cual el tiempo y la frecuencia se
representan simultneamente. Se puede ver claramente que la representacin
tiempo frecuencia de la seal se localiza alrededor de cierto nmero de
puntos, y es posible asociar dichos puntos con las notas individuales (o sus
armnicos). Tambin se puede seguir la evolucin de la frecuencia
fundamental de la seal [23]. En la Fig. 2.3 se observa que la seal sigue una
curva que corresponde con la partitura de la Fig. 2.1.
En este captulo se hablar de algunos mtodos matemticos usados en la
representacin tiempo frecuencia de seales, tambin es necesario
mencionar alguno de las caractersticas principales de las representaciones
tiempo frecuencia,
Captulo 2. Caracterizacin en tiempo y frecuencia
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 39
No existe un solo mtodo para la representacin tiempo frecuencia:
Existen diferentes maneras de describir el contenido tiempo
frecuencia de una seal.
Para una determinada representacin tiempo frecuencia, es imposible
lograr una localizacin tiempo frecuencia perfecta. Debido al principio
de incertidumbre de Heisenberg. Esto significa que siempre se debe
suponer un pequeo error entre la localizacin del tiempo y la
localizacin de la frecuencia [8].
2.2 TRANSFORMADA DE FOURIER DE TIEMPO CORTO (STFT)
Como primera aproximacin a las transformadas tiempo frecuencia, una
posibilidad consiste en analizar la seal con transformadas de Fourier de
tiempo corto. As, tomando pequeas ventanas de la seal se apreciar que la
distribucin espectral de cada una de ellas vara con el tiempo, pudiendo
conocer con ms precisin la evolucin de las componentes espectrales [15].
La transformada corta de Fourier ha sido muy utilizada en diferentes
aplicaciones debido a su sencillez de implementacin, pero dada su baja
resolucin espectral y temporal se tiende a dejar de utilizarla a favor de otros
mtodos. Es empleada frecuentemente para el anlisis de voz, y en el campo
de las seales biomdicas para deteccin de FV [10].
Si para una seal de larga duracin se toman pequeos tramos de ella
realizando un enventanado, y se calcula la transformada de Fourier de ese
Captulo 2. Caracterizacin en tiempo y frecuencia
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 40
tramo, podremos conocer las componentes frecuenciales de cada tramo en una
ventana de tiempo pequea. As, analizando cada transformada de Fourier se
observa el cambio de dichas componentes frecuenciales [18]. La transformada
de Fourier de tiempo corto se define como:
, = [ ]
Ec. 2.1
La eleccin del tamao de la ventana es crtica a la hora de obtener buena resolucin. Si lo que se desea es obtener una resolucin grande en el dominio
temporal elegiremos una ventana de poca longitud, en cambio, la distribucin
espectral estar muy dispersa y no podremos conocer con exactitud sus
componentes. Por el contrario, la eleccin de una ventana grande nos mostrar
con ms precisin las componentes en frecuencia, pero se perder la idea del
momento en que se produjeron cada una de ellas [30].
La ventana de anlisis que se haya escogido para trabajar suprime a toda la
seal fuera de sta, el resultado es un espectro local alrededor de t.
Se toma como ejemplo la palabra GABOR, la cual se muestra su grfica de
tiempo y su densidad espectral de energa en la Fig. 2.4.
Captulo 2. Caracterizacin en tiempo y frecuencia
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 41
Fig 2.4. Seal de voz correspondiente a la palabra GABOR. Seal en el tiempo y su densidad
espectral de energa [6].
En la Fig. 2.4 se puede observar que existen componentes principales a
diferentes frecuencias, pero no se puede especificar en que momento
ocurrieron [6].
Despus de utilizar la Transformada de Fourier de Tiempo Corto, se grafica la
magnitud al cuadrado utilizando una ventana de anlisis de Hamming de 85
puntos. El resultado se muestra en la Fig. 2.5.
Captulo 2. Caracterizacin en tiempo y frecuencia
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 42
Fig. 2.5. Seal de voz analizada en el plano tiempo frecuencia [6].
En la Fig. 2.5. se puede observar un primer patrn correspondiente a la slaba
GA, un segundo patrn correspondiente a la slaba BOR y armnicas de
menor amplitud.
Los principales campos de aplicacin dentro del procesado de seales han sido
la identificacin de sistemas, estimacin espectral, deteccin de seales,
estimacin de parmetros y anlisis del habla [6].
2.3 DISTRIBUCIN WIGNER VILLE
La distribucin Wigner - Ville (WVD) data de 1948 y es histricamente la
primera tcnica que busca obtener informacin sobre una seal, consiguiendo
simultneamente una localizacin temporal y frecuencial. Fue propuesta por
J. Ville como una densidad temporal frecuencial. Cuando se la aplica a
Captulo 2. Caracterizacin en tiempo y frecuencia
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 43
oscilaciones puras, proporciona una localizacin ptima. El buen
comportamiento se mantiene tambin a seales que son ciertas
transformaciones simples de una nica oscilacin pura. Pero aparecen
problemas al analizar seales ms complejas, por ejemplo la suma de seales
simples. En estos casos el resultado no es la suma de las WVD de aqullas,
sino que aparecen trminos de interferencia. En definitiva, la WVD no es
lineal [14].
Dada una seal f, su transformada Wigner Ville est definida como
, = + 2
2"
#
#
Ec. 2.2.
siendo x(t) la seal analtica asociada a la seal original. Es decir:
= + $% Ec. 2.3
siendo H( f(t) ) la transformada de Hilbert de f(t).
Si denotamos:
= + 2 2
Ec. 2.4
Captulo 2. Caracterizacin en tiempo y frecuencia
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 44
a esta funciTrn se le denomina t-autocorrelacin. Siendo su interpretacin
similar a la autocorrelacin pero dando informacin localizada en el instante t
[13].
Como la transformada de Fourier de la autocorrelacin proporciona el mdulo
de la transformada de Fourier de la seal, la distribucin de Wigner Ville se
interpresta como el mdulo de la contribucin para una frecuencia ' en un instante t de la seal [7].
La sugerencia original de Ville fue considerar la transformada Wigner Ville de
una seal como una probabilidad de medida en el plano tiempo frecuencia.
Esta propuesta demostr ser inadecuada, debido a los valores negativos que
tiene la representacin. Sin embargo, la transformada de Wigner Ville tiene
algunas propiedades interesantes. Entre ellas, las propiedades de localizacin
son consideradas de gran importancia [14]. Ellas expresan que la transformada
se adapta de una manera excelente para algunas clases especficas de
seales; por ejemplo, se puede decir que la Transformada es Fourier es ptima
para sinos y cosenos, tomando en cuenta que toda la energa de la
transformada de Fourier en dichas funciones, est localizada en un solo punto
[7]. Teniendo en cuenta que una localizacin optima para diferentes clases de
seales es una de las metas ms importantes en el anlisis de tiempo
frecuencia, tenemos que:
La transformada de Wigner Ville tiene una localizacin ptima para
seales Dirac.
Captulo 2. Caracterizacin en tiempo y frecuencia
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 45
La transformada de Wigner Ville tiene una localizacin ptima en el
dominio de la frecuencia en las ondas monocromticas puras y en las
seales chirp lineales. (Fig. 2.6)
Fig. 2.6 . Distribucin Wigner Ville de una seal chirp linear: casi una perfecta localizacin en
el plano tiempo frecuencia [6].
Conservacin de la Energa [13]: Integrando la distribucin Wigner
Ville en todo el plano tiempo frecuencia, se obtiene la energa de x:
() = ), ####
Ec. 2.5
Propiedad Marginal: La densidad del expectro de energa y a potencia
instantnea pueden obtenerse como distribuciones marginales de ).
Captulo 2. Caracterizacin en tiempo y frecuencia
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 46
), = |+|#
#
), = ||#
#
Traduccin de covarianza [14]: La distribucin de Wigner Ville es
covariante en tiempo y frecuencia.
= , ., = ) ,,
= "/ ., = ), ,
Compatibilidad con filtraciones: Si una seal y es la convolucin de x y h,
la WVD de y es la convolucin del tiempo entre la WVD de h y la WVD
de x.
= 000 ., = 1 0, )0, 0#
#
#
#
Compatibilidad con modulaciones: Si y es la modulacin de x de una
funcin m, la WVD de y es la convolucin de las frecuencias entre la
WVD de x y la WVD de m.
= 2 ., = 3, 4),#
#44
Captulo 2. Caracterizacin en tiempo y frecuencia
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 47
La distribucin Wigner Ville es bastante efectiva en la descomposicin tiempo
frecuencia de seales no estacionarias; su resolucin es mayor comparada a la
resolucin entregada por tcnicas lineales como la STFT, lo que permite una
mejor localizacin de la energa en el espacio tiempo frecuencia [13].
2.4 TRANSFORMADA DE GABOR
Una clase de representaciones tiempo frecuencia ampliamente difundida en
el mbito del procesamiento de seales se basa en el empleo de ventanas
temporales, esto es de funciones suaves y bien localizadas en un intervalo.
La ventana g(t) enmarca una porcin de la seal y permite aplicar localmente la
Transformada de Fourier. De este modo, se releva la informacin en frecuencia
localizada temporalmente en el dominio efectivo de la ventana.
Desplazando temporlamente la ventana se cubre el dominio de la seal
obtenindose la completa informacin tiempo frecuencia de la misma [6]:
05, 6 = 07 8#
#
Ec. 2.6.
Asumiendo que la ventana real g(t) est bien localizada en un intervalo
centrado en t=0, de longitud y que su transformada g(w) est tambin localizada en una banda centrada en w=0, de ancho 6, las ventanas desplazadas y moduladas 7 8 son funciones elementales bien
Captulo 2. Caracterizacin en tiempo y frecuencia
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 48
localizadas en el domunio conjunto tiempo frecuencia. Cada funcin
elemental se localiza en el rectngulo centrdo en el punto , 6 de dimensin 6.
Por tanto el conjunto de valores :05, 6; nos da un completo mapa en el dominio tiempo frecuencia que despliega la informacin de la seal. Ms an,
sta puede recuperarse con la frmula de inversin [12]:
0 = 12= 05, '>'#
#
#
#
Ec. 2.7.
La misma sintetiza la seal como la superposicin integral de las funciones
elementales 7 >. El mapeo sobre dominio tiempo frecuencia, bajo las condiciones referidas, se conoce como la transformada de Gabor y
representa una atractiva generalizacin de la transformada de Fourier.
Esta transformada se puede reformular considerando ahora el par de ventanas
moduladas reales 7 cos' y 7 sin'. Estos pares de ventanas moduladas actan como filtros pasabanda, con definicin de fase. De tal modo
la Transformada de Gabor puede entenderse como un tratamiento localizado
de la seal mediante filtros pasabanda deslizantes, de ancho de banda
constante [18].
Captulo 2. Caracterizacin en tiempo y frecuencia
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 49
2.4.1 Ventanas comunmente utilizadas
Cualquier ventana integrable puede utilizarse en la transformada de Gabor,
pero algunas opciones son ms convenientes que otras. La principal
caracterstica de una buena ventana es estar bien definidas en los dominios
del tiempo y la frecuencia. Algunas de las usadas ms comunmente se
muestran en la Fig. 2.7, y los logaritmos de sus transformadas de Fourier se
pueden ver en la Fig. 2.8.
Fig. 2.7. Ventanas comunmente utilizadas en el anlisis de Gabor. La notacin del eje
horizontal debe dividirse entre 512 para coincidir con las frmulas matemticas dadas en la
monografa [23].
Captulo 2. Caracterizacin en tiempo y frecuencia
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 50
Fig. 2.8. Grfica del logaritmo ' DE7F,|7| de las grficas mostradas en la Fig 2.7 [23].
La razn principal para usar estas ventanas es el hecho de que tengan formas
simples y funcionales y que sus transformadas de Fourier estan concentradas
esencialmente alrededor del origen ' = 0, como se ven en la Fig. 2.8. Las frmulas matemticas que definen a dichas ventanas son las siguientes[18]:
Rectangular
7 = H1,0 I I 1/20,1/2 K K 0 Ec. 2.8
Triangular (Bartlett)
7 L2,0 I I 1/221 ,1/2 K I 10,1 K K 0 Ec. 2.9
Captulo 2. Caracterizacin en tiempo y frecuencia
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 51
Hanning
7 = H0.54 0.46 cos2= ,0 10,1 < < 0 Ec. 2.10
Blackman
7 = H0.42 0.5 cos2= + 0.08 cos4= ,0 10,1 < < 0
Ec. 2.11
2.4.2 Ejemplo de Anlisis de Voz
Se considera la seal de voz de la Fig. 2.9. Un posible modelo para describir la
seal, al menos en su parte central, est dado por la ecuacin
=RSTUE0TW
TXF
Ec. 2.12
Con frecuencias aproximadamente de la forma TY D,Y D',, donde ', es la frecuencia de paso [12].
Captulo 2. Caracterizacin en tiempo y frecuencia
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 52
Es claro que si el ancho de banda de la ventana a usarse en este ejemplo
excede ',, cada una de las funciones de Gabor con frecuencia dentro de la banda de frecuencia de la seal ver varias armnicas de la seal. Esto es
perfectamente visible en la Fig. 2.9(c), donde la transformada de Gabor oscila
en funcin del tiempo con frecuencia igual a la altura de la seal [23].
Fig. 2.9 (a) Seal de Voz How are you, (b) Transformada de Gabor con una ventana estrecha,
(c) Transformada de Gabor con una ventana ms amplia [23].
En contraste, cuando el ancho de banda es ms pequeo que la frecuencia de
corte, no existe la interferencia.
Captulo 2. Caracterizacin en tiempo y frecuencia
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 53
2.5 TRANSFORMADA WAVELET
Una alternativa a la transformada de Gabor es la de utilizar ventanas
moduladas, pero de dimensin variable, ajustada a la frecuencia de oscilacin.
Ms precisamente, que mantenga un mismo nmero de oscilaciones en el
dominio de la ventana. Esto sugiere, contar con una nica ventana modulada y
generar una completa familia de funciones elementales mediante sus
dilataciones o contracciones y traslaciones en el tiempo [20]:
[ 1\|]|[ ^]
Ec. 2.13
Donde ] 0 y b son los parmetros de escala y traslacin. Se preserva la energa de las funciones mediante un factor de normalizacin.
La funcin [, debe verificar ciertas condiciones de admisibilidad y se denomina wavelet madre y el resto de las funciones generadas, simplemente
wavelets [17]. Se denotan las mismas como:
[`,a 1\|]|[ ^]
Ec. 2.14
Las condiciones de admisibilidad bsicamente requieren que la funcin [, est bien localizada en tiempo, de media nula y que la transformada [b' sea
Captulo 2. Caracterizacin en tiempo y frecuencia
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 54
un filtro continuo pasa banda, con rpido decaimiento hacia el infinito y hacia
' = 0.
Entonces, dada una seal s(t), de energa finita la Transformada Wavelet
Continua de s se define como:
c0], ^ = 0[`,a#
#
Ec. 2.15
Para cada par de parmetros reales (a,b), ] 0. Si la onda es real, la definicin se restringe para valores positivos de a [19]. La transformacin as
definida preserva la energa de la seal, y posee una frmula integral de
inversin. Si la wavelet madre es real, la reconstruccin se realiza como:
0 = dc c0], ^[`,a ^]]#
#
#
,
Ec. 2.16
Donde dc es una constante positiva.
La frmula expresa la sntesis de la seal como la superposicin integral de las
funciones elementales [`,a.
El mapeo sobre dominio tiempo frecuencia en (a,b), esto es la Transformada
Wavelet Continua, representa una novedosa alternativa a la Transformada de
Captulo 2. Caracterizacin en tiempo y frecuencia
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 55
Fourier por ventanas. Ella despliega la informacin de la seal en una
estructura radicalmente diferente [6].
Cualquier wavelet real [, admisible, est bien localizada en un intervalo centrado en un ,, de longitud y que su transformada [b' est localizada en una banda biltera 0 'F |'| ', de ancho >. Entonces, las waveletes [`,a estn localizadas en el intervalo centrado en ], + ^, de longitud ] en la banda biltera 0 'F/] |'| '/], de ancho >/].
Se observa que la precisin en tiempo es inversamente proporcional a la
precisin en frecuencia, mantenindose constante la relacin 8. Esta es la diferencia fundamental con la Transformada de Gabor [20].
Ms an, para cada valor de a, la familia de wavelets parametrizada por b, se
comporta como una ventana deslizante, de ancho de banda constante, pero el
nmero de oscilaciones de estas ondas elementales es siempre el mismo, en el
marco efectivo de la ventana.
Por otra parte, si la transformada [b' decae rpidamente a cero en torno de ' = 0, se verifica la propiedad de oscilacin:
e[ = 0#
#
Ec. 2.17
Captulo 2. Caracterizacin en tiempo y frecuencia
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 56
Para k = 0,..,K. Esta importante propiedad, que no posee la Transformada de
Gabor, es trascendente en las aplicaciones de anlisis de seales, para la
deteccin de fenmenos puntuales, como discontinuidades o bruscos cambios
en las derivadas [19].
En efecto, si modelamos apropiadamente la seal fsica, por una funcin s(t),
de modo que las derivadas reflejen los cambios de locales de comportamiento,
en torno de cada punto `,a = ], + ^, de radio , el proceso queda caracterizado por el correspondiente polinomio de Taylor, hasta cierto orden
K+1. Si el proceso es razonablemente suave en el entorno, la propiedad de
oscilacin nos dice que la magnitud fc0], ^f es no significativa. En contraposicin, un brusco cambio en el entorno, que se refleja en la derivada
de orden K+1, podr ser bien detectado.
Otra propiedad relevante de la transformada continua es su invariancia
respecto de las traslaciones o cambios de escala de seal. Estructuras
similares, sern detectadas de la misma forma, independientemente de su
localizacin temporal o escala [23].
En suma, por sus propiedades la Transformada Wavelet constituye una
promisoria y ventajosa alternativa para el procesamiento de seales, en
particular las de Emisiones Acsticas.
Captulo 3. Aplicaciones de Procesamiento de Voz.
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 57
CAPITULO 3. APLICACIONES DE PROCESAMIENTO DE VOZ
Las aplicaciones de procesamiento de voz son cada vez ms frecuentes en
todos los mbitos de nuestra vida, las empresas de todos los rubros avanzan a
pasos agigantados en cuanto a tecnologa se refiere y dentro de esta
evolucin, el procesamiento de voz adquiere un papel cada vez ms
importante.
En esta investigacin se advirti que casi todas las aplicaciones utilizan las
mismas bases para aplicar el procesamiento de voz en sus productos. La
relacin tiempo frecuencia. Esto para obtener los espectros de las seales de
audio y compararlos con una base de datos preestablecida para as poder
obtener un resultado deseado.
3.1 APLICACIONES CON MATLAB Y CSLU TOOLKIT [25]
3.1.1 CSLU Toolkit
CSLU Toolkit es un programa creado por el Oregon Graduate Institute of
Science & Technology (OGI). Las siglas CSLU corresponden al Center for
Spoken Language Understanding del mismo instituto.
El CSLU Toolkit es una plataforma para la investigacin y desarrollo de
sistemas de lenguaje hablado, la cual incluye herramientas audiovisuales para
el procesamiento y reconocimiento de voz.
Captulo 3. Aplicaciones de Procesamiento de Voz.
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 58
Entre estas herramientas tenemos la llamada Speech Viewer .
Fig. 3.1 Anlisis grfico en Speech Viewer [25].
En la Figura 3.1 se muestra el anlisis grfico de la pronunciacin de la letra
a. Este anlisis proporciona la siguiente informacin:
La ventana 1 muestra la forma de onda seleccionada del archivo de
sonido utilizado, el cual fue previamente grabado. Este grfico muestra
dos variables: Amplitud y Tiempo.
La ventana 2 muestra el espectrograma de la forma de onda
seleccionada. En este grfico se manejan tres variables: Frecuencia
(Hz), Tiempo (ms) y Amplitud (dB). Esta ltima variable se mide sobre el
eje z de la grfica. Las zonas rojas representan las frecuencias con
mayor amplitud, en tanto que las zonas verdes y oscuras presentan las
frecuencias con menor amplitud.
Con este programa se puede enfocar a detectar particularidades en los
diferentes sonidos grabados, tanto en el dominio del tiempo, como en el
Captulo 3. Aplicaciones de Procesamiento de Voz.
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 59
dominio de la frecuencia. Estas particularidades nos llevaran a establecer que
es posible diferenciar un sonido de otro, aunque su pronunciacin sea similar.
En las figuras 3.2 y 3.3 se presentan las grficas obtenidas para las
pronunciaciones de 2 vocales ms. Estas grficas muestran la forma de onda
de la voz (sonido) y su espectrograma.
Fig. 3.2 Pronunciacin de la letra E [25].
Fig. 3.3 Pronunciacin de la letra I [25].
Por la tanto se sabe que aunque existen pronunciaciones similares en su forma
de onda, presentarn diferencias en su espectro de frecuencias
(espectrograma). Debido a esto, la manera de diferenciar y reconocer los
diferentes sonidos requiere de ms informacin, la cual puede encontrarse en
su representacin en el dominio de la frecuencia.
Captulo 3. Aplicaciones de Procesamiento de Voz.
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 60
3.1.2 MatLab
MatLab ofrece los medios necesarios para la implementacin de algoritmos
especializados en el procesamiento digital de seales. En esta etapa se
obtiene, con la misma calidad, los resultados que da Speech Viewer.
Adicionalmente se presentarn las bases para la programacin en Matlab,
como son:
Digitalizacin de un archivo de sonido
Implementacin de la Transformada de Fourier para representar la seal
en el dominio de la frecuencia.
Graficar los resultados
Es necesario convertir la muestra de audio en una serie de datos que se
puedan interpretar. Para esto se graba en la computadora la muestra de sonido
en un archivo con extensin .wav y despus se procesa mediante la
instruccin wavread incluida en Matlab. Esta instruccin nos proporciona dos
parmetros:
Fs= Frecuencia de muestreo en Hz.
s= Vector que contiene los datos obtenidos de la lectura de la muestra.
Debido a que se trabaja en el dominio de la frecuencia, es necesario que el
vector de datos (s) cumpla ciertas condiciones. Para representar la seal en el
dominio de la frecuencia se aplica la Transformada Discreta de Fourier. La
longitud del vector s se representa mediante el parmetro m. Los componentes
Captulo 3. Aplicaciones de Procesamiento de Voz.
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 61
reales e imaginarios resultantes de la DFT del vector s son almacenados en el
vector x, y la magnitud de la DFT(x) se representa por mag.
Se presenta el algoritmo para graficar la representacin del archivo de sonido
en el dominio de la frecuencia.
f=(0:s/2)*Fs/m;
subplot(221), plot(s), axis tight, grid on, title(Seal de Voz);
subplot(222), specgram(s), title(Espectrograma), colorbar;
subplot(223), plot (f,mag(1:m/2+1)), axis ([0 5000 0 10]), grid on, xlabel(Frecuencia (Hz)),
ylabel(Magnitud), title(Representacin en Frecuencia);
Como resultado se obtiene una imagen con los siguientes grficos:
Seal de voz.- Graficacin de los datos del vector s.
Espectrograma.- Espectro de frecuencias del vector s.
Representacin en frecuencia.- Representa los parmetros frecuencia (f)
vs. Magnitud (mag).
En la figura 3.4 se observan los resultados obtenidos con la pronunciacin de la
letra A.
Fig. 3.4 Pronunciacin de la letra A [25]
Captulo 3. Aplicaciones de Procesamiento de Voz.
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 62
La representacin en frecuencia nos muestra diferencias entre sonidos
similares en su forma de onda. Sin embargo los programas como Matlab, tratan
a la voz como una serie de datos, no se le da una interpretacin visual,
originando que puedan existir errores de reconocimiento. El espectro de la
seal presenta valores mximos y mnimos, distribuidos de diferente manera
para cada sonido. Si la intensidad de la seal cambia, tambin lo har la
magnitud del espectro. Aunque la forma de onda se conserva, no as su escala
de valores. Esto provoca la confusin y el no reconocimiento de sonidos, ya
que estos valores pueden caer dentro del rango correspondiente a otro sonido
[25].
Para solucionar el problema de confusin entre sonidos se realiza lo siguiente:
Estabilizacin de la seal. c=s./max(abs(s)); En donde c es el vector
normalizado de s.
Despus de aplicar la DFT de el vector c, se obtiene la magnitud del
mismo y se eleva al cuadrado. mag=(abs(x)).^2; Con esto se mantienen
altos los mximos y mnimos ms significativos, y se mantienen bajos
los menos significativos. De igual manera se establece una diferencia
mayor entre estos valores y los correspondientes a otro sonido. As se
reduce la probabilidad de confusin entre los mismos, ya que esta
diferencia no es lineal.
Captulo 3. Aplicaciones de Procesamiento de Voz.
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 63
Fig. 3.5 Comparacin entre el espectro original y el espectro Normalizado del fonema EME
[25].
Despus de dicho procedimiento prcticamente ha desaparecido el ruido
presente en las frecuencias mayores a 1KHz. Si se toma como mximo
dominante el pulso que se encuentra dentro del rango de 400 a 700 Hz. Se
encuentra que, en el espectro original, la diferencia entre ellos es muy pequea
(11-10=1). Sin embargo, en el espectro normalizado, la diferencia entre ellos es
mayor (8.510 5.510 3.310).Con este procedimiento se pueden diferenciar mejor los sonidos y evitar las confusiones en el procedimiento de
lectura de datos y mejorar notablemente el reconocimiento de voz.
Captulo 3. Aplicaciones de Procesamiento de Voz.
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 64
3.2 APLICACIONES UTILIZANDO ESPECTROGRAMAS
3.2.1 Sistema de reconocimiento de voz mediante an lisis de
espectrograma.
(Pat. US 2002/0128834 A1, 12/Sep/2002)
El reconocimiento de elementos conocidos del habla humana (fonemas, grupos
de fonemas, slabas, palabras o frases) en los sonidos de una pronunciacin
humana es fundamental para cualquier aplicacin computacional donde la
operacin de dicha computadora dependa en lo que el usuario diga [33]. Tales
aplicaciones incluyen, por ejemplo, sistemas de dictado, donde el texto
pronunciado por un usuario es procesado en la computadora en forma textual.
Otra de las aplicaciones es el sistema de comandos, en el cual el texto
pronunciado por el usuario forma un comando que deber realizar la
computadora.
La figura 3.6 ilustra una red de computadoras 610 en la cual la presente
invencin se ha implementado. Un usuario (620) proporciona el procesamiento,
guardado, dispositivos de entrada y salida para proveer el procesamiento de
voz. El usuario puede estar tambin conectado a una red de comunicaciones
(610) en la cual tiene acceso a otros dispositivos computacionales, incluidos los
servidores de las computadoras (630 y 632). La red de comunicaciones puede
ser parte de Internet y utilizar protocolos TCP/IP para comunicarse con otros
equipos.
Captulo 3. Aplicaciones de Procesamiento de Voz.
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 65
Un usuario proporciona la grabacin de voz mediante algn hardware
(micrfono) en una forma aceptable de pronunciacin del lenguaje (602) y lo
guarda en una forma digital (604). El sonido digitalizado tambin se puede
obtener de un archivo (606) o a travs de la red (610). El sistema
computacional de procesamiento de voz (660) recibe la informacin de un
diccionario (603).
Fig. 3.6 Sistema de computadoras donde se implementa la invencin [33].
La figura 3.7 ilustra la estructura interna de una computadora de la red, donde
se muestran el sistema de bus (700), interfaces de entrada y salida para
conectar los dispositivos a la computadora tales como micrfonos y bocinas
(702) , interfaces de red (706) , memoria voltil (708), memoria de disco o no
voltil (710), una Unidad Central de Proceso (704). Todo esto utilizado con la
finalidad de procesar el sonido de la pronunciacin humana.
Captulo 3. Aplicaciones de Procesamiento de Voz.
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 66
Fig 3.7 Estructura interna de la computadora [33].
La figura 3.8 muestra la estructura de uno de los diccionarios utilizados en la
presente invencin. Cada diccionario contiene diversos segmentos que ayudan
en el procesamiento de las muestras de voz.
Captulo 3. Aplicaciones de Procesamiento de Voz.
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 67
Fig. 3.8 Estructura interna de un diccionario [33].
Los segmentos pertenecen a diferentes tipos: vocales acentuadas, vocales no
acentuadas, consonantes sonoras adyacentes, sonido sordo, sonido no sordo,
pausas e irreconocibles (este ltimo se utiliza si el segmento no puede ser
reconocido dentro de ninguno de los segmentos). En consecuencia, cualquier
diccionario incluye diversos segmentos como los mencionados anteriormente,
para as clasificar lo que el usuario dice. Adicionalmente, un diccionario puede
contener alguna informacin suprasegmental, que describe por ejemplo, la
fuerza o la duracin de las palabras dichas. Tambin puede contener algunos
algoritmos creados especficamente para detectar la pronunciacin humana.
Estos algoritmos pueden asociarse a cualquiera de los segmentos ya
mencionados.
El diccionario se puede cargar usando un proceso manual o un proceso
interactivo. El proceso incluye analizar el espectrograma de la muestra de voz
para as determinar crestas. Las crestas son utilizadas para distinguir e
identificar formantes reales en las muestras de sonidos externos. Esto permite
capturar la informacin en sonidos de vocales, que es especialmente
importante. La informacin de los formantes se pueden guardar en el
Captulo 3. Aplicaciones de Procesamiento de Voz.
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 68
diccionario para ser usados de manera posterior en comparacin de segmentos
de voces.
En la presente invencin, algunos segmentos son de expresin continua. La
figura 3.9 ilustra la estructura de un segmento de expresin continua en una
entrada de diccionario.
Fig. 3.9 Estructura de un segmento de voz continua dentro de una entrada de diccionario [33].
La figura 3.9 muestra la informacin contenida en uno de los diferentes
diccionarios, para un segmento de expresin continua (802). Cada persona
mediante su voz, y la duracin del segmento hablado produce al menos un pico
prominente en el espectrograma. Este pico se le llama formante. La
informacin contiene los contornos para cada formante (805, 506, 807), la
duracin del segmento (815) y el tiempo promedio de la frecuencia para cada
formante (808, 809, 810). Tambin incluye los corredores 811, 812 u 813,
Captulo 3. Aplicaciones de Procesamiento de Voz.
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 69
dentro de los cuales contiene la frecuencia promedio del correspondiente
formante cuando el segmento es pronunciado. Cada corredor es un intervalo
definido por dos frecuencias: la ms alta y la ms baja. Dentro del sistema
tambin pueden existir algunos algoritmos optimizados especficamente para la
deteccin de ste segmento dentro de la pronunciacin humana.
El Mtodo ptimo de Inversin, es la operacin de la presente invencin en la
forma de una operacin para emparejar diccionarios, el cual trabaja sobre una
grabacin de sonido digitalizada. El mtodo se divide en una secuencia de
segmentos 901-905. Los segmentos 802, 803 y 804 de la entrada de
diccionario se comparan primero con los segmentos 901, 902, 903, despus
con los segmentos 902, 903, 904 y finalmente con los segmentos 903, 904 y
905. El nmero de segmentos a compararse debe de ser igual a los de la
entrada de diccionario. Al resultado de las comparaciones se le llama
Secuencias de Segmentos Probadas.
Debido a que el tema de esta monografa es la relacin tiempo frecuencia
omitir las siguientes explicaciones hasta llegar a la caracterizacin de los
espectrogramas que son la parte fundamental de esta invencin y de esta
monografa.
El sonido de la voz humana tiene un espectro discreto de armnicos. Un
espectrograma normalmente se obtiene mediante un arreglo de frecuencias. El
principal objetivo de los mtodos de la obtencin de espectrograma es crearlo
mediante la captura de la mayor parte de los armnicos del sonido de voz, y
Captulo 3. Aplicaciones de Procesamiento de Voz.
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 70
tomar lo menos posible el ruido inevitablemente presente en cualquier
grabacin de sonido. Estos mtodos estn diseados para trabajar con
diferentes usuarios, y tambin con el mismo usuario en tiempos diferentes.
Fig. 3.10 Mtodo de Transformada de Tiempo Triple [33].
En la figura 3.10 se ilustra el mtodo de la Transformada de Tiempo Triple
usado para obtener un espectrograma (1006) de un segmento de voz continua
(900). Despus de que se determina la frecuencia de tono bsico. La
frecuencia del tono bsico es la frecuencia del menor de los armnicos dentro
de un segmento de voz continua. (1001), la grabacin de sonido se escala
como se muestra en 1003. Esta grabacin de sonido escalada se procesa,
1004, utilizando un grupo de frecuencias 1002 para obtener un espectrograma
Captulo 3. Aplicaciones de Procesamiento de Voz.
APLICACIONES DE LAS REPRESENTACIONES TIEMPO FRECUENCIA EN PROCESAMIENTO DE VOZ 71
intermedio, 1005. El espectrograma intermedio ti
Top Related