Series Para La Distorcion de Voz

37
INSTITUTO POLITECNICO NACIONAL ESIME ZACATENCO SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. ONDAS MECANICAS INGENIERIA EN COMUNICACIONES Y ELECTRONICA

Transcript of Series Para La Distorcion de Voz

Page 1: Series Para La Distorcion de Voz

INSTITUTO POLITECNICO NACIONAL ESIME ZACATENCO

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS.

ONDAS MECANICAS

INGENIERIA EN COMUNICACIONES Y ELECTRONICA

Page 2: Series Para La Distorcion de Voz

Capitulo I

Teorías del lenguaje

Introducción

El proceso de digital de señales de voz es una de las áreas más fructíferas dentro del campo de aplicación del procesamiento digital de señales.

Para llevarse a cabo el proyecto de proyecto de “voces distorsionadas” es necesario recordar algunos conceptos básicos de cómo está formado nuestro lenguaje.

Nuestro objetivo es analizar palabras, las cuales están formadas por letras, que son vocales y consonantes. Por lo tanto se menciona el funcionamiento del aparato fonador, para tener el conocimiento de cómo serán enviados los sonidos que posteriormente serán comparados con otros parecidos, mediante un dispositivo electrónico.

Comunicación y lenguaje

La palabra comunicar significa “Poner en común”, es decir, compartir con los demás. Cuando nos comunicamos conjuntamos información de todo tipo: emociones, idead, conceptos, advertencias, necesidades, etcétera, por lo cual es un proceso, ya que necesita llevarse a cabo en un lapso de tiempo.

Un sistema de comunicación especifica es el de la comunicación a través d las señales de voz, es decir señales acústicas tradicionalmente emitidas y recibidas por seres humanos en forma oral, aunque también pueden ser de manera visual, mediante dibujos ,colores, entre otros.

Algunos conceptos del lenguaje

Se llama lenguaje al conjunto o sistema de formas o signos orales y escritos que sirven para la comunicación entre las personas de una misma comunidad lingüística. Tiene carácter social, ya que es común en una sociedad.

El habla es el acto de seleccionar los signos de entre los disponibles y organizarlos a través de ciertas reglas. En la materialización individual de los pensamientos de una persona, sirviéndose del modelo o sistema que facilita la lengua. El habla es el uso particular e individual que hace un hablante de una lengua. Los signos pueden corresponder al lenguaje escrito o al oral.

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 1

Page 3: Series Para La Distorcion de Voz

El lenguaje es el medio de comunicación de los seres humano, quienes utilizamos signos orales y escritos, sonidos y gestos que poseen un significado que les hemos atribuido. El lenguaje puede entenderse también como la capacidad humana que permite conformar el pensamiento.

El lenguaje permite, con una serie limitada de unidades gramaticales, forman un conjunto infinito de enunciados. Está formado por signos lingüísticos, nombre que recibe la señal en el lenguaje.

Un signo es algo que remplaza a otras cosas para comunicarla en un mensaje. Los signos lingüísticos se clasifican en dos tipos; significado y significante. El significado es el concepto mental, idea o contenido a comunicar. El significante es la grafía escrita, formada por combinaciones de letras, en tanto que en el lenguaje hablando en su realización acústica mediante la palabra hablada.

Las palabras son los elementos libres mínimos del lenguaje, unidades aislables de la cadena escrita, que se escriben separadas. Son unidades formadas por uno o varios fonemas aislables y dotados de significado.

La sintaxis es el conjunto de reglas para la coordinación de las palabras en frases u oraciones. En su versión escrita las palabras están formadas por letras o grafemas, es decir unidades graficas mínimas, o bien en cada letra correspondiente al alfabeto, y, en el caso oral, por fonemas.

Los fonemas son la unidad fónica ideal mínima del lenguaje. Se materializan a través de los sonidos, pero de una manera no univoca. Es el término usado en lingüística para referirse a cualquier sonido de habla que permite distinguir palabras en una lengua. Las variantes de cualquier sonido de habla que permite distinguir palabras en una lengua. Las variantes de los fonemas se denominan alófonos es, es decir pueden ser sonidos parecidos. Así, los sonidos /p/ y /b/ son fonemas del español porque ayudan a distinguir entre las palabras [pata] y [bata].

Los monemas son unidades mínimas con significado, que puede ser gramatical, dando origen a los morfonemas, o léxico, representado por los lexemas. Los morfemas son la parte de la palabra que varía y que se añade al lexema para completar su significado y para formar palabras nuevas. Para completar su significado puede ser los accidentes del vocablo (género, número, tiempo o personas de los verbos, etc.), mientras que los lexemas se refieren a significados externos al lenguaje mismo, es decir, es la raíz de la palabra; es la parte de la palabra que no varía. Contiene su significado.

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 2

Page 4: Series Para La Distorcion de Voz

Anatomía del aparato Fonatorio

La voz humana se produce voluntariamente por medio del aparato Fonatorio. Este está formado por los pulmones como fuente de energía en la forma de flujo de aire, la laringe, que contiene las cuerdas bucales, la faringe, las cavidades oral (o bucal) y nasal y una serie de elementos articulatorios: los labios, los dientes, el alveolo, el paladar, el velo del paladar y la lengua.

Las cuerdas vocales son, en realidad, dos membranas dentro de la laringe orientadas de adelante hacia atrás. Por adelante se unen en el cartílago tiroides (que puede palparse sobre el cuello, inmediatamente por debajo de la unión con la cabeza; en los varones suele apreciarse como una protuberancia conocida como manzana de Adán).Por detrás, cada una está sujeta a uno de los cartílagos, los cuales pueden separarse voluntariamente por medio de músculos. La abertura entre ambas cuerdas se denomina glotis.

Cuando las cuerdas vocales se encuentran separadas, la glotis adopta una forma triangular. El aire pasa libremente y prácticamente no se produce sonido, es el caso de la respiración.Cuando la glotis comienza a cerrarse, el aire que la atraviesa proveniente de los pulmones experimenta una turbulencia, emitiéndose un ruido de origen aerodinámico conocido como aspiración (aunque en realidad acompaña a una espiración o exhalación). Esto sucede en los sonidos denominados “aspirados” (como la h inglesa).

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 3

Page 5: Series Para La Distorcion de Voz

Al cerrarse más, las cuerdas vocales comienzan a vibrar a modo de lengüetas, produciéndose un sonido tonal, es decir periódico. La frecuencia de este sonido depende de varios factores, entre otros del tamaño y la masa de las cuerdas vocales, de la tensión que se les aplique y de la velocidad de flujo del aire proveniente de los pulmones. A mayor tamaño, menor frecuencia de vibración, lo cual explica por qué en los varones, cuyas glotis que es en promedio mayor que la de las mujeres, la voz es en general más grave.

A mayor tensión la frecuencia aumenta, siendo los sonidos más agudos. Así, para lograr emitir sonidos en el registro externo de la voz es necesario un mayor esfuerzo vocal. También aumenta la frecuencia (a igualdad de las otras condiciones) al creer la velocidad de flujo de aire, razón por la cual al aumentar la intensidad de emisión se tiende a elevar espontáneamente el tono de voz.

Finalmente, es posible obturar la glotis completamente. En ese caso no se produce sonido. Sobre la glotis se encuentra la epiglotis, un cartílago en la faringe que permite tapar la glotis durante la deglución para evitar que el alimento ingerido se introduzca en el tracto respiratorio. Durante la respiración y la fonación (emisión de sonido) la epiglotis está separada de la glotis permitiendo la circulación del flujo de aire. Durante la reclusión, en cambio, la laringe, es decir la tráquea, los bronquios y los pulmones, se denominan cavidades enfragloticas.

Varios de los elementos de la cavidad supraglótica se controlan a voluntad, permitiendo modificar dentro de márgenes muy amplios los sonidos producidos por las cuerdas vocales o agregar partes distintivas a los mismos, e inclusive producir sonidos propios. Todo esto se efectúa por dos mecanismos principales: el filtrado y la articulación.

El filtrado actúa modificando el espectro del sonido. Tiene lugar en las cuatro cavidades supragloticas principales: la faringe, la cavidad nasal, la cavidad oral y la cavidad labial. Las mismas constituyen resonadores acústicos que enfatizan determinadas bandas frecuenciales del espectro generado por las cuerdas vocales, conduciendo al concepto de formantes, es decir una serie de picos de resonancia ubicados en frecuencias o bandas de frecuencia que son bastante específicas para cada tipo de sonido.

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 4

Page 6: Series Para La Distorcion de Voz

La articulación es una modificación principalmente a nivel temporal de los sonidos, y está directamente relacionada con la emisión de los mismos y con los fenómenos transitorios que la acompañan. Está caracterizada por el lugar del tracto vocal en que tiene lugar, por los elementos que intervienen y por el modo en que se produce, factores que dan origen a una clasificación fonética de los sonidos.

Clasificación de los sonidos de la voz

Los sonidos emitidos por el aparato Fonatorio pueden clasificarse de acuerdo con diversos criterios que tienen en cuenta los diferentes aspectos del fenómeno de emisión. Estos criterios son:

a) Según su carácter vocálico o consonántico

b) Según su oralidad o nasalidad

c) Según su carácter tonal (sonora) o no tonal (sordo)

d) Según el lugar de articulación

e) según el modo de articulación

f) Según la posición de los órganos articulatorios

g) Según la duración

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 5

Page 7: Series Para La Distorcion de Voz

Vocales y consonantes

Desde un punto de vista mecano acústico, las vocales son los sonidos emitidos por la sola vibración de las cuerdas vocales sin ningún obstáculo o constricción entre la laringe y las oberturas oral y nasal. Dicha vibración se genera por el principio del oscilador de relajación, donde interviene una fuente de energía constante en la forma de un flujo de aire proveniente de los pulmones. Son simplemente sonidos de carácter tonal (cuasi periódicos), y por consiguiente de espectro discreto. Las consonantes, por el contrario, se emiten interponiendo algún obstáculo formado por los elementos articulatorios. Los sonidos correspondientes a las consonantes pueden ser tonales o no dependiendo de si las cuerdas vocales están vibrando o no. Funcionalmente, en el castellano las vocales pueden constituir palabras completas, no así las consonantes.

Oralidad y Nasalidad

Los fonemas en los que el aire pasa por la cavidad nasal se denominan nasales, en tanto que aquellos en los que sale por la boca se denominan orales. La diferencia principal está en el tipo de resonador principal por encima de la laringe (cavidad nasal y oral, respectivamente) En castellano son nasales solo las consonantes “m”, ”n”, ”ñ”.

Tonalidad

Los fonemas en los que participa la vibración de las cuerdas vocales se denominan tonales o, también, sonoros. La tonalidad lleva implícito un espectro cuasi periódico, pero existen varias consonantes que también lo son: “b”, “d”, “m”, etc. Aquellos fonemas producidos sin vibraciones glotales se denominan sordos. Varios de ellos son el resultado de la turbulencia causada por el aire pasando a gran velocidad por un espacio reducido, como las consonantes “s”, “z”, “j”, “f”.

Lugar y modo de articulación (consonantes)

La articulación es el proceso mediante el cual algunas partes del aparato Fonatorio interpone un obstáculo para la circulación del flujo de aire. Las características de la articulación permitirán clasificar las constantes. Los órganos articulatorios son los labios, los dientes, las diferentes partes del paladar(alveolo, paladar duro, paladar blando o velo), la lengua y la glotis. Salvo la glotis, que puede articular por si misma, el resto de los

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 6

Page 8: Series Para La Distorcion de Voz

órganos articula por oposición con otro. Según el lugar o punto de articulación se tienen fonemas:

Bilabiales: oposición de ambos labios.

Labiodentales: oposición de los dientes superiores con el labio inferior.

Linguodentales: oposición de la punta de la lengua con los dientes superiores.

Alveolares: oposición de la punta de la lengua con la región alveolar.

Palatales: oposición de la lengua con el paladar duro.

Velare: oposición de la parte posterior de la lengua con el paladar blando.

Glotales: articulación en la propia glotis.

A su vez, para cada punto de articulación esta puede efectuarse de diferentes modos, dando lugar a fonemas:

Oclusivos: la salida del aire se cierra momentáneamente por completo.

Fricativos: el aire sale atravesando un espacio estrecho.

Africados: oclusión seguida por fricación.

Vibrantes: la lengua vibra cerrando el paso del aire intermitentemente.

Aproximantes: la obstrucción muy estrecha que no llega a producir turbulencias.

Los fonemas oclusivos (correspondientes a la constante “b” inicial, “c”, ”k”, ”d”, “g”, “p”, “t”) también se denominan a veces explosivos, debido a la liberación repentina de la presión presente inmediatamente antes de su emisión. Pueden ser sordos o sonoros, al igual que los fricativos (“b” intervocálica, “f”, “j”, “h” aspirada, “s”, “y”, “z”). Solo existe fonema africado en castellano, correspondiente a la “ch”. Los laterales (“l”, “ll”) a veces se denominan líquidos, y son siempre sonoros. Los dos fonemas vibrantes del castellano (consonantes “r”, “rr”) difieren en que en uno de ellos (“r”) se ejecuta una sola vibración de la lengua. Finalmente, los fonemas Aproximantes (la “i” y la “u” cerradas que aparecen en algunos diptongos) son a veces denominados semivocales, pues en realidad suenan como vocales. Pero exhiben una diferencia muy importante: son de corta duración y no son prolongables.

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 7

Page 9: Series Para La Distorcion de Voz

En la tabla se indican las constantes clasificadas según el lugar y el modo de articulación, la sonoridad y la oronasalidad. En algunos casos una misma constante aparece en dos categorías diferentes.

Modo de articulación

Oclusiva Tractiva Africada Lateral Vibrante Aproximante NasalLugar de

articulaciónSorda Sonora Sorda Sonora Sorda Sonora Sonora Sonora Sonora

Bilabial P b,v b,v W mLabiodental f

Linguodental zAlveolar T d s y Ch l r,rr nPalatal (y) (ch) ll i ñVelar K g jGlotal h

Posición de los órganos articulatorios (vocales)

En el caso de las vocales, la articulación consiste en la modificación de la acción filtrante de los diversos resonadores, lo cual depende de las posiciones de la lengua (tanto en elevación como en profundidad o avance), de la mandíbula inferior, de los labios y del paladar blando. Estos órganos influyen sobre los formantes, permitiendo su control. Se pueden clasificar las vocales según la posición de la lengua como se muestra en la siguiente tabla.

Posición vertical Tipo de vocal Posición horizontal (avance)

Anterior Central PosteriorAlta Cerrada I u

Media Media e OBaja Abierta a

Otra cualidad controlable es la labialización, es decir el hecho de que se haga participar activamente los labios. Las vocales labializadas, también definidas como redondeadas, son las que redondean los labios haca adelante, incrementando la longitud afectiva del tracto vocal. La única vocal labializada en el castellano es la “u”.

En otros idiomas, como el francés, el portugués, el catalán, y el polaco, así como en lenguas no europeas como el guaraní o el hindi, existe también el matiz de oralidad o nasalidad. En las vocales orales del velo (paladar blando) sube, obturando la nasofaringe, lo cual impide que el aire fluya parcialmente por la cavidad nasal. En las vocales nasalizadas (u oronasales) el velo baja, liberando el paso del aire a través de la nasofaringe. Se incorpora así la resonancia nasal.

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 8

Page 10: Series Para La Distorcion de Voz

Duración

La duración de los sonidos, especialmente de las vocales, no tiene importancia a nivel semántico en el castellano, pero si en el plano expresivo, a través de la agogía, es decir el énfasis o acentuación a través de la duración. En ingles, en cambio, la duración de una vocal puede cambiar completamente el significado de la palabra que la contiene.

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 9

Page 11: Series Para La Distorcion de Voz

Capitulo II

Filtros digitales

Un filtro es un sistema que discrimina lo que pasa de acuerdo a algunos parámetros. Los filtros digitales tienen como entrada una señal analógica o digital y a su salida otra señal analógica o digital, pudiendo haber cambiado en amplitud y/o fase dependiendo de las características del filtro.

El filtro digital es parte del procesado de señal digital. Se le da la denominación de digital más por su funcionamiento interno que por su dependencia del tiempo de señal a filtrar.

El filtrado digital realiza internamente un procesado de los datos de los datos de entrada. La muestra de la entrada actual y algunas anteriores que habían sido almacenadas son multiplicadas por unos coeficientes. Además también se pueden tomar valores de la salida en instantes pasados y multiplicarlos por otros coeficientes, finalmente todos los resultados de todas estas multiplicaciones son sumados dando la salida para el instante actual. Esto implica que internamente tanto la salida como la entrada del filtro serán digitales, por lo que será necesario una conversión de analógico-digital y/o digital-analógico para uso de filtros digitales en señales analógicas.

Los filtros digitales se usan frecuentemente para tratamiento digital de la imagen o para tratamiento de sonido digital.

Tipos de Filtros

Hay varios tipos de filtros así como distintas clasificaciones para esto. De acuerdo con la parte del espectro que dejan pasar y que atenúan hay:

Filtros de alto Filtros de bajo Filtros pasa banda Banda eliminada Multibanda Pasa todo Resonador Oscilador Filtro peine (comb filter) Filtro ranura (notch filter)

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 10

Page 12: Series Para La Distorcion de Voz

De acuerdo con su orden, pueden ser

Primer Orden Segundo Orden

De acuerdo con el tipo de respuesta ante entrada unitaria.

FIR IIR TUR

Expresión general de un filtro

Hay muchas formas de representar un filtro, por ejemplo en función de ω (frecuencia digital), en función de z y en función de n (número de muestras). Todas son equivalentes, pero a la hora de trabajar a veces conviene más una u otra. Generalmente mediante el uso de la Transformada rápida de Fourier; obteniéndose en la salida el resultado del procesamiento matemático o la señal de salida. Como regla general se suele dejar el término a0=1.

Si se expresa en función de z y en forma de fracción.

Filtro FIR

FIR es un acrónimo en inglés para Finite Impulse Response o Respuesta Finita al impulso. Se trata de un tipo de filtro digital en el que debe su nombre al hecho de que su salida depende únicamente de la entrada, de forma que el efecto de un impulso en la entrada se extingue en tiempo finito.

La característica más destacable es su facilidad de diseño para conseguir una respuesta en frecuencia de fase lineal. Los FIR son por su propia construcción estables, no habiendo problemas en su diseño o en su fase de implementación. Aunque el diseño los FIR requiera de una gran cantidad de operaciones de sumas y multiplicaciones, tanto su estructura de programación como su realización en soporte físico resultan fáciles y estables.

Expresión matemática de los filtros FIR

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 11

Page 13: Series Para La Distorcion de Voz

Para obtener la salida solo se basan en entradas actuales y anteriores. Su expresión en el dominio n es:

En la expresión anterior N es el orden del filtro, que también coincide con el número de términos no nulos y con el número de coeficientes del filtro. Los coeficientes son bk.

La salida también puede expresarse como la convolución de la señal de entrada x(n) con la respuesta impulsional h(n):

Aplicando la transformada Z a la expresión anterior:

Estructura

La estructura básica de un FIR es:

Aquí se muestra que los términos h son coeficientes y los T son retardos.

Pueden hacerse multitud de variaciones de esta estructura. Hacerlo como varios filtros en serie, en cascada, etc.

Polos y ceros

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 12

Page 14: Series Para La Distorcion de Voz

Estos filtros tienen todos los polos en el origen, por lo que son estables. Los ceros se presentan en pares de recíprocos si el filtro se diseña para tener fase lineal.

Diseño de filtros FIR

Hay tres métodos básicos para diseñar este tipo de filtros:

Método de las ventanas, las más habituales son:

o Rectangular

o Barlett

o Hanning

o Hamming

o Blackman

o Kaiser

Muestreo en frecuencia.

Rizado constante (Aproximación de Chebyshev y algoritmo de intercambio de Remez).

Mínimos Cuadrados

Características

Los filtros FIR tienen la gran ventaja de que pueden diseñarse para ser de fase lineal, lo cual hace que presenten ciertas propiedades en la simetría de los coeficientes. Este tipo de filtros tiene especial interés en aplicaciones de audio. Además son siempre estables.

Por el contrario también tienen la desventaja de necesitar un orden mayor respecto a los filtros IIR para cumplir las mismas características. Esto se traduce en un mayor gasto computacional.

Filtros IIR

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 13

Page 15: Series Para La Distorcion de Voz

Los filtros IIR (infinite Impulse Response o Respuesta infinita al impulso) deben su nombre al hecho de que su salida puede depender tanto de la entrada como de la propia salida del filtro, de forma que el efecto de un impulso en la entrada puede no extinguirse en tiempo finito.

La salida de los filtros IIR depende de las entradas actuales y pasadas, y además de las salidas en instantes anteriores. Esto se consigue mediante el uso de realimentación de la salida.

Donde los “a y b” son los coeficientes del filtro. El orden es el máximo entre los valores de M y N.

Donde M y N son los términos que determinan la cantidad de polos y ceros en la función de transferencia.

Aplicando la transformada Z a la expresión anterior:

Estructura

Hay numerosas formas de implementar los filtros IIR. La estructura afecta a las características finales que presentará el filtro como la estabilidad. Otros parámetros a tener en cuenta a la hora de elegir una estructura es el gasto computacional que presenta.

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 14

Page 16: Series Para La Distorcion de Voz

Filtros AR (Autoregresivos)

La ecuación diferencia que describe un filtro AR es:

y [n ]+A 1 y [n−1 ]+A2 y [n−2 ]+A+ANy [n−N ]=x [n]

Lo que da lugar a una función de transferencia; la cual contiene solo dos polos. El filtro es recursivo ya que la salida depende no solo de la entrada actual sino además de valores pasados a la salida (Filtros con realimentación).El termino autoregresivos tiene un sentido estadístico en que la salida y[n], tiene una regresión hacia sus valores pasados. La respuesta al impulso es normalmente de duración infinita, de ahí su nombre.

Filtros ARMA (Autoregresivos y Media en Movimiento)

Es el filtro más general y es una combinación de filtros MA y AR la ecuación es:

y [n ]+A 1 y [n−1 ]+A2 y [n−2 ]+A+ANy [n−N ]=x [n ]=B0 x [n ]+B1 x [n−1 ]+A+BMx [n−m ]

Y la función de transferencia es:

H ( z )=B0+B1 z

−1+A+BM z−M

1+A1 z−1+A+AN z

−N

Un filtro de este tipo se denomina por ARMA(N,M), es decir es Autoregresivos de orden N y Media en Movimiento de orden M. Su respuesta impulso es también de duración infinita y por lo tanto es un filtro de tipo IIR.

Los filtros IIR producen en general distorsión de fase, es decir la fase no es lineal con la frecuencia. El orden de un filtro IIR es mucho menor que el de un filtro FIR para una misma aplicación.

Diseño de Filtros Recursivos (IIR)

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 15

Page 17: Series Para La Distorcion de Voz

El método tradicional de diseño de filtros IRR en tiempo discreto se basa en la transformación de un filtro analógico en un filtro digital que cumpla las especificaciones preestablecidas. Esta solución es razonable por varios motivos:

El arte del diseño de filtros IIR analógicos está muy avanzado, y como se pueden obtener resultados útiles, es ventajoso utilizar los procedimientos de diseño que ya se han desarrollado para los filtros en tiempo continuo.

Muchos métodos útiles de diseño de filtros IIR en tiempo continuo dan como resultado formas de diseño simples en forma cerrada. Por lo tanto, los métodos de filtros IIR digitales que se basan en esas fórmulas estándar de diseño de filtros IIR continuos son fáciles de realizar.

El hecho de que los diseños de filtros en tiempo continuo se pueden trasladar a diseños de filtros digitales no quiere decir que tengan la misma respuesta frecuencial. Generalmente sucede que el filtro analógico empleado para la aproximación tiene una respuesta en frecuencia diferente de la respuesta en frecuencia efectiva del filtro digital. Esta circunstancia indica que al diseñar un filtro digital se parte de un conjunto de especificaciones en tiempo discreto; mientras las características del filtro en tiempo continuo se obtienen de la transformación. Al realizar esta conversión se desea que la respuesta en frecuencia del filtro digital preserve las propiedades esenciales del filtro analógico. Esto implica concretamente que se espera que el eje imaginario del plano s se transforme en la circunferencia unidad del plano z. Una segunda condición es que el filtro estable analógico se debe de transformar en un filtro estable en tiempo discreto. Esto significa que si el filtro continúo tiene los polos en el semiplano negativo de s, el filtro digital tiene que tener los polos dentro del círculo unidad del plano z. Estas restricciones son básicas para las técnicas de diseño de filtros digitales IIR.

Diseño de filtros IIR mediante transformadas bilineales

Los filtros recursivos pueden ser diseñados por varios métodos, siendo el más común el basado en las transformaciones bilineales. Este procedimiento requiere del conocimiento de la función de transferencia en el tiempo continuo del filtro a diseñar.

Los coeficientes del filtro en el dominio s son transformados a uno equivalente en el dominio z. Los coeficientes de la discretización formaran el filtro IIR. El origen de este proceder viene dado por la cantidad de experiencia acumulada en el diseño de filtros analógicos. Por lo tanto, todos los polinomios, tablas, métodos analíticos y gráficos para definir el filtro analógico, empleados en el anterior capitulo, serán usados en el diseño de los filtros recursivos.

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 16

Page 18: Series Para La Distorcion de Voz

Si bien hay varios métodos de discretización, la mayoría de ellos tiene problemas de solapamientos en frecuencias, por realizar una relación entre el plano s a z de varias regiones del dominio s a una sola z. Sin embargo, la transformación bilineal consigue una transformación univoca entre el dominio s a z. Esta transformación se define como:

s= 21−z−1

T 1+z−1=2 z−1Tz+1

Y su relación inversa es del tipo:

z=1+(T /2)s1−(T /2)s

Y sustituyendo a s = Ϭ + jωa en la anterior expresión quedara:

Z=1+Ϭ (T

2)+ jωa(T

2)

1−Ϭ (T2 )+ jωa(T2

)

Si Ϭ<0, entonces, de la ecuación anterior se deduce que |z|<1 para cualquier valor ωa Del mismo modo, si Ϭ > 0,|z|<1 para todos valores ωa. Es decir, si los polos del filtro analógico están en el semiplano izquierdo de s, su imagen en el plano z está en el interior de la circunferencia unidad. Por lo tanto, los filtros en tiempo continuo causales y estables se transforman en filtros en tiempo discreto, causales y estables. Seguidamente, para demostrar que el eje jωa se transforma en la circunferencia unidad se procede a sustituir s= jωa en la ecuación anterior, con lo que se obtiene:

z=1+ jωa (T /2)1− jωa (T /2)

Con lo que se puede ver que en el módulo de z es unitario para cualquier valor de ωa . De hecho, para obtener la relación de sus respuestas en frecuencia se sustituye s por Ϭ + jωa

y z por ejTωa con lo que queda después de operar que:

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 17

Page 19: Series Para La Distorcion de Voz

ωa= 2Ttan(ωaT

2 )

Así, el uso de la transformación bilineal está limitado al diseño de aproximaciones a filtros con respuesta en amplitud constante a intervalos, como los filtros pasa bajos, pasa altos o pasa bandas. Por otra parte, la distorsión del eje de la frecuencia también se manifiesta en una comprensión de la respuesta de la fase del filtro, esto es, si el filtro analógico es de fase lineal la transformación bilineal no conserva esta propiedad. Esta afirmación es más cierto sobre todo si la banda pasante se encuentra cerca de la frecuencia Nyquist.

Transformación de una señal analógica a digital.

El método de diseño de filtros recursivos mediante transformadas bilineales comienza por especificar las características del filtro en el dominio de las frecuencias digitales. Estas especificaciones se pasaran al dominio de las frecuencias analógicas mediante la ecuación anterior y que permitirán obtener las frecuencias del filtro analógico:

ωa= 2Ttan(ωaT2 )1≤i ≤ k

A este proceso se le conoce el prewarping del filtro analógico.

Tipo de bloque G(s) TransformadaPasa bajo de primer orden

G (s )= k1+sτ G ( z )= k+kz−1

a0+a1 τ−1

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 18

Page 20: Series Para La Distorcion de Voz

a0=1+2 τT

;a1=1−2 τT

Pasa alto de primer orden

G (s )=ksτ1+sτ G ( z )=

b0−b0 z−1

a0+a1 z−1

b0=k2 τT

;a0=1+2 τT

;a1=1−2 τT

Red de adelanto/retraso de fase

G(s)k1+sτ11+sτ2

G ( z )=b0−b1 z

−1

a0+a1 z−1

b0=k (1+ 2 τ1T )b1=k (1−2 τ1T );a0=1+

2 τ2T

;a1=2 τ2T

Pasa bajo de segundo orden

G (s )= 1

a s2+bs+1G ( z )= 1+2 z−1+z−2

a0+a1 z−1+a2 z

−2

a0=1+4 a

T 2+ 2bT

; a1=2−8a

T2;

a2=1+4a

T 2−2b

TPasa altos de segundo orden G (s )= a s2

a s2+bs+1G ( z )=

b0−2b0 z−1+b0 z−2

a0+a1 z−1+a2 z

−2

b0=4a

T 2;a0;a1;a2→ver pasabajo 2°

Pasa banda de segundo orden

G (s )= bs

a s2+bs+1 G(z )=b0−b0 z

−2

a0+a1 z−1+a2 z

−2

b0=2aT

;a0;a1;a2→ver pasabajo 2°

Rechazo de banda de segundo orden G (s )= as2+1

a s2+bs+1G ( z )=

b0−2b1 z−1+b0 z−2

a0+a1 z−1+a2 z

−2

b0=1+4a

T 2;b1=1−

4a

T 2;

a0; a1;a2→ver pasabajo 2°

Para facilitar las transformaciones de s a z, se exponen en la tabla las relaciones existentes de filtros comunes de primer y segundo orden mediante la transformada bilineal.

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 19

Page 21: Series Para La Distorcion de Voz

Análisis de coeficientes periódicos lineales (LPC)

Una de las técnicas más usadas en el procesamiento de señales de voz viene a ser el análisis de predicción lineal. Esta técnica ha probado ser muy eficiente debido a la posibilidad de parametrizar la señal con un número pequeño de patrones con los cuales es posible reconstruirla adecuadamente.

El análisis de LPC se utiliza para encontrar los coeficientes que representaran la función de transferencia del filtro que modela el sistema.

LPC de una señal de voz.

Si el modelo es capaz de predecir la señal con un error muy bajo, se tiene que el LPC ha sido capaz de almacenar la información necesaria de un trozo de señal como para reproducirla mediante alguna excitación. En analogía con un instrumento musical, e. LPC sería un instrumento de viento que al ser soplado emite el sonido en el timbre particular del trozo de voz que representa.

El principio de un LPC es que el valor actual de una muestra de señal de voz, s(n), puede predecirse a partir de un número finito de muestras anteriores: s(n-1),…….s(n-p), con un error asociado e(n) utilizando un filtro lineal de un solo polo: p.

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 20

Page 22: Series Para La Distorcion de Voz

s (n )=e (n )+∑k=1

αk s(n−k )

El error de predicción (también conocido como señal residual), e(n), es simplemente la diferencia entre el valor actual de la señal, s(n) y el valor que se predijo ŝ(n):

e (n )=s (n )−ŝ (n)αk

Los factores que otorgan el peso, αk, son encontrados al minimizar el error cuadrático medio, encontrado en N muestras (E):

E=¿

Esquema de un analizador LCP

Los parámetros obtenidos mediante este método se caracterizan por variar en forma lenta durante las ventanas de tiempo de análisis. Mediante esta técnica podemos representar a la señal mediante parámetros que varían en el tiempo los cuales están relacionados con la función de transferencia del tracto vocal y las características de la fuente sonora. Otra ventaja es que no requiere demasiado tiempo de procesamiento, lo cual es importante a la hora de la implementación. El modelo matemático expuesto establece que el tracto vocal puede moderarse mediante un filtro digital siendo los parámetros los que determinan la función de transferencia. El problema consiste en, dado un segmento de palabra, extraerle sus parámetros que en este caso viene a ser los coeficientes del filtro. El análisis de predicción lineal permite aproximar una señal a partir de señales pasadas. En este caso se trata de predecir señales de voz mediante un filtro FIR (filtro de respuesta impulsiva finita), cuya función de transferencia se deduce a partir de:

ŝ (n )=−∑k−1

F

ak ⋅ ŝ (n−k ⋅G ⋅u(n))

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 21

Page 23: Series Para La Distorcion de Voz

Como se podrá observar la señal de voz se presenta por medio de señales anteriores y u(n) viene a ser la entrada del filtro, el cual será un tren de impulsos periódicos o una fuente de ruido aleatorio. El tren de impulsos producirá señales sonoras mientras que la fuente de ruido aleatorio producirá señales no sonoras a la salida del filtro. De esta manera el filtro viene a representar un modelo del tracto bucal. La función de transferencia del filtro se obtiene sacando la transformada z a la relación anterior con lo que se obtiene.

H ( z )= G

1+∑k−1

F

ak ⋅ z−k

Donde G viene a ser la ganancia del filtro y dependerá de la naturaleza de la señal. Dada la señal s(n), el problema cosiste en determinar los coeficientes de predicción “ak” y la ganancia G. Serán los coeficientes de predicción los que se usaran como parámetros de reconocimiento de palabras. Su determinación se realiza minimizando el error que se comete cuando se intenta realizar la aproximación de la señal. Sea “sp” la señal predicha a partir de la señal s original, entonces:

ŝ p (n )=−∑k−1

F

ak ⋅ ŝ (n−k )

El error entre la señal real y la predicha será:

e (n )=s (n )−ŝ (n )=s (n )+∑k−1

F

ak ⋅ s (n−k )

Mediante el método de mínimos cuadrados, los coeficientes de predicción se calculan minimizando el error cuadrático medio con respecto a cada uno de los coeficientes. Sea el E el error cuadrático total:

E=∑n

e2 (n )=∑n

[ŝ (n )+∑k−1

F

ak ⋅ ŝ (n−k )]¿2

Se realiza la minimización con respecto a ak:

∑k−1

F

ak ⋅∑n

ŝ (n−k ) ⋅ ŝ (n−1 )=−∑n

ŝ (n )⋅ ŝ (n−i ) ,1≤ i≤ p

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 22

Page 24: Series Para La Distorcion de Voz

De las dos relaciones anteriores se deducen las ecuaciones:

R ( i )= ∑n−0

N−1−i

ŝ (n)⋅ ŝ (n+ i)

A continuación se procede a realizar un análisis de autocorrección. La función de auto correlación proporciona una medida de la correlación de la señal con una copia desfasada en el tiempo de sí misma. Se define como donde p es el orden de análisis. De aquí se extraen los p coeficientes de auto correlación, valores típicos de p pueden ser entre 10 y 15. Podemos identificar los coeficientes de auto correlación en las ecuaciones que minimizan los errores en la estimación de la señal predicha: Para resolver este conjunto de ecuaciones se recurre al algoritmo de Levinson-Durbin el cual permite resolver el sistema de ecuaciones de una forma eficiente:

E0=R (0 )

k i=R (i )+∑

j−1

i−1

a ij−1 ⋅R(i− j)

E j−1

a ij=k j

a ji=a ji−1+k i⋅ ai− jj−11≤ j≤ i−1

Ei=(1−k2 j)⋅E j−1

Solución final:

a j=a j−p1≤ j≤ p

Teniendo los coeficientes del filtro ak se dispone, para la ventana de análisis, la función de transferencia del modelo del tracto vocal en ese instante, es decir se dispone con la forma con la que la cavidad vocal se comporta y que junto con la señal de excitación se obtiene el sonido emitido en ese momento. Para comprobar este hecho podemos comparar el espectro LCP obtenido con el espectro de la señal obtenida mediante la transformada discreta de Fourier.

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 23

Page 25: Series Para La Distorcion de Voz

Desarrollo de un Distorsionador de voz.

Para poder realizar el circuito que realiza la función de distorsionar la voz se requiere un circuito especial el cual es el HT8950A con el cual podremos lograr la función que queremos de distorsión en 3 funciones normal agudo y grave.

Para realizar el circuito se requiere el siguiente material.

Tablilla fenólica Soldadura C.I. HT8950A y LM386 Resistencias de 4kΩ, 100kΩ, 330Ω, 47Ω, 470Ω, 10Ω, 4.7kΩ, 330Ω Diodo Zener a 3.6V Interruptor Condensadores de 47µf, 100 µf, 100nf Led Bocina Micrófono

Procedimiento

El primer paso es realizar es el diagrama esquemático en algún programa especializado en este caso se usara el Eagle5.4.

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 24

Page 26: Series Para La Distorcion de Voz

El programa automáticamente nos genera el Board

Una vez que tenemos listo esto procederemos a plancharlo en la tablilla fenólica

Después de esto se sumerge en cloruro férrico

Por último se lava y se perfora

Para la colocación de componentes es primordial que las pistas no estén sucias se meten los componentes y se soldán y con esto se termina el circuito impreso al 100%.

Para la presentación final s creo una caja de Sintra.

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 25

Page 27: Series Para La Distorcion de Voz

Bibliografía

Neural Networks: A comprehensive foundation. Haykin, S.(1994,, NY),Editorial Mcmillan

Introduction To Artificial Neural System. Zurada, J.M.(1992, Boston)PWS Publishing Company, P.XV

Applying Neural Networks, A Practical Guide. Kevin Swingler.Editorial Morgan Kaufmann

Practical Neural Network Recipes in C++. Timothy MasterEditorial Morgan Kaufmann-Academic Press

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 26

Page 28: Series Para La Distorcion de Voz

Anexo

SERIES DE FOURIER PARA EL ANÁLISIS DE VOCES DISTORCIONADAS. Página 27