Tesis - Estudio y Simul de Codif G729

138
  Estudio y simulación de un codificador de voz basado en la recomendación G.729 de la ITU-T Proyecto Fin de Carrera Ingeniería de Telecomunica ciones Escuela Superior de Ingenieros Universidad de Sevilla Alberto Alonso Hernández Tutor: Sergio Cruces Álvarez 01 de Diciembre de 2005

Transcript of Tesis - Estudio y Simul de Codif G729

Page 1: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 1/138

 

 

Estudio y simulación de un codificador de vozbasado en la recomendación G.729 de la ITU-T

Proyecto Fin de Carrera

Ingeniería de Telecomunicaciones

Escuela Superior de IngenierosUniversidad de Sevilla

Alberto Alonso Hernández

Tutor: Sergio Cruces Álvarez01 de Diciembre de 2005

Page 2: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 2/138

Page 3: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 3/138

 

 

Resumen

En el presente documento se estudia e implementa en Matlab un codificador de

voz basado en el de la recomendación G.729 de la ITU-T, “Codificación de la voz a 8kbit/s mediante predicción lineal con excitación por código algebraico de estructuraconjugada”, conocido como codificador CS-CELP.

El codificador implementado está diseñado para trabajar con señales digitales yse basa en el modelo de codificación mediante predicción lineal con excitación porcódigo (CELP). Opera con tramas vocales de 10 ms correspondientes a 80 muestras auna velocidad de muestreo de 8000 muestras por segundo. En cada trama de 10 ms seanaliza la señal vocal para extraer los parámetros del modelo CELP (coeficientes delfiltro de predicción lineal, ganancias e índices de las tablas de códigos adaptativos yfijos). Estos parámetros se codifican y se transmiten. En el decodificador, se usan losdatos recibidos para recuperar los parámetros de excitación y del filtro de síntesis.

Se realiza una introducción a las señales y los codificadores de voz, analizandosus características más importantes y una revisión de los conceptos teóricos en los quese basará el codificador. Se analiza el codificador propuesto en la recomendación y, porúltimo, se detalla la estructura del codificador a implementar.

Una vez implementado el codificador, se introducen diferentes señales de voz,masculinas y femeninas, analizando los resultados obtenidos. Como prueba final, seestudia su comportamiento ante una señal de audio.

Page 4: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 4/138

Page 5: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 5/138

 

Estudio y simulación de un codificador de voz basado en la recomendación G.729 de la ITU-T

I

Índice

Página

1  INTRODUCCIÓN................................................................................ 1 

1.1 LA VOZ .............................................................................................................. 11.1.1  Propiedades de las señales de voz........................................................................... 3 

1.2 LOS CODIFICADORES DE VOZ ............................................................................. 61.2.1  Propiedades de los codificadores de voz................................................................. 8 

1.2.1.1  Tasa de bit....................................................................................................... 8 1.2.1.2  Retraso ............................................................................................................ 9 1.2.1.3  Complejidad.................................................................................................. 10 1.2.1.4  Calidad.......................................................................................................... 11 

1.2.2  Tipos de algoritmos de codificación de voz........................................................... 12 1.2.2.1  Codificadores de forma de onda ................................................................... 13 1.2.2.2  Vocoders ....................................................................................................... 14 1.2.2.3  Codificadores híbridos.................................................................................. 15 1.2.2.4  Otros codificadores....................................................................................... 16 1.2.2.5  Sistemas de codificación usados en la práctica............................................. 16 

1.2.2.5.1  Red GSM.................................................................................................. 17 1.2.2.5.2  Red UMTS ............................................................................................... 17 1.2.2.5.3  Red telefónica fija .................................................................................... 17 1.2.2.5.4  Internet (voz sobre IP, VoIP).................................................................... 17 

2  REVISIÓN TEÓRICA ......................................................................19 

2.1 CODIFICACIÓN DE VOZ MEDIANTE PREDICCIÓN LINEAL ................................... 192.1.1   Introducción .......................................................................................................... 19 

2.1.2   Desarrollo matemático.......................................................................................... 22 2.2 COEFICIENTES LSF.......................................................................................... 272.2.1   Definición y características................................................................................... 27  2.2.2  Conversión LP -> LSF .......................................................................................... 30 

2.3 CODIFICACIÓN PREDICTIVA MEDIANTE ANÁLISIS POR SÍNTESIS ....................... 332.3.1   Introducción .......................................................................................................... 33 2.3.2  Codificación AbS genérica.................................................................................... 33 2.3.3  Predictor de corto plazo........................................................................................ 35 2.3.4  Predictor de largo plazo........................................................................................ 36  2.3.5  Filtro de ponderación de error.............................................................................. 44 

2.4 CELP .............................................................................................................. 462.4.1   Introducción .......................................................................................................... 46  2.4.2  Principio del CELP ............................................................................................... 46  2.4.3  Tabla de códigos algebraicos................................................................................ 51 

3  RECOMENDACIÓN G.729: CS-CELP..........................................53 

3.1 LA ITU-T........................................................................................................ 533.2 DESCRIPCIÓN DE LA RECOMENDACIÓN ............................................................ 54

3.2.1   Introducción .......................................................................................................... 54 3.2.2   Historia.................................................................................................................. 55 3.2.3  Objetivos y requerimientos de la recomendación G.729....................................... 56  3.2.4  Características del codificador ............................................................................. 58 

3.2.5   Aplicaciones .......................................................................................................... 60 3.2.6    Anexos ................................................................................................................... 61 

Page 6: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 6/138

 

Estudio y simulación de un codificador de voz basado en la recomendación G.729 de la ITU-T

II

4  IMPLEMENTACIÓN DEL CODIFICADOR DE VOZ................63 

4.1 INTRODUCCIÓN ................................................................................................ 634.1.1   Definición del sistema a implementar ................................................................... 63 4.1.2  Codificador............................................................................................................ 64 4.1.3   Decodificador........................................................................................................ 66  

4.2 DESCRIPCIÓN DE LAS FUNCIONES DEL CODIFICADOR ....................................... 674.2.1  Preprocesamiento.................................................................................................. 69 4.2.2   Análisis y cuantización de la predicción lineal ..................................................... 70 

4.2.2.1  Ventanización y cálculo de la autocorrelación ............................................. 70 4.2.2.2  Algoritmo de Levinson-Durbin .................................................................... 74 4.2.2.3  Conversión LP -> LSP.................................................................................. 75 4.2.2.4  Cuantización de los coeficientes LSP........................................................... 75 4.2.2.5  Interpolación de los coeficientes LSP........................................................... 75 4.2.2.6  Conversión de LSP a LP............................................................................... 75 

4.2.3  Ponderación perceptual ........................................................................................ 76  4.2.4   Análisis de tono en bucle abierto .......................................................................... 80 

4.2.5  Cálculo de la respuesta impulsiva......................................................................... 81 4.2.6   Cálculo de la señal objetivo .................................................................................. 82 4.2.7    Búsqueda de la tabla de códigos adaptativos ....................................................... 83 

4.2.7.1  Generación del vector de tabla de códigos adaptativos ................................ 85 4.2.7.2  Cálculo de la palabra de código para retardos de tabla de códigos adaptativos

86 4.2.7.3  Cálculo de la ganancia de tabla de códigos adaptativos ............................... 86 

4.2.8  Tabla de códigos fijos: estructura y búsqueda...................................................... 87  4.2.8.1  Procedimiento de búsqueda de la tabla de códigos fijos............................... 89 4.2.8.2  Cálculo de palabra de código de la tabla de códigos fijos ............................ 91 4.2.8.3  Cálculo de la ganancia de la tabla de códigos fijos ...................................... 91 

4.2.9   Actualización de la memoria ................................................................................. 92 

4.3 DESCRIPCIÓN DE LAS FUNCIONES DEL DECODIFICADOR ................................... 934.3.1  Procedimiento de decodificación de los parámetros ............................................ 93 4.3.1.1  Decodificación del vector de tabla de códigos adaptativos .......................... 94 4.3.1.2  Decodificación del vector de tabla de códigos fijos ..................................... 95 4.3.1.3  Decodificación de las ganancias ................................................................... 96 4.3.1.4  Cálculo de la señal de voz reconstruida........................................................ 96 4.3.1.5  Postprocesamiento ........................................................................................ 97 

4.3.1.5.1  Postfiltro de largo plazo............................................................................ 98 4.3.1.5.2  Postfiltro de corto plazo............................................................................ 99 4.3.1.5.3  Compensación de la pendiente ............................................................... 100 4.3.1.5.4  Control de ganancia adaptativo .............................................................. 101 4.3.1.5.5  Filtrado de paso alto y escalamiento ascendente.................................... 102 

5  SIMULACIONES.............................................................................107 

6  CONCLUSIONES............................................................................119 

7  LÍNEAS FUTURAS DE INVESTIGACIÓN ................................123 

BIBLIOGRAFÍA……………………………………………………….127

Page 7: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 7/138

 

Estudio y simulación de un codificador de voz basado en la recomendación G.729 de la ITU-T

III

Abreviaturas

-  ACELP.- CELP Algebraico

-  ADPCM.- Modulación por Código Pulsado Diferencial Adaptativa

-  CELP.- Codificación por predicción lineal con excitación

-  CS-CELP.- CELP con estructura conjugada

-  DSP.- Procesador Digital de Señal

-  GSM.- Sistema Global de Comunicaciones Móviles

-  IP.- Protocolo de Internet

-  ITU.- Unión Internacional de Telecomunicaciones

-  LAR.- Relaciones de Área Logarítmicas

-  LP.- Predicción Lineal

-  LPC.- Codificación por Predicción Lineal

-  LSP.- Pares del Espectro Lineal

-  LSF.- Frecuencias Espectrales de Línea

-  LTP.- Predictor de largo plazo ó de pitch

-  MIC.- Modulación por Impulsos Codificados

-  MIPS.- Millones de Instrucciones Por Segundo

-  MOS.- Mean Opinion Store

-  MSE.- Error Cuadrático Medio

-  PCM.- Modulación por Código Pulsado

-  RAM.- Memoria de Acceso Aleatorio

-  ROM.- Memoria de Solo Lectura

-  STP.- Predictor de corto plazo ó de predicción lineal

-  ToR.- Términos de Referencia

-  UMTS.- Sistema Universal de Telecomunicaciones Móviles

-  VAD.- Detector de actividad vocal

-  VoIP.- Voz sobre Protocolo de Internet

-  VQ.- Cuantización Vectorial

Page 8: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 8/138

 

Estudio y simulación de un codificador de voz basado en la recomendación G.729 de la ITU-T

IV

Glosario de las señales más importantes

( )nc   palabra código de excitación ó vector de la tabla de códigos fijos

( )nd    Señal de correlación entre señal objetivo y respuesta impulsiva del filtro de síntesisponderado

( )ne   señal de error (diferencia entre la señal original y la sintetizada)

( )new   señal de error ponderada

( )nh   respuesta impulsiva del filtro de síntesis ponderado

( )nr    señal residuo de predicción de largo plazo

( )n R   autocorrelación de corto plazo de la señal de voz

( )ns   señal de voz de entrada 

( )ns0ˆ   respuesta a entrada cero del filtro de síntesis ponderado

( )ns′   señal de voz de entrada ventanizada

( )ns   señal de voz sintetizada

( )ns~   señal de voz predicha en el predictor de corto plazo

( )nswˆ   señal de voz sintetizada ponderada

( )nsw   Señal de voz ponderada

( )nu   señal de excitación

( )nv   Vector de tabla de códigos adaptativos

)(nwlp   ventana de análisis LP

( )n x   Señal objetivo para la búsqueda de la tabla de códigos adaptativos

( )n x′   Señal objetivo actualizada

( )n y   palabra de código filtrada

( )n yα    convolución entre la señal de excitación y la respuesta impulsiva del filtro desíntesis ponderado

( )nnφ    correlación de la señal de voz

Page 9: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 9/138

 

Estudio y simulación de un codificador de voz basado en la recomendación G.729 de la ITU-T

V

Glosario de símbolos más importantes

( ) z A   filtro inverso de predicción lineal ó filtro blanqueador

( ) z A   filtro inverso de predicción lineal cuantizado ó filtro blanqueador cuantizado

( ) zF    filtro de reacción

( ) z H    filtro de predicción lineal ó de corto plazo

( ) z H f    Postfiltro de largo plazo

( ) z H h1   filtro de preprocesado

( ) z H h2   Filtro de postprocesado

( ) z H p   Postfiltro de corto plazo

( ) z H t    Filtro de compensación de pendiente

( ) zPl   predictor de largo plazo ó de pitch

( ) zPδ    predictor de corto plazo

( ) zP1   filtro de correlación de largo plazo ó filtro de síntesis de pitch

( ) zW    filtro de ponderación perceptual

Page 10: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 10/138

 

Estudio y simulación de un codificador de voz basado en la recomendación G.729 de la ITU-T

VI

Glosario de constantes más importantes

k a   parámetros LP ó coeficientes del predictor lineal de corto plazo

k a   parámetros LP ó coeficientes del predictor lineal de corto plazo cuantizados

 ja   estimación de los parámetros LP ó coeficientes del predictor lineal de corto plazo

C  Palabra de código de la tabla de códigos fijos

k c   palabra código k

E   residuo de predicción de largo plazo

wE    error cuadrático medio ponderado

s f    frecuencia de muestreo

frac Parte fraccionaria de los retardos de tono

G   ganancia de tono de largo plazo

cg   Ganancia de la tabla de códigos fijos

 pg   Ganancia de la tabla de códigos adaptativos

 H   matriz triangular inferior de la respuesta impulsiva ( )nh  

ii   Amplitud del impulso de la palabra de la tabla de códigos fijos

ik    Coeficientes de reflexión

 L tamaño de la trama

im   Posición del impulso de la palabra de la tabla de códigos fijos

io   Coeficientes LAR de la trama actual

21, PP   Palabra código para la tabla de códigos adaptativos de las subtramas 1 y 2

iq   Coeficientes LSP interpolados

iq   Coeficientes LSP interpolados cuantizados

)(k r    coeficientes de correlación de la señal enventanada

)(k r ′   coeficientes de correlación modificados de la señal enventanada

( )k  R   Correlación de la señal de voz enventanada para el retardo k

S Palabra de código de signo

Page 11: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 11/138

 

Estudio y simulación de un codificador de voz basado en la recomendación G.729 de la ITU-T

VII

is   Signo del impulso de la palabra de la tabla de códigos fijos

21 , T T    Retardos de tono (pitch) de las subtramas 1 y 2

opT    Retraso de bucle abierto

)(k wlag   factores de expansión del ancho de banda

α    retraso del predictor de largo plazo

 β    factor de escala

δ    factor de ponderación

γ    Factor de ponderación del filtro de síntesis

21, γ  γ     Factores del filtro de ponderación perceptual

ε    energía del denominador de E  

k ε    energía de la palabra código k

Φ  matriz simétrica que contiene las correlaciones de la respuesta impulsiva ( )nh  

ω   aumento del ancho de banda

Page 12: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 12/138

Page 13: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 13/138

 

Introducción

1

1  Introducción

1.1  La voz

El lenguaje hablado o la voz es la forma más común y natural de comunicacióndel ser humano y, su procesamiento, ha representado una de los campos másinteresantes en el análisis de señales. La investigación acerca del procesamiento de voz

ha llevado a la creación de importantes aportaciones técnicas a la sociedad.

El soporte fundamental de la voz es el sonido. El sonido se caracteriza porfluctuaciones de presión en un medio compresible. Dos cosas deben existir a fin de quese produzca una onda sonora: una fuente mecánica de vibración y un medio elástico através del cual pueda propagar la perturbación.

La voz se produce por la vibración de las cuerdas vocales. El aire exhalado delos pulmones es modulado y dado forma por la vibración en las cuerdas vocales y eltracto vocal. Ese sonido producido por la vibración de las cuerdas vocales es llevado alexterior por el propio aire espirado que causó la vibración.

En la figura 1 se muestra el camino que debe seguir el aire exhalado desde lospulmones hasta el exterior a través de los diferentes conductos [Miraya,2002]. 

Page 14: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 14/138

 

Introducción

2

Figura 1.- Aparato fonatorio humano

Las señales de voz, que no son más que una secuencia de símbolos acústicoselementales (conocidos como fonemas), además de servir para la comunicación de lainformación lingüística, llevan consigo multitud de información de otros tipos. La vozno es igual para todas las personas. Es una de las expresiones humanas en donde más se

pone de manifiesto las características del individuo, englobándose en ella tanto lasconstitucionales, anatómicas como anímicas. Algunas de estas características son: edad,acento, intensidad, emoción, humor, el estado de salud de la persona que habla…

Las investigaciones que han existido en este campo estudian temas relacionados conel análisis y síntesis de voz, la creación de códigos de voz, el reconocimiento de voz, elrealce de voz ó la comunicación multimodal.

Los estudios sobre el procesamiento de voz y las comunicaciones fueron motivadosen gran parte por el deseo de muchas personas de construir modelos mecánicos quepudieran imitar la comunicación verbal de los humanos. En 1791 se creó el primer

invento de este tipo que fue una imitación mecánica del aparato vocal humano[Lemmetty, 1999]. Con el paso de los años otros científicos sintetizaron sonidos vocalespor medio de la superposición de senoides armónicamente relacionadas y un ajusteadecuado de sus amplitudes. Estos han sido los dos principios dominantes en elprocesamiento de las señales de voz: uno motivado por la física para el modelado de lafuente del tracto vocal y el otro por las matemáticas en el modelado con senoides.

Diversos sistemas basados en bancos de filtros han sido la base para demostrar queuna señal de voz se puede representar en términos de un paquete de parámetros. Estosparámetros pueden utilizarse posteriormente no sólo para resintetizar la señal de voz,sino para reconocer la identidad de la persona que está hablando. Además abre la

posibilidad de comprimir el ancho de banda de una señal de voz, principio queactualmente se utiliza en la telefonía digital moderna.

Page 15: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 15/138

 

Introducción

3

Por otro lado, muchos sintetizadores de voz usan controles paramétricos, como porejemplo, controles de articulación, frecuencias formantes y parámetros de predicciónlineal. Los diferentes conjuntos de parámetros de control implican distintas estructuraspara sintetizar la señal de voz.

1.1.1  Propiedades de las señales de voz

Las señales de voz se caracterizan por ser no estacionarias y con variacioneslentas en el dominio del tiempo y se procesan normalmente en segmentos de tiempocortos, entre 5 y 30 ms. En estos segmentos la señal puede aproximarse a una señalcuasiperiódica. Cada segmento o trama puede ser clasificado como sonoro, no sonoro osilencio:

- Los sonidos sonoros tienen una naturaleza cuasiperiódica en el dominio deltiempo y una estructura armónica fina en el dominio de la frecuencia, provocadapor la vibración de las cuerdas vocales. Además, su espectro decae hacia altasfrecuencias. Su energía es alta debido a que el aire encuentra poca obstrucción alpasar por el tracto vocal. Estas características pueden observarse en la figura 2.

Figura 2. - Tramo de señal de voz sonoro en el tiempo y en la frecuencia

Estos sonidos consisten en una frecuencia fundamental (frecuencia de pitch) yuna serie de componentes armónicos de la misma, producidos por las cuerdasvocales. El tracto vocal modifica la señal de excitación provocando frecuenciasformantes (ceros). Los formantes son las frecuencias de resonancia del espectro,es decir, los picos de la envolvente del espectro de la señal de voz querepresentan las frecuencias de resonancia del tracto vocal. Cada formante tieneuna amplitud y un ancho de banda. La frecuencia fundamental y las frecuenciasde los formantes son probablemente los conceptos más importantes para lasíntesis y procesamiento de la voz.

Page 16: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 16/138

 

Introducción

4

Figura 3.- Envolvente de una señal de voz con sus 3 primeros formantes

Las frecuencias a las que se producen los primeros formantes son muyimportantes para reconocer o sintetizar la voz. En la figura 3 pueden verserepresentados los 3 primeros formantes de una señal de voz.

- Los sonidos no sonoros tienen una estructura típica aleatoria, sin periodicidades

marcadas en el dominio del tiempo y un espectro mucho más compensado enfrecuencia (tiene un espectro de banda ancha). Su energía es mucho menordebido a la presencia de obstrucciones en el tracto vocal.

Figura 4.- Tramo de señal de voz no sonoro en el tiempo y en la frecuencia

- Un segmento que no es consecuencia de la actividad vocal se denomina comosilencio. En telefonía, aproximadamente el 50 % del tiempo de conversación essilencio. Este hecho se utiliza en algunos sistemas celulares sin cables para

Page 17: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 17/138

 

Introducción

5

aumentar la eficiencia del ancho de banda del canal usando detectores deactividad vocal.

De una forma sencilla, un sistema de producción de voz se puede modelar conun modelo de sistema-fuente, que es un sistema lineal alimentado por una fuente de

excitación. En una aproximación de segundo orden, la excitación es un tren de pulsospara los segmentos sonoros y ruido blanco para los no sonoros.

Figura 5.- Diagrama de bloques simplificado del modelo de producción de voz

El periodo de cuasiperiodicidad de los segmentos sonoros se caracteriza por unperiodo de pitch en el dominio del tiempo ó pitch ó frecuencia fundamental en eldominio de la frecuencia. Este pitch es un parámetro importante para algunosalgoritmos de codificación de voz. Se puede identificar como la periodicidad de lospicos de la amplitud en la forma de onda y la estructura fina del espectro. Lasfrecuencias de pitch de hombres y mujeres normalmente se encuentran en el rango 50-250 Hz (4-20 ms) y 120-500 Hz (2-8,3 ms), respectivamente [Nadeu, 2004].

El ancho de banda de la señal de voz rara vez excede de los 8 kHz. Encodificación de voz para banda ancha, el ancho de banda está limitado a 7 kHz., y la vozes muestreada a 16 kHz. En telefonía, el ancho de banda está limitado a 4 kHz (0.2-3.4kHz, normalmente) y la voz es muestreada, generalmente, a 8 kHz. Como ejemplo, si seobservan las figuras 2 (en el dominio de la frecuencia) y 3, puede verse cómo los 3

primeros formantes están dentro del ancho del canal telefónico. A menos que lafrecuencia fundamental quede fuera del canal telefónico el sistema de audición humanoes capaz de reconstruirlo a partir de sus componentes armónicos.

La calidad de la señal de voz codificada puede clasificarse, a grandes rasgos, en4 categorías: BROADCAST calidad para comunicaciones en banda ancha, calidadTOLL o de red para señales analógicas (telefonía), de comunicación (señalesdegradadas pero naturales e inteligibles) y calidad sintética (señales poco naturales perointeligibles, representadas por los codificadores lineales predictivos (LPC) o vocoders).

Generadorde tren deimpulsos

Generadorde ruidoaleatorio

Periodo de pitch

Filtro

Señal deSalida

Ganancia

InterruptorSonoro/noSonoro

Page 18: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 18/138

 

Introducción

6

1.2  Los codificadores de voz

La compresión de la voz hace referencia a la representación compacta de lasseñales de voz. La codificación de la voz se refiere a la representación digital de las

señales. Como el principal objetivo de la codificación de la voz es la compresión de laseñal, es decir, reducir el número de bits necesarios para su representación, los dostérminos, compresión y codificación de la voz, se pueden usar indistintamente.

La codificación de las señales de voz se ha convertido en una de las áreas másimportantes de la comunicación digital moderna durante las dos últimas décadas,sentando las bases para una nueva generación de servicios. Aplicaciones típicas de lacodificación de la voz son la red convencional de telefonía, sistemas de comunicaciónpersonal sin cables y comunicaciones de seguridad militar. Sirva como ejemplo de estaimportancia el papel que tiene en la vida de millones de personas la telefonía móvil. Latransmisión y almacenamiento de señales de voz y audio ha tenido un enorme

crecimiento debido a Internet y a las aplicaciones multimedia, como lasvideoconferencias, en las cuales tienen una importancia determinante. El desarrollo demicroprocesadores y nuevos hardware para el procesamiento de señales impulsannuevas ideas para las mejoras en el procesado de la voz. Por todas estas razones, lademanda de sistemas más rápidos, eficientes, fiables y de mejor calidad crececontinuamente.

Existe una gran variedad de técnicas de codificación de voz, muchas de ellas nonormalizadas, que se emplean en muy diversos ámbitos.

En la codificación de señales de voz el principal objetivo es lograr una alta

calidad de percepción en la señal de voz reconstruida a un bajo coste. Estos costes estáncompuestos por varios elementos, como por ejemplo, la tasa de bit, la complejidad y larobustez frente a errores de transmisión. El peso sobre el coste final de cada uno deestos elementos depende la aplicación, aunque la tasa de bit y la tasa de compresióntienen una importancia fundamental, especialmente en la comunicación móvil.

Los códecs de voz se diferencian de los de audio en que están optimizados paraseñales de voz. La voz humana es más sencilla de modelar que el audio genérico. Estosignifica que la voz de alta calidad se puede codificar con métodos específicos mejorque el audio genérico. Por otro lado, los humanos son muy buenos detectandoproblemas en las señales voz de otros. Esto quiere decir que códecs de audio de calidadaceptablemente buena obtienen resultados bastante pobres con señales de voz, inclusocon tasas de bit bastante elevadas.

La señal de voz codificada se transmitirá o almacenará para una aplicaciónespecífica. A medida que el número de bits usados para la representación de la señal sereduce, el ancho de banda efectivo del canal de transmisión aumentará y el espacio dememoria se reducirá. Los diferentes algoritmos de codificación difieren en cómoseleccionar la señal y los parámetros para representar la voz eficientemente. Esasseñales y/o parámetros elegidos son cuantizados y transmitidos al receptor para sudecodificación.

Dado el gran numero de aplicaciones que existen hoy en día, puede resultarcomplicado elegir el codificador de voz que mejor se adapte a cada una de ellas.

Page 19: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 19/138

 

Introducción

7

Aunque la mejor solución sería tener un codificador que se pudiera utilizar paracualquier tipo de aplicación, por lo general resulta más económico adaptar elcodificador a la aplicación.

En las comunicaciones digitales de las señales de voz, éstas están generalmente

limitadas en banda por debajo de 4 kHz y muestreadas a 8 kHz. Lo más normal es quelas muestras de voz se codifiquen en amplitud con un número de bits entre 8 y 16. Lacuantización puede ser uniforme o no uniforme. La cuantización no uniforme puedeusarse para tasas de bit bajas ya que la sensibilidad del oído humano es logarítmica.Ejemplos típicos de cuantización no uniforme son la ley A (A-law) usada en lossistemas de telecomunicaciones europeos y la ley µ (µ-law), usada en los sistemas detelecomunicaciones americano y japonés.

La técnica de codificación más simple es la modulación por código pulsado(PCM). En base a ella se constituyó la primera recomendación en este campo de la ITU-T, la G.711, que especifica cuáles son las claves de 8 bits que se obtienen de la

codificación logarítmica (siguiendo las leyes A y µ) de canales telefónicos digitalizados,con una frecuencia de muestreo de 8 kHz y una resolución de 8 bits por muestra. Dalugar a una tasa binaria de datos de 64 kbit/s. El codificador consiste simplemente en uncuantizador de las amplitudes de las muestras. Esta técnica se introdujo en los años 70en la red de telefonía de larga distancia [IEEE, Nov 1996]. Una señal de voz codificadaa 64 kbit/s usando la técnica PCM logarítmica se considera que no está comprimida y amenudo se usa como referencia para comparaciones. Una técnica convencional decodificación es la ADPCM (Adaptive Differencial Pulse Code Modulation) trabajando a32 kbit/s. La calidad percibida en estos esquemas de codificación es denomina amenudo calidad ‘toll’ ó calidad telefónica.

Sofisticados métodos de codificación de voz que reducen la redundancia yeliminan información irrelevante de la señal han logrado alcanzar altas calidades conunas tasas de bit bajas. A tasas de bit entre 16 kbit/s y 32 kbit/s la codificación porpredicción lineal (LPC) es la más usada para modelar la señal de voz. La codificaciónpor predicción lineal basada en el análisis por síntesis puede usarse para aumentar laeficiencia en la cuantización de la señal de voz para tasas de codificación entre 4 kbit/sy 16 kbit/s. Un esquema de cuantización muy popular en la actualidad es el conocidocomo CELP (Code Excited Linear Prediction), basado en la codificación medianteanálisis por síntesis y que fue introducido en 1985. Los codificadores CELP usan tablasde códigos vectoriales para codificar la señal excitación. (El funcionamiento más

detallado de este tipo de codificadores se estudiará más adelante).

Uno de los factores clave de este progreso es el rápido desarrollo de las técnicasde compresión de señales. Estas técnicas pueden ser con pérdidas o sin pérdidas. Encodificaciones sin pérdidas, la señal puede reconstruirse perfectamente. Sin embargo, latasa de compresión alcanzada en este tipo de compresión es pequeña para la demandaactual. Por tanto, son las técnicas de compresión con pérdidas las que más se usan. Elobjetivo es minimizar la distorsión ó error entre la señal original y la señal reconstruida.

La cuantificación vectorial (VQ) es uno de los métodos de codificación conpérdidas más potentes. Una de las aplicaciones más frecuentes de la cuantificación

vectorial es la cuantificación del espectro de la señal. El problema ha sido muyestudiado y desarrollado durante las últimas décadas. La cuantificación vectorial se ha

Page 20: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 20/138

 

Introducción

8

demostrado como eficiente para la codificación de los parámetros LPC y, por ello, esampliamente usada en los codificadores de voz modernos. A pesar de los progresos, latransmisión de los parámetros del espectro requiere entre 1 y 2 kbit/s, que es unaimportante parte del total de la tasa de bit para codificadores con baja tasa de bit.

A pesar de que los precios de procesadores, memoria, etc. han disminuido en losúltimos años y la velocidad de procesado ha aumentado, la importancia de lacodificación y compresión de la voz no ha disminuido debido a la continua demanda delmercado de un uso más eficiente de los recursos hardware. Por ejemplo, las señalesmultimedia están formadas por un conjunto de diferentes señales que puedenpresentarse secuencial o simultáneamente. Por tanto, la transmisión de señales de vozcodificadas para aplicaciones multimedia implica que se debe compartir el canal conotras señales, de ahí el interés por perfeccionar los métodos de codificación.

1.2.1  Propiedades de los codificadores de voz

La calidad de la voz generada a partir de un codificador está en función de latasa de bit, la complejidad, el retraso y el ancho de banda del mismo; factores que habráque tener muy presentes a la hora de confeccionar cualquier codificador de voz. Esimportante darse cuenta de la fuerte interrelación que existe entre estos factores, siendonecesario, en muchas ocasiones, aceptar la degradación de uno o varios de ellos paraconseguir la mejora de otro. Por ejemplo, los codificadores con una tasa de bit bajasuelen tener un mayor retraso que los codificadores con una tasa de bit más alta.Además también suelen requerir una mayor complejidad y normalmente tienen peor

calidad. Otros factores que influyen en la elección de un codificador son ladisponibilidad del mismo y las condiciones de la licencia, o la manera en que estádefinido el estándar, ya que algunos sólo se describen como un algoritmo, mientras queotros tienen un código completo para su utilización.

A continuación se verán cada uno de los factores de interés para loscodificadores por separado [Cox y Kroon, 1996]:

1.2.1.1  Tasa de bit

Desde el momento en que los codificadores de voz comenzaron a compartir elcanal con otro tipo de información, se hizo necesaria la utilización de la menor tasa debit posible para no usar una parte excesiva del canal. Muchos codificadores trabajan auna tasa de bit fija, independientemente de las características de la señal de entrada,pero a la hora de compartir el canal con otro tipo de información es mejor hacercodificadores de tasa variable. Para aplicaciones que usan simultáneamente voz y datosse puede optar por usar un esquema de compresión de silencios como parte del estándardel código. Una solución bastante común es usar una tasa de bit fija cuando hayactividad vocal y una tasa baja para el ruido de fondo.

La compresión de silencios consiste en dos algoritmos. Por una lado un detectorde actividad vocal (VAD; Voice Activity Detector), que determina si la señal de entrada

Page 21: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 21/138

 

Introducción

9

es realmente voz o ruido de fondo. Si el detector determina que la señal es vocal, secodifica a la tasa de bit fija. Por el contrario, si determina que es ruido lo codifica conuna tasa de bit baja. Incluso hay veces en que no se transmite ningún bit. El segundoalgoritmo es un generador de ruido (CNG; Comfort Noise Generation), que se usa en elreceptor para reconstruir las principales características del ruido de fondo. Se usa esta

señal de ruido, denominado comfort noise debido a que los oyentes prefieren un nivelbajo de ruido que el silencio. Obviamente la actuación del detector de voz es crítica parala calidad de la transmisión.

1.2.1.2  Retraso

Uno de los aspectos de diseño más importantes a la hora de implementar la vozes minimizar el retraso de extremo a extremo. El retraso es inherente a las redes de vozy es causado por el número de factores diferentes que intervienen en ellas. El retraso enun sistema de codificación de voz normalmente está formado por tres retrasos:

-  Retraso algorítmico.- Muchos de los codificadores de voz con una tasa de bitbaja procesan las tramas una a una. Los parámetros de la señal son actualizadosy transmitidos para cada trama. Además, para analizar la informacióncorrectamente, a veces es necesario analizarla más allá de los límites de la trama.Este proceso se califica como procesado hacia delante. Esto significa que antesde analizar la señal de voz, es necesario almacenar una serie de información. Elretraso que se tiene como consecuencia de esto recibe el nombre de retrasoalgorítmico. Este retraso es la única componente del retraso total que no se

puede reducir cambiando la implementación. Los demás retrasos sí dependen dela implementación. Como este retraso algorítmico es inevitable para sistemasprácticos, debe ser tenido muy en cuenta al analizar los objetivos de retraso.

-  Retraso debido al procesamiento.- Tiempo que emplea el codificador en analizarla señal de voz y el decodificador en reconstruirla. Depende de la velocidad delhardware con el que se implemente el codificador.

-  Retraso de la comunicación.- Tiempo que necesita una trama de informaciónpara transmitirse desde el codificador al decodificador.

La suma de estos tres retrasos se denomina retraso del sistema en un sentido(one-way system delay). También se le conoce como latencia del códec. Valoresmáximos de hasta 400 ms pueden ser admisibles si no hay ecos, aunque es preferibleque este retraso esté por debajo de los 200 ms. Si hay ecos, el máximo tolerable bajahasta los 25 ms. De ahí el frecuente uso de canceladores de eco. Una latencia de 500 mspara el recorrido completo es virtualmente inutilizable para una conversación de voz[Spanias, 1994].

Page 22: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 22/138

 

Introducción

10

Si se calculan las latencias para tres códecs diferentes se obtiene losiguiente:

 Figura 6.- Comparación de la latencia para tres códec diferentes

Se observa cómo el retraso en el códec es el que marca la diferencia entre lostres. Los códecs con tasas de bit más bajas tienden a tener latencias mayores al ser susalgoritmos más complejos. De ahí que el que menor latencia tenga (81 ms) sea el de larecomendación G.711, que emplea la modulación PCM, teniendo una tasa de bit de 64kbit/s. A continuación está el de la recomendación G.729, con una tasa de bit de 8kbit/s, con una latencia de 90 ms y, por último, el de la recomendación G.723, con unatasa de bit de 5,3 kbit/s y una latencia de 110 ms [Lew, 2005].

Esta comparación se ha realizado tomando como referencia una red IP, de ahí lainclusión de los retraso de cola, tiempo desde que llega la trama o paquete hasta que seprocesa y el jitter, que representa el grado de variabilidad que hay en la transmisión(tráfico de la red, número de fuentes…).

En muchas aplicaciones, como por ejemplo las teleconferencias, donde cadapersona puede escuchar a todas las demás, es necesario decodificar cada una de lascadenas de bit, sumar las señales decodificadas y volver a codificar la señal suma. Estohace que los retrasos se sumen, reduciendo, además, la calidad de la señal, debido a lasmúltiples codificaciones. En sistemas en cascada el máximo retraso tolerable para cadasistema individual es menor, ya que al unirlos, los retrasos se suman.

1.2.1.3  Complejidad

Los codificadores de voz se implementan normalmente sobre un hardware conun propósito específico, como los chips de procesamiento digital de señales (DSP;

Page 23: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 23/138

 

Introducción

11

Digital Signal Processor). Sus características se pueden medir en función de lavelocidad computacional, medida en millones de instrucciones por segundo (MIPS), lamemoria RAM (Random Access Memory) y la memoria ROM (Read Only Memory). Ala hora de hacer un codificador de voz para cualquier aplicación, el diseñador debedecidir qué cantidad de estos recursos consume. Los codificadores que requieren menos

de 15 MIPS se consideran de baja complejidad, mientras que si requieren 30 MIPS omás se consideran de complejidad alta. El requerir más o menos memoria RAM ó ROMconlleva que el chip resulte más o menos caro.

Desde el punto de vista del diseñador una mayor complejidad conlleva un mayorcoste y una mayor necesidad de consumo de potencia. Para aplicaciones portátiles, unmayor consumo de potencia implica la reducción del tiempo entre recargas, o el uso debaterías más grandes, lo que significaría mayor coste y peso. De aquí la importancia dela complejidad del codificador.

1.2.1.4  Calidad

Una de las cosas más importantes es ver cómo de bien se escucha la señalcodificada en presencia de condiciones ideales (señal de voz limpia, sin errores detransmisión y una única codificación). En la figura 7 se representa la relación entre latasa de bit y la calidad de una señal de voz codificada una vez y sin ruido de fondo paralos tres tipos de codificadores de voz más extendidos.

Figura 7.- Relación tasa de bit-calidad para los diferentes tipos de codificador

En la figura puede observarse cómo a medida que se disminuye la tasa de bit delcodificador, disminuye la calidad de la señal de voz, aunque en la actualidad se puededisponer de codificadores con una tasa de bit bastante baja y una calidad casiequiparable a la de otros codificadores con tasas superiores [Janssen y Slump, 2001].

Page 24: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 24/138

 

Introducción

12

Cada códec proporciona una cierta calidad de voz. La calidad de la voztransmitida es una respuesta subjetiva del oyente. Una medida común de referenciausada para determinar la calidad del sonido producido por códecs específicos es laMean Opinión Store (MOS). En este test, un amplio grupo de oyentes juzgan la calidadde la muestra de voz, es decir, los oyentes califican de 1 (malo) a 5 (excelente) una frase

codificada mediante un códec determinado. Los resultados son promediados para dar elvalor MOS para la muestra. Un valor de 4 o superior se considera calidad perfecta ocalidad “toll”, que viene a decir que la señal de voz reconstruida no se puedeprácticamente distinguir de la señal de voz original.

MOS Calidad Clasificación de la voz

1 Mala

2 Pobre

Voz artificial3 MediaComunicaciones

Red digital mejorada4 Buena

5 ExcelenteTransparente

Tabla 1.- Medida subjetiva de la calidad de la voz

A la hora de elegir codificador es fundamental adaptarlo a la finalidad para la

que se va a emplear. Uno de los principales inconvenientes es la distorsión de la señaldebido a las múltiples codificaciones (llamadas codificaciones tándem). Por ejemplo,cuando una señal de voz G.729 es codificada tándem 3 veces, el valor MOS baja de3,92 (buena) a 2,68 (inaceptable para la comunicación).

1.2.2  Tipos de algoritmos de codificación de voz

Los distintos algoritmos de codificación tratan de eliminar la redundancia de laseñal y así poder reducir al mínimo el número de bits usados para codificar cada

muestra. Un método de codificación se evalúa con las siguientes características:

-  Velocidad de transmisión (“bit rate”)-  Calidad de la voz reconstruida.-  Complejidad de la implementación-  Retardo introducido-  Robustez ante la aparición de errores en el canal o interferencias acústicas.

Los codificadores de voz se pueden encuadrar dentro de tres grandes categorías:codificadores de forma de onda, vocoders y codificadores híbridos. Los codificadoresde forma de onda intentan aproximar directamente la forma de onda de la señal original.La señal reconstruida puede o no parecerse a la señal original. Los vocoders, por suparte, intentan aproximar el sonido, por lo que la forma de onda de la señal reconstruida

Page 25: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 25/138

 

Introducción

13

puede o no parecerse a la original. A los codificadores que emplean propiedades de loscodificadores de forma de onda y vocoders se les llama codificadores híbridos. Acontinuación se muestra una clasificación de los codificadores [Koo, 2002].

Tipo Algoritmo de codificación

Codificadores de forma deonda

PCM (Pulse-Code Modulation), APCM (AdaptivePCM)DPCM (Differential PCM), ADPCM (AdaptiveDPCM)DM (Delta Modulation), ADM (Adaptive DM)CVSD (Continuously Variable-Slope DM)APC (Adaptive Predictive Coding)SBC (Subband Coding)ATC (Adaptive Transform Coding)

Codificadores híbridos MPLP (Multipulse-Excited Linear Prediction)RPE (Regular Pulse-Excited linear prediction)RELP (Residual-Excited Linear Prediction)VSELP (Vector-Sum Excited Linear Prediction)CELP (Code-Excited Linear Prediction)ACELP (Algebraic CELP)CS-ACELP (Conjugated Structure ACELP)

Vocoders Canal, Formante, Fase, Cepstral o HomomórficoLPC (Linear Predictive Coding)MELP (Mixed-Excitation Linear Prediction)STC (Sinusoidal Transform Coding)MBE (Multiband Excitation), MBE mejorada

Tabla 2.- Clasificación de los codificadores más importantes

1.2.2.1  Codificadores de forma de onda

La base de los codificadores de forma de onda es que la envolvente de la señalreconstruida se parezca lo máximo posible a la de la señal original, sin ningún tipo deinformación sobre cómo se generó la señal a codificar. Por lo tanto, en teoría, este tipode decodificadores deberían ser independientes de la señal de entrada y trabajar paratodo tipo de señales, tanto vocales como no vocales. Los codificadores de forma de

onda producen una buena calidad de la señal de voz con tasas de bit alrededor de 16kbit/s, presentando una degradación aceptable en presencia de ruido y errores detransmisión. Sin embargo, al disminuir la tasa de bit por debajo de 16 kbit/s, la calidadde la señal se deteriora rápidamente. Para obtener la misma calidad que los vocodernecesitan trabajar con tasas de bit superiores a éstos. Hay dos tipos de codificadores deforma de onda, que son:

-  Codificadores en el dominio del tiempo. Existen distintas técnicas decodificación según la forma de transmisión de la información de la señal digital.Se puede transmitir en la amplitud de los pulsos (PAM, Pulse AmplitudeModulation), en la posición (PPM, Pulse Position Modulation), en la anchura

(PWM, Pulse Width Modulation), etc. La técnica más ampliamente utilizada esla conocida como modulación por código pulsado, PCM (Pulse Code

Page 26: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 26/138

 

Introducción

14

Modulation), en la que se realiza un muestreo y cuantización de la señal deentrada, es decir de la señal de voz original. Otras técnicas muy usadas se basanen que existe una considerable correlación entre muestras adyacentes y lo que setransmite es la diferencia respecto a la muestra anterior. Se predice la siguientemuestra a partir de la anterior. Pueden ser DPCM (Differential Pulse Code

Modulation) y ADPCM (Adaptative Differential Pulse Code Modulation). Aeste tipo de codificadores que emplean predictores se les denominacodificadores predictivos.

-  Codificación en el dominio de la frecuencia. Puede ser a su vez por sub-banda ypor transformada. Para el caso de sub-banda se divide la señal en un número decomponentes en frecuencias separadas y se codifican independientemente. Elnúmero de bits asignados a cada banda depende de su importancia espectral.Generalmente en el caso de la voz, se usan más bits para las frecuencias bajascon el fin de preservar el pitch y la información de los formantes.

Por otra parte, la codificación de la forma de onda en el dominio de la frecuenciapor transformada consiste en una transformación por bloques, de forma que serealiza una transformación a un dominio diferente y se codifican los coeficientesde la transformación. Esta forma de codificación es muy compleja, y comoejemplos se tienen las técnicas DCT (Discrete Cosine Transform) y DFT(Discrete Fourier Transform).

1.2.2.2  Vocoders

Los vocoders (Voice Coders) intentan generar una señal de voz que suene igualque la original, independientemente de si la forma de onda se parece o no. En el emisorse analizan la señal de voz y se extraen los parámetros del modelo y la excitación. Estosparámetros son cuantizados y transmitidos al receptor, donde la señal de voz sereconstruye en base a ellos. Por esta razón, a los vocoders también se les llamacodificadores paramétricos. Los vocoders pueden, por norma general, conseguir unamayor compresión de la voz que los codificadores de forma de onda, sin embargo, se lesreconoce por la calidad artificial o innatural de la voz que generan, excepto por lasrecientes mejoras efectuadas en algunos, como por ejemplo el MELP.

El vocoder más utilizado es el de predicción lineal LPC (Linear PredictiveCode), que supone que cada muestra puede obtenerse a partir de una combinación linealde las anteriores, aceptándose un filtro todo polo para modelar el tracto vocal. Laexpresión para realizar la decodificación sería la siguiente:

∑=

−= p

k k nk n sas

1

  (1.1) 

donde sn es la muestra actual, sn-k  son las muestras precedentes, ak  son los coeficientesdel filtro, que se calculan para minimizar el error de la muestra actual y su predicción, y

 p es el orden del filtro.

Page 27: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 27/138

 

Introducción

15

El método LPC ha sido empleado desde hace mucho tiempo. La compañía TexasInstruments desarrolló un circuito integrado PMOS monolítico con un sintetizador devoz allá por el año 1978 [Ozun et al., 2002]. Este hecho constituyó la primera vez que eltracto vocal humano era duplicado electrónicamente en un solo chip de silicona. Esteprimer sintetizador de voz se basó en el análisis LPC para realizar la síntesis con éxito.

Permite codificar la voz con tasas de bits bajas. Para un LPC de orden 10 la tasa de bitronda los 2,4 kbit/s. Aunque el método da como resultado una señal de voz que suenaartificial, es inteligible. Este método tiene extensos usos en aplicaciones militares,donde una calidad alta de la voz no es tan importante como una tasa baja de bit parapermitir una fuerte encriptación de la información. Sin embargo, el mercado comercialrequiere una alta calidad de la señal de voz y se han buscado otras técnicas paramejorarla, que normalmente incluyen un aumento de la tasa de bit.

1.2.2.3  Codificadores híbridos

Los codificadores híbridos son una mezcla de los dos tipos anteriores,mezclando la alta capacidad de compresión de los vocoders con la gran calidad dereproducción de los codificadores de forma de onda. Producen una señal de buenacalidad con tasas de bit medias o bajas. Utilizan un modelo paramétrico de producciónde voz y tratan de preservar las partes más importantes, perceptualmente hablando, de laforma de onda de la señal de entrada. Existen varios tipos:

-  RELP (Residual Excited Linear Prediction). Cuando la señal de voz se pasa através de un predictor lineal se elimina la correlación entre tramas. Si la

predicción es bastante buena, la salida del predictor será aproximadamente ruidoblanco, espectralmente plano. El residuo contiene toda la información deexcitación y cualquier información que el filtro LPC no considera (fase,información de pitch, nasalidad, etc.). La idea del RELP es que una pequeñaparte del residuo se transmite y a partir de él se reconstruye el residuo completoen el receptor.

Aunque el concepto de codificación residual se usa también en ADPCM, RELPes diferente en el hecho de que la codificación del residuo se basa en el espectroen lugar de en la forma de onda. RELP opera en el rango de 6 a 9,6 kbit/s.

-  MPLP (Multi_Pulse Linear Prediction). Los vocoders clasifican los sonidos ensonoros y no sonoros, pero no consideran una mezcla de ambos, por lo que sucalidad es baja. Para solucionar este problema se utiliza el codificadormultipulso.

El período de pitch produce una correlación de retardo largo que no se eliminacon el filtro LPC. Esta correlación puede hacerse desaparecer usando unsegundo predictor lineal, llamado predictor de pitch o filtro de pitch, cuyaexpresión es la siguiente:

( )

−−−=i

i M 

i

 z zP β 1 (1.2) 

Page 28: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 28/138

 

Introducción

16

donde  β i son los coeficientes del filtro,  M  es el factor que tiene en cuenta elretardo de término largo e i varía entre uno y el orden del filtro. La salida de estepredictor es aproximadamente ruido gaussiano.

En este codificador se pasa a los dos filtros una serie de impulsos (entre cuatro y

seis) como excitación. Las posiciones y amplitudes se determinan usando unprocedimiento de análisis por síntesis, consistente en elegir el conjunto deimpulsos que produce el menor error entre la señal original y la reconstruida apartir de ellos. La calidad de los codificadores MPLP es muy buena a partir detasas de bit de 9,6 kbit/s.

Una variación del codificador MPLP consiste en elegir como secuencia deexcitación patrones de pulsos regularmente espaciados. Es el codificadorllamado RPE (Regular Pulse Excitation), que es usado en GSM. Un factor típicode espaciado de los pulsos es 3-4, siendo actualizada la posición del primerpulso cada 5 ms. El número de pulsos existentes cada 5 ms es del orden de 10-

13, obteniéndose sus amplitudes mediante la resolución de un conjunto deecuaciones lineales.

-  CELP (Code Excited Linear Prediction). En este codificador la secuencia deexcitación del filtro de pitch se elige de lo que se conoce como “diccionario”. Eldiccionario está formado por un conjunto de secuencias de ruido blancogaussiano, cada una identificada por un índice dentro del mismo. Se realiza unproceso de análisis por síntesis para determinar la secuencia de ruido y lasganancias óptimas. Al receptor, por tanto, sólo se le envía el índice deldiccionario y la ganancia. Este tipo de codificadores consigue buena calidad devoz a 4,8 kbit/s, aunque presenta el inconveniente de que la búsqueda en eldiccionario requiere mucha carga computacional.

1.2.2.4  Otros codificadores

Existen otros tipos de codificadores con diferentes métodos de codificación,como por ejemplo, los codificadores de subbanda, donde la señal de entrada se filtra através de un banco de filtros sintonizados a diferente frecuencia. Este tipo decodificadores no son muy usados para codificar voz, ya que es muy difícil obtener unabuena calidad de la voz con una tasa de bits relativamente baja. De ahí que sólo se

emplee para aplicaciones de codificación de voz con tasas de bits medias o altas.

1.2.2.5  Sistemas de codificación usados en la práctica

Los sistemas de codificación más utilizados en la práctica para las diferentesredes existentes son [Gómez et al., 2001]:

Page 29: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 29/138

 

Introducción

17

1.2.2.5.1  Red GSM

-  Codificación Half Rate (5,6 kbit/s).-  Codificación Enhace Full Rate (12,2 kbit/s).-  Codificación Full Rate (13 kbit/s).

1.2.2.5.2  Red UMTS

Se utiliza la codificación Adaptative Multi Rate (AMR) (variable de 12,2 kbit/s a4,75 kbit/s). Este codificador se va a usar en los servicios móviles de tercera generacióndenominados IMT-2000 (en telecomunicaciones móviles internacionales).

Dentro de este sistema se encuentra el estándar europeo denominado UMTS(Sistema Universal de Telecomunicaciones Móviles) que utiliza este codificador.

1.2.2.5.3  Red telefónica fija

Codificación Ley-A para telefonía fija, norma G.711 (64 kbit/s).

1.2.2.5.4  Internet (voz sobre IP, VoIP)

-  Codificación G.711 (64 kbit/s)-  Codificación G.722 (ADPCM, 64 kbit/s)-  Codificación G.728 (16 kbit/s)-  Codificación G.729 (8 kbit/s)-  Codificación G.723.1 (5,3 kbit/s y 6,3 kbit/s)

Por último, se presenta una tabla comparativa de los estándares y codificacionesmás utilizados, comparando las características más importantes de cada uno de ellos[Wong et al., 1996]:

Page 30: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 30/138

 

Introducción

18

Standard Año Tipo de códigoTasa de bit

(kbit/s)MOS

Retraso alg.(ms)

ITU-G.711 1972 PCM 64 4..3 0.125

ITU-G.721 1984 ADPCM 32 4.0 0.125

ITU-G.726 1991 VBR-ADPCM 16, 24, 32 y 40 2.0, 3.2, 4.0 y 4.2 0.125

ITU-G.727 1991 Embedded-ADPCM 16, 24, 32 y 40 — 0.125

ITU-G.728 1992 LD-CELP 16 4.0 0.625

Inmarsat-B APC 9.6/16 Comunicación 20

GSM Full-rate 1989 LTP-RPE 13 3.7 20

GSM-EFR 1995 ACELP 13 4.0 20

Skyphone 1989 BT-MPLPC 8.9 3.5 28

DAMPS Full-rate IS54 1991 VSELP 7.95 3.6 20

ITU-G.729 1995 CS-ACELP 8 4.0 15

IS-96 1991 Qualcomm CELP 1, 2, 4 y 8 3.5 —

JDC Japanese Full-rate VSELP 6.7 Comunicación 20

GSM Half-rate 1994 VSELP 5.6 3.5 24.375

ITU-G.723 1995 A/MP-MLQ CELP 5.27/6.3 Comunicación 37.5

American DOD FS1016 1990 CELP 4.8 3.0 45

TETRA 1994 ACELP 4.56 Comunicación 35

Inmarsat-M 1990 IMBE 4.15 3.4 78.75

JDC Japanese Half-rate 1993 PSI-CELP 3.45 Comunicación 40

American DOD FS1015 1984 LPC-10 2.4 sintética 22.5 (mínimo)

Tabla 3.- Comparación de estándares más usados

Page 31: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 31/138

 

Revisión teórica

19

2  Revisión teórica

2.1  Codificación de voz mediante predicción lineal

2.1.1  Introducción

Muchos de los modernos codificadores de señales de voz (entre ellos elcodificador objeto de este estudio) están basados en un modelo de filtro fuente deproducción de voz en los seres humanos. En dichos códigos un filtro de síntesis, quemodela a grandes rasgos el tracto vocal humano, es atravesado por una señal deexcitación, que esencialmente modela el flujo de aire a través de las cuerdas vocales. Elfiltro de síntesis se puede modelar usando predicción lineal. La tasa a la que la formadel tracto vocal cambia está limitada, y normalmente una actualización cada 50 Hz essuficiente para que el modelo dé resultados aceptables. Por ello, el análisis LP se realizageneralmente una vez cada trama de 20 ms, es decir, si se trabaja con una frecuencia demuestreo de 8000 Hz, las ventanas serían de 160 muestras.

Este enventanado, necesario para el cálculo por bloques ó tramas de losparámetros LP, es el responsable del retardo que introducen estos esquemas decodificación en la transmisión de la señal de voz. Por ello, casi todos los esquemas decodificación mediante predicción lineal utilizan ventanas asimétricas que evitan elaumento de ese retardo.

Page 32: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 32/138

 

Revisión teórica

20

Figura 8.- División de una señal vocal en tramas

Antes de poder extraer los parámetros de una señal de voz, es necesario tener unmodelo teórico del análisis a realizar. En el procesado de voz se usa un modelo de filtrofuente de producción de voz. Un diagrama de bloques simplificado se muestra en lafigura 9. En este modelo, la señal de excitación se modela, bien como un tren de pulsos,para señales sonoras, bien como ruido aleatorio, para señales no sonoras. Lascontribuciones espectrales combinadas de la glotis, el tracto vocal y de la posición de

los labios se representa mediante un filtro digital variante en el tiempo.

Figura 9.- Diagrama de bloques del modelo simplificado de producción de voz

A continuación puede verse cómo sería todo el proceso gráficamente, tanto parauna señal sonora, a partir de un tren de pulsos, (figura 10) como para una señal nosonora, a partir de una señal aleatoria (figura 11):

Generadorde tren deimpulsos

Generadorde ruidoaleatorio

Periodo de pitch

Filtrovariante enel tiempo

Señal deSalida

Ganancia

Coeficientes LPC

InterruptorSonoro/noSonoro

Page 33: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 33/138

 

Revisión teórica

21

Figura 10.- Representación gráfica de una señal sonora al atravesar el diagrama de producciónde voz en el espacio del tiempo y la frecuencia. En primer lugar, el tren de pulsos, después el

filtro LP (variante en el tiempo) y por último el resultado de pasar el tren de pulsos por el filtro,que sería la señal de voz

Figura 11.- Representación gráfica de una señal no sonora al atravesar el diagrama deproducción de voz en el espacio del tiempo y la frecuencia. En primer lugar, una señal aleatoria,

después el filtro LP (variante en el tiempo) y por último el resultado de pasar la señal aleatoriaspor el filtro, que sería la señal de voz

Page 34: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 34/138

 

Revisión teórica

22

2.1.2  Desarrollo matemático

La idea básica del análisis mediante predicción lineal es que la muestra de vozactual se puede aproximar por una combinación lineal de las p muestras anteriores, estoes [Kondoz, 1994]:

( ) ( )∑=

−= p

k k  k nsans

1

~   (2.1) 

donde s(n) y ( )ns~ son la muestra de voz original y la muestra de voz predicha en elinstante de tiempo discreto n, p es el orden del análisis y a1,…, a p son los coeficientesde predicción lineal ó coeficientes LPC. El orden p del sistema se elige de forma que laestimación de la envolvente del espectro sea adecuada. Una regla común es permitir unpar de polos para cada formante del espectro. Para una señal muestreada a 8 kHz, elvalor de p suele ser 10.

La función de transferencia H(z) del modelo de predicción lineal de la señal devoz se conoce como filtro de predicción lineal ó filtro todo polo de la señal, y es

( )( ) z A

G z H  =   (2.2)

donde G es la ganancia y el filtro A(z) se conoce como el filtro inverso ó blanqueador de H(z), definido como

( ) ∑=

−−= p

k k  za z A

1

1 (2.3) 

Los coeficientes LPC se pueden resolver usando, por ejemplo, el método deautocorrelación. Este método da lugar a una matriz de autocorrelación que tiene unaestructura de Toeplitz y, de esta forma, los coeficientes LPC se pueden resolver a travésde algoritmos computacionalmente rápidos como el de Levinson-Durbin. Se resolveríacomo sigue:

Si se pasa la ecuación (2.3) al dominio del tiempo (muestral), se obtiene una

ecuación conocida como ecuación LPC diferencial:

( )( )

( )( ) ( ) ( )∑

=

−+= →←= p

k k  k nsansns

 zS

 zS z H 

1

~~~

  (2.4)

Si se considera una estimación de los parámetros ak , el error ó residuo delsistema viene dado por:

( ) ( ) ( ) ( ) ( )∑=

−−=−= p

 j j jnsansnsnsne

1

~   (2.5) 

donde los parámetros a j son las estimaciones de los coeficientes del filtro LPC, ak .

Page 35: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 35/138

 

Revisión teórica

23

Es posible determinar esas estimaciones de los coeficientes del filtro,minimizando el error cuadrático medio, que se obtiene a partir del error dado en laecuación (2.5).

( ){ } ( ) ( ) ( ) ( )∑ ∑∑

−−=

−−Ε =Ε =

== n

 p

 j j

 p

 j j jnsans jnsansneE 

2

1

2

12   (2.6) 

Para minimizar este error cuadrático medio se calcula la derivada parcial de E  respecto a ai y se iguala a cero para valores de i desde i = 1,…., p.

( ) ( ) ( ) pi parains jnsansa

E  p

 j j

i

,...,101

==

−⋅

−−Ε =

∂∑=

  (2.7)

Las representaciones de la señal de voz original y del error de predicción linealpueden verse en las figuras 12 y 13. Se puede apreciar cómo se ha eliminado gran partede la redundancia de la señal, si bien todavía se aprecia una cierta periodicidad. En eldominio de la frecuencia puede verse que el espectro es más plano que el original.

Figura 12.- Señal de voz original y error de predicción lineal en el tiempo

Figura 13. Señal de voz original y error de predicción lineal en la frecuencia

Page 36: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 36/138

 

Revisión teórica

24

Esta igualdad implica que la señal error, e(n), y la señal de salida, ( )ns , sonortogonales para i = 1,…, p. Se puede rescribir la ecuación, introduciendo lacorrelación,

( ) ( ) ( )[ ] ( ) ( )

( ) ( ) ( )[ ] ( ) ( )ins jnsins jns ji

 yinsnsinsnsi

n

n

−⋅−=−−Ε =

−⋅=−Ε =

,

0,

φ 

φ 

  (2.8)

y, sustituyendo en la ecuación (2.7)

( ) ( ) pi parai jia n

 p

 jn j ,...,10,,

1

==∑=

φ φ    (2.9)

Si se asume que la señal del modelo es estacionaria, lo cual viene a ser unaaproximación realista para segmentos de voz pequeños, se pueden acotar los sumatorios

al calcular la correlación.

( ) ( ) ( ){ } ( ) ( )∑ ==−−=−−=m

nnn p j pi para jmsims jnsinsE  ji ,...,0,,...,1,,φ    (2.10) 

Para resolverlo se usará la aproximación del método de autocorrelación,anteriormente comentada, ya que es el más empleado y el que se usará a la hora deimplementar el codificador.

Si se toma un segmento de la señal, fuera del intervalo comprendido por elsegmento que se está analizando, 0 ≤ m ≤ L-1, los valores serán 0. ( L es el tamaño de la

trama del análisis LPC). Como se intenta predecir los valores de las muestras  L ≤ m ≤   L+p, que son cero para el segmento actual, el error de predicción no será cero para esasmuestras. Igualmente, el principio de la trama actual puede verse afectado, por la mismarazón, por los errores en la trama anterior. Si tenemos en cuenta que lo que se quiere espredecir las tramas futuras, los límites de la ecuación (2.10) pueden ponerse de lasiguiente manera:

( ) ( ) ( ) p j pi jnsins ji p L

n

≤≤≤≤−−= ∑−+

=

0,1,,1

0

φ    (2.11) 

Tomando inm −= , la ecuación se puede expresar como

( ) ( ) ( )∑−−−

=

−+=)(1

0

,k i L

m

 jimsms jiφ    (2.12) 

Por lo tanto, ( ) ji,φ  es la autocorrelación de corto plazo de ( )ms evaluada para

( ) ji − . Esto es:

( ) ( ) ji R ji −=,φ    (2.13) donde

Page 37: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 37/138

 

Revisión teórica

25

( ) ( ) ( ) ( ) ( )∑ ∑−−

=

=

−=+= j L

n

 L

 jn

 jnsns jnsns j R1

0

1

(2.14) 

Por lo tanto, el conjunto de p ecuaciones de (2.9) se puede expresar como

( ) ( )∑=

==− p

 j j pii R ji Ra

1

...,,1, (2.15) 

La ecuación de arriba se expresa en forma matricial

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

 

 

 

 

=

 

 

 

 

 

 

 

 

−−−

)(

)3(

)2(

)1(

0321

3432

2321

1210

3

2

1

 p R

 R

 R

 R

a

a

a

a

 R p R p R p R

 p R R R R

 p R R R R

 p R R R R

 p

MM

L

MOMMM

L

L

L

  (2.16) 

La matriz  pxp de los valores de la autocorrelación es una matriz simétrica deToepliz, es decir, todos los elementos de cada una de las diagonales son iguales. Estapropiedad especial puede ayudarnos a obtener un algoritmo eficiente para solucionar laecuación (2.16). La solución más eficiente es un método recursivo conocido comoalgoritmo de Levinson-Durbin, que es el siguiente:

( ) ( )

( ) ( ) ( )

( )( )

( ) ( ) ( )

( ) ( ) ( )11

11

1

1

00

2

11

1

1

1

−−=

−=

−=

=

=

=

=

−−

=

−∑

iE k iE 

ak aa

ihasta j Desde

k a

iE 

 ji Rai R

 phastai Desde

 RE 

i

i jii

i j

i j

ii

i

i

 j

i j

i

  (2.17) 

La solución final viene dada como:

( )  p jaa p j j ,...,1==   (2.18) 

La cantidad ( )iE  del algoritmo es el error de predicción de un predictor de ordeni. Las cantidades intermedias k i se conocen como coeficientes de reflexión. Los valoresde los coeficientes de reflexión están en el rango:

11 ≤≤− ik    (2.19) 

Page 38: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 38/138

 

Revisión teórica

26

Esta condición impuesta a los coeficientes de reflexión es suficiente para quetodas las raíces del polinomio ( ) z A estén dentro del círculo unidad, garantizando de

esta manera la estabilidad del sistema ( ) z H  .

Existen otros métodos para la resolución de la ecuación (2.4) como son: elmétodo de la covarianza, donde se minimiza el error E de la ecuación (2.6) sobre unintervalo finito; el método lattice de covarianza, que calcula los coeficientes dereflexión directamente de las muestras de la señal.

La cuantificación y transmisión de los parámetros LP debe hacerse asegurandotanto la estabilidad del filtro de síntesis (para evitar generar ruidos de alta intensidad enel receptor), como la facilidad en la interpolación entre parámetros de tramasconsecutivas (que permite aumentar la naturalidad de la voz decodificada). Ambascondiciones se obtienen recurriendo al uso de parámetros LP equivalentes, como son losLogaritmos de las Relaciones de Área (LAR) ó los Pares de Línea Espectrales (Line-

Spectrum Frecuencias, LSF). Son estos últimos, los coeficientes LSF, los que se utilizanen todos los estándares posteriores al GSM 6.10 (Full Rate, FR), ya que aportanventajas algorítmicas claras para ser cuantizados vectorialmente y, de esta forma,permiten reducir la tasa binaria necesaria para su transmisión, sin introducirdegradaciones perceptibles en la voz decodificada.

Casi todos los estándares de codificación de voz que se han aprobado en losúltimos años se basan en la codificación mediante la predicción lineal, basada en elanálisis por síntesis. Dentro de este tipo de codificadores podemos incluir a los de lasrecomendaciones de la ITU G.729 (que se ampliará más adelante), G.728 y G.723.1; ytodos los estándares que se emplean actualmente en la tecnología digital celular, tanto

en Europa (GSM full-rate, half-rate y enhanced full-rate), Norteamérica (full-rate yenhanced full-rate para sistemas por división en el tiempo (TDMA), o por división encélulas (CDMA)) y Japón (full-rate y half-rate) [Gutiérrez et al.,2001].

Page 39: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 39/138

 

Revisión teórica

27

2.2  Coeficientes LSF

2.2.1  Definición y características

El principal objetivo del proceso de cuantización de los coeficientes LPC es sucodificación con el menor número de bits posibles sin introducir distorsión adicional ensu espectro.

Desde los inicios de la codificación de las señales de voz se han empleado variosmétodos de cuantización para los coeficientes LP. Se han establecido una serie decaracterísticas que debe cumplir una representación ideal. En primer lugar, es necesarioque el filtro de predicción lineal permanezca estable después de la cuantización.Segundo, la representación debe ser reversible de forma que el filtro original se puedarecuperar de la transformación. Tercero, un pequeño error en los parámetros se debecorresponder con una pequeña desviación del espectro de potencia LP, es decir, los

parámetros deben tener sensibilidad espectral propia.

A lo largo de los años se han propuesto diversas representaciones desde losprimeros estudios sobre representaciones alternativas para los coeficientes de predicciónlineal allá por finales de los setenta. Uno de los primeros estudios, realizado por Gray etal. en 1977 comparaba los coeficientes de reflexión, los coeficientes LAR (LogarithmicArea Ratio) y el arcocoseno de los coeficientes de reflexión, y demostraba que los dosúltimos eran igualmente buenos para la cuantización, mientras que los coeficientes dereflexión daban resultados ligeramente más pobres.

A partir de los años 80 el método de parametrización más empleado para la

cuantización de los parámetros del filtro LP es la representación mediante coeficientesde pares del espectro en frecuencia (LSF) que, debido a sus propiedades, ofrece másventajas que las representaciones anteriormente comentadas, tanto para la cuantizaciónescalar como para la vectorial. Según diversos estudios puede llegar a reducir la tasa debit entre un 25 y un 30 % con respecto a las demás [Zheng et al., 1999].

La representación mediante pares del espectro de frecuencia (LSF), tambiénconocida como representación mediante pares del espectro lineal (LSP), dependiendodel dominio en el que se trabaje, fue propuesta por Itakura [Itakura, 1975] como unarepresentación paramétrica alternativa de los coeficientes de predicción lineal. Larepresentación LSF, tiene numerosas cualidades, entre las que destacan un rangolimitado, un orden secuencial de los parámetros y una simple revisión de la estabilidaddel filtro, lo que la hace interesante para la cuantización. Además, la representación LSFes una representación en el dominio de la frecuencia y, por lo tanto, puede usarse paraexplotar propiedades de los sistemas de percepción humana.

Puede comprobarse que de dos a tres parámetros LSF caracterizan la frecuenciade un formante y que el ancho de banda de éste depende de la cercanía de loscorrespondientes parámetros LSF. Por otro lado, los parámetros LSF aislados afectan ala caída ó inclinación del espectro. Este comportamiento puede verse en la figura 14.

Page 40: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 40/138

 

Revisión teórica

28

Figura 14.- Espectro de frecuencia de un tramo de voz con la posición de los coeficientes LSFLos coeficientes LSF son 417, 735, 881, 1198, 1343, 1720, 2402, 2654, 3047 y 3409 Hz

Otro detalle a destacar es que durante los fonemas sonoros los parámetros LSFvarían solo ligeramente, sin embargo, durante los fonemas sordos pueden variarrápidamente. Es más, durante los cambios de fonemas sordos a sonoros ó de sonoros asordos puede haber cambios considerables en el espectro. Incluso durante los silencios

entre fonemas los parámetros LSF varían considerablemente. Resumiendo, tanto elespectro de la señal de voz como los parámetros LSF tienen partes redundantes, juntocon partes impredecibles y que cambian rápidamente. Este fenómeno se observaprincipalmente en los parámetros LSF más bajos, que se mantienen más o menos en elmismo estado durante cientos de milisegundos y de repente cambian a otros. Sinembargo, hay que tener en cuenta que estos fenómenos son claramente observables enambientes carentes de ruido, en ambientes ruidosos no son siempre tan evidentes.

Otra de las características importantes de los parámetros LSF es su sensibilidadespectral localizada, de la cual carecen otras representaciones como la representaciónmediante coeficientes de reflexión ó mediante logarithmic area ratios (LAR). Puededemostrarse que modificando ligeramente uno de los parámetros LSF se produce uncambio en la respuesta en magnitud solo en las frecuencias cercanas a la frecuencia delparámetro modificado. En este punto, hay que tener en cuenta que si la modificaciónintroducida en el parámetro LSF es del orden de la distancia que lo separa de losparámetros más cercanos al mismo, toda la respuesta en magnitud sufre variaciones.

Page 41: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 41/138

 

Revisión teórica

29

Figura 15.- Efecto de la variación de los coeficientes LSF en el espectro de la señalSe ha marcado en azul la posición original de cada uno de los dos coeficientes modificados

y en color verde y rojo donde quedarían esos coeficientes tras la modificación

Esta propiedad de los parámetros LSF tiene diversas ventajas:

-  En primer lugar, la representación mediante parámetros LSF tolera pequeños

errores en los mismos, es decir, pequeños errores tienen una repercusiónpequeña en la respuesta en magnitud del correspondiente filtro LP.

-  Cada uno de los parámetros de un vector LSF puede ser cuantizadoindependientemente sin filtraciones de distorsión en la cuantización de unaregión espectral a otra.

-  Se pueden dar pesos diferentes a cada uno de los parámetros LSF en función dela importancia en el espectro de la señal de voz. Generalmente las áreas de losformantes, los picos, son más importante que los valles del espectro y, por ello,se le puede dar mayor peso a las frecuencias espectrales cercanas a losformantes.

El oído humano no es capaz de distinguir diferencias a altas frecuenciascon tanta precisión como a bajas frecuencias, lo que nos permite cuantizar losparámetros LSF en frecuencias más altas con menos precisión que los que tienenfrecuencias menores.

Page 42: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 42/138

 

Revisión teórica

30

2.2.2  Conversión LP -> LSF

Los coeficientes de filtro de predicción lineal (LP), ai, i = 1,…, 11, se conviertenpara los efectos de cuantificación e interpolación en coeficientes de pares del espectrolineal (LSP). El filtro inverso

( ) z A asociado con el análisis LPC de orden p satisface la

siguiente relación recursiva.

( ) ( ) ( ) pn z A zk  z A z A nn

nnn ...,,1,111 =−= −−−   (2.20) 

con ( ) 10 = z A y nk  siendo el coeficiente de reflexión de orden n. Si extendemos el orden

del filtro a 1+ p la ecuación queda

( ) ( ) ( ) 1111

−+−++ −= z A zk  z A z A p

 p p p p   (2.21) 

Si se toman en consideración las dos condiciones límite 11 =+ pk  y 11 −=+ pk  ,que corresponden, respectivamente, a un completo cierre y a una completa apertura dela glotis, teniendo en cuenta el modelo acústico de la voz, se obtienen los polinomios:

( ) ( ) ( ) ( ) ( )11

12

22

11

11 1 +−−−−−−−+− ++++++=+= p p p p  z z p z p z p z p z A z z A zP K   (2.22) 

para 11 −=+ pk  , y

( ) ( ) ( ) ( ) ( )11

12

22

11

11 1 +−−−−−−−+− −−−+++=−= p p p p  z zq zq zq zq z A z z A zQ K   (2.23) 

para 11 =+ pk  .

El polinomio ( ) zP es simétrico y el polinomio ( ) zQ es antisimétrico. Puede

demostrarse que ( ) z A es de fase mínima (lo cual implica la estabilidad de ( ) z H  ) y quetodas las raíces de estos polinomios se encuentran dentro del círculo unidad y sealternan entre sí. ( ) zP tiene una raíz ( )π ω =−= 1 z , mientras que ( ) zQ tiene una raíz

( )01 == ω  z . Esto puede apreciarse en la figura 16.

( ) ( ) ( )( ) ( ) ( )∏

=

−−−

−=

−−−

+−−=

+−+=

 pii

 pi i

 z zq z zQ

 z z p z zP

,...,4,2

211

1,...,3,1

211

211

211   (2.24) 

Ambas raíces se eliminan al definirse dos nuevos polinomios a partir de los dosanteriores.

( ) ( ) ( )( ) ( ) ( )1

2

11

1

1−

−=

+=

 z zQ zF 

 z zP zF   (2.25) 

Page 43: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 43/138

 

Revisión teórica

31

Figura 16.- Diagrama polo-cero de los vectores P(z) y Q(z)

Cada uno de estos polinomios tiene todas sus raíces (conjugadas) en el círculounidad ( ie jω ± ), que pueden expresarse como:

( ) ( )( ) ( )∏

=

−−

−=

−−

+−=

+−=

 pii

 pii

 z zq zF 

 z z p zF 

,...,4,2

212

1,...,3,1

21

1

21

21  (2.26) 

donde ( ) ( )iiii f q p π ω  2coscos === . Los coeficientes ( )ii f ω  son las frecuencias

espectrales de línea ó pares espectrales de línea (parámetros LSF) y satisfacen lapropiedad de ordenación π ω ω ω  <<<<< pK210 . Los coeficientes ii q p = se

definen como coeficientes LSP en el dominio coseno.

Puesto que los polinomios F 1( z) y F 2( z) son simétricos, sólo es necesario calcularlos primeros  p  /2 coeficientes de cada uno. Los coeficientes de éstos polinomios seobtienen mediante las relaciones recursivas:

( ) ( )

( ) ( ) 12,...,01

12,...,01

212

111

−=+−=+

−=−+=+

−+

−+

 pii f aai f 

 pii f aai f 

i pi

i pi  (2.27) 

donde  f 1(0) =  f 2(0) = 1,0. Los coeficientes LSP se obtienen evaluando lospolinomios F 1( z) y F 2( z) en 60 puntos igualmente espaciados entre 0 y π y controlandolos cambios de signo. Todo cambio de signo implica la existencia de una raíz y el

intervalo de cambio de signo se divide entonces cuatro veces, para permitir un mejorseguimiento de la raíz. Se utilizan los polinomios de Chebyshev para evaluar F 1( z) y

Page 44: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 44/138

 

Revisión teórica

32

F 2( z). Por este método, las raíces se obtienen directamente en el dominio coseno. Lospolinomios F 1( z) y F 2( z), evaluados en ω  je z ±= , pueden expresarse como:

( ) ( ) xC eF  j ω ω  52 −=   (2.28) siendo

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2)5(4321 12345 f  xT  f  xT  f  xT  f  xT  f  xT  xC  +++++=   (2.29) 

donde T m( x) = cos(mω) es el polinomio de Chebyshev de m-ésimo orden y  f (i) ,i = 1,…,5, representa los coeficientes de F 1( z) o F 2( z), calculados mediante la ecuación (2.28).El polinomio C ( x) se evalúa para un determinado valor de  x = cos(ω) mediante laecuación recursiva:

( )

( ) ( ) 25

52

14

21

21

 f b xb xC 

 fin

k  f b xbb

adek  para

k k k 

−−=

−+−=

=

++

  (2.30) 

siendo los valores iniciales b5 = 1 y b6  = 0.

Page 45: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 45/138

 

Revisión teórica

33

2.3  Codificación predictiva mediante análisis por síntesis

2.3.1  Introducción

Los codificadores de forma de onda proporcionan gran calidad de la señal devoz, pero solo trabajando con tasas de bit por encima de los 16 kbit/s. Los vocodersLPC, en cambio, operan a tasas de bit muy bajas, hasta 2 kbit/s, pero la calidad de laseñal de voz sintetizada es bastante pobre.

La principal limitación de los codificadores LPC es la consideración de que lasseñales de voz o son sonoras o son no sonoras, de ahí que la fuente de excitación de laseñal de voz del filtro de síntesis de predicción lineal sea o un tren de pulsos (paraseñales sonoras) o un ruido aleatorio (para señales no sonoras). Esta consideración esuna simplificación demasiado grande para conseguir una buena calidad de señal de voz.En 1982, Atal propuso un nuevo modelo de excitación conocido como excitación por

multi-pulso (MPLPC), que usa un modelo parecido al de los codificadores de forma deonda y no requiere ningún conocimiento a priori sobre si la señal de voz es sonora o nosonora. La excitación se modela por un número de pulsos (normalmente 4 ó 5) cuyas aamplitudes y posiciones son determinadas mediante un proceso de optimización enbucle cerrado (minimizando el error porcentual ponderado entre la señal original y lasintetizada), y no usando el error entre el residuo y su versión cuantizada, como se haceen los codificadores que usan bucle abierto.

La irrupción de ese modelo dio paso a una nueva generación de codificadores devoz por análisis mediante síntesis capaces de producir alta calidad de señal de voz atasas de bit sobre 10 kbit/s, llegando incluso a los 4,8 kbit/s. Esta nueva generación de

codificadores usa el mismo filtro de síntesis todo polo (fuente del modelo de producciónde voz) que usaban los vocoders LPC. Sin embargo, la señal de excitación escuidadosamente optimizada y eficientemente codificada usando técnicas de codificaciónde forma de onda.

Todos los codificadores que utilizan análisis mediante síntesis comparten lamisma estructura básica en la cual la excitación es calculada minimizando el errorporcentual ponderado entre la señal de voz original y la señal sintetizada. La diferenciaestriba en la forma de modelar la excitación. El modelo tiene una serie de parámetrosque se pueden variar produciendo diferentes rangos en la señal de voz sintetizada.Variando los parámetros del modelo de una forma sistemática se puede obtener un

  juego de los mismos que produzca una señal sintetizada que coincida con la señaloriginal salvo un mínimo error. La complejidad de estos codificadores aumenta amedida que disminuye la tasa de bit.

2.3.2  Codificación AbS genérica

La estructura básica de un sistema de codificación LPC con análisis mediantesíntesis se muestra en la figura 17:

Page 46: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 46/138

 

Revisión teórica

34

(a) codificador

(b) decodificador

Figura 17.- Estructura de un sistema de codificación LPC con análisis mediante síntesis

Como el modelo requiere una frecuente actualización de los parámetros para

conseguir la mayor coincidencia posible con la señal original, el análisis se lleva a caboen bloques, es decir, la señal de voz de entrada se divide en bloques de muestras otramas del tamaño apropiado. La longitud y actualización de los bloques de análisis ótramas determina la tasa de bit del esquema de codificación.

El modelo consta de 3 partes:

-  Generador de excitación.- Produce la secuencia de excitación que se pasará porel filtro de síntesis para producir la señal reconstruida en el receptor. Comopuede apreciarse en la figura 17 existe un decodificador incluido dentro delcodificador. Para optimizar la excitación, el método de análisis usa la diferenciaentre la señal de voz original y la sintetizada como un criterio de error, y elige lasecuencia de excitación que minimiza ese error ponderado.

-  Filtro(s) de síntesis. Pueden ser uno ó dos, dependiendo del codificador que setrate. Son filtros de síntesis lineales variantes en el tiempo, ya que suscoeficientes se van cambiando en cada iteración del bucle. Por un lado, podemostener, un predictor de síntesis de corto plazo (STP, Short Term Predictor),también llamado filtro de correlación de corto plazo, que modela la envolventeespectral de corto plazo de la forma de onda de la señal de voz. Por otro lado,está el predictor de largo plazo (LTP, Long term Predictor) para modelar la

estructura fina del espectro de la señal de voz.

Generación

de excitación

Filtro(s) de

síntesis

u(n)

Señal deentrada

s(n)

Minimizaciónde error

Ponderaciónde error

ew(n) e(n)

Generaciónde excitación

Filtro(s) desíntesis

u(n)

Señal desalida

Page 47: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 47/138

 

Revisión teórica

35

-  Minimizador de error.- Se minimiza la diferencia entre la señal original y laseñal sintetizada. El criterio de minimización más usado es el error cuadráticomedio (MSE). Generalmente se pasa el error por un filtro de ponderaciónperceptual que da forma al espectro del ruido haciendo que su poder seconcentre en las frecuencias de los formantes del espectro de la señal de voz, por

lo que el ruido queda enmascarado por la señal de voz.

El procedimiento de codificación incluiría los siguientes pasos:

(1) Se calculan los parámetros del predictor lineal de corto plazo (LPC) de unatrama. (Se suelen tomar tramas de entre 10 y 30 ms).

(2) Se determina la secuencia de excitación óptima para este filtro minimizando elerror ponderado.

(3) Se divide la trama en subtramas (al ser, normalmente, demasiado grandes para

un análisis eficiente de la excitación) y se calcula la excitaciónindependientemente para cada una de ellas.

(4) Se extraen los parámetros de la señal de excitación (generalmente ganancia yretraso)

(5) Se envían los parámetros del filtro de síntesis y la excitación cuantizados alreceptor.

El procedimiento de decodificación se realiza pasando la señal de excitacióndecodificada a través del filtro de síntesis, proceso que da como resultado la señal devoz reconstruida.

Cabe destacar cómo, tanto en el codificador como en el decodificador, se generala señal de voz sintetizada. Esto es necesario para actualizar los contenidos de memoriade los filtros de síntesis. De no ser así, habría que transmitir esos contenidos dememoria al decodificador para que todo estuviera sincronizado.

A continuación se verá con un poco más de detalle cada uno de los bloques quecomponen este método de análisis.

2.3.3  Predictor de corto plazo

El predictor de corto plazo modela la envolvente espectral de corto plazo de lavoz. La envolvente espectral de un segmento de voz de longitud L muestras se puedeaproximar mediante una función de transmisión de un filtro digital todo-polo de laforma:

( )

( ) ( ) ∑=−−

=

== p

k k  za

G

 zP

G

 z A

G z H 

111 δ 

  (2.31) 

Page 48: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 48/138

 

Revisión teórica

36

donde

( ) ∑=

−= p

k k  za zP

1δ    (2.32) 

es el predictor de corto plazo. Los coeficientes ak son los coeficientes del predictor o losparámetros LPC. El número de coeficientes  p es el orden del predictor. Este filtro deanálisis LP ya se estudió en el punto 2.1.

2.3.4  Predictor de largo plazo

Mientras que el predictor de corto plazo modela la envolvente espectral delsegmento de voz que está siendo analizado, el predictor de largo plazo, o predictor depitch, se usa para modelar la estructura fina de esa envolvente.

El filtrado inverso de la señal de voz de entrada elimina la envolvente delespectro de la señal, es decir, elimina algo de la redundancia de la voz tomando de lamuestra de voz su valor predicho usando las  p muestras anteriores. A esto se ledenomina predicción de corto plazo si sólo las  p muestras anteriores son usadas parapredecir la muestra actual. Sin embargo, el residuo de esa predicción todavía muestraconsiderables variaciones en su espectro, es decir, está lejos de ser blanco. Viendo elresiduo de la señal en la figura 18 está claro que todavía existen correlaciones de largoplazo entre muestras de la señal, especialmente en las regiones sonoras. Por tanto, aúnexiste alguna periodicidad (redundancia), relacionada con el periodo de pitch de la señalde voz original, que el análisis LP no puede eliminar. De ahí la necesidad de incluir unasegunda etapa de predicción.

Figura 18. Error ó residuo del análisis de predicción

Añadiendo un predictor de pitch al filtro inverso se elimina esa redundancia enel residuo de la señal y éste se convierte en ruido. Se le llama predictor de pitch, ya queelimina la periodicidad de la señal, ó predictor de largo plazo, ya que su retraso estácomprendido entre 20 y 160 muestras. Este predictor de largo plazo es básico en los

Page 49: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 49/138

 

Revisión teórica

37

codificadores de voz con tasas de bit baja, como el CELP, donde la señal de excitaciónse modela con un proceso de producción Gaussiano y, por tanto, el predictor esnecesario para asegurar que el residuo de la predicción sea lo más cercano posible aruido aleatorio Gaussiano.

Es importante darse cuenta de que la ganancia combinada de los dos sistemas depredicción será siempre menor que la suma de sus ganancias empleándolos porseparado. Esto se debe a que en realidad el tracto vocal y la excitación estáninterrelacionados, no siendo completamente separables como se asume en este modelo.

La forma general del filtro de correlación de largo plazo es

( ) ( ) ( )∑=

+−−

=−

=2

1

1

1

1

11m

mk 

k k 

l  zG zP zP α 

  (2.33) 

donde

( ) ( )∑=

+−=2

1

m

mk 

k k l zG zP α    (2.34) 

es el predictor de largo plazo. Para m1=m2=0 se tiene un predictor de un tono, y param1=m2=1 se tiene un predictor de 3 tonos. El retraso α normalmente representa elperiodo de pitch.

Los parámetros α y Gm se determinan minimizando el error residual cuadrático

medio después de realizar las predicciones de corto y largo plazo sobre un periodo de  N  muestras. Para un predictor de un tono el residuo de predicción de largo plazo E vienedado por:

( ) ( ) ( )α −−= nGr nr ne   (2.35) 

donde ( )nr  es la señal residuo después de la predicción de corto plazo. El residuocuadrático medio E está dado por:

( ) ( ) ( )[ ]∑∑−

=

=

−−==1

0

21

0

2 N 

n

 N 

n

nGr nr neE  α    (2.36) 

Igualando la derivada de E respecto a G a cero y despejando su valor,

( ) ( )

( )[ ]∑

∑−

=

=

=1

0

2

1

0 N 

n

 N 

n

nr 

nr nr 

G

α 

α 

  (2.37) 

y sustituyendo G en la ecuación (2.36) se obtiene

Page 50: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 50/138

 

Revisión teórica

38

( )

( ) ( )

( )[ ]∑

∑∑ −

=

=−

= −

−=1

0

2

21

01

0

2

 N 

n

 N 

n N 

n nr 

nr nr 

nr E 

α 

α 

  (2.38) 

Minimizar E  equivale a maximizar el segundo sumando de la ecuación, querepresenta la correlación normalizada entre el residuo ( )nr  y su versión normalizada.Este término se calcula para todos los posibles valores de α dentro de un rangoespecífico, y se toma el valor de α que lo maximiza. La energía ε en el denominadorpuede ser fácilmente actualizada desde el retraso ( )1−α  a α en vez de calcularlo denuevo mediante la ecuación (2.39), que requeriría mayor carga computacional.

( ) ( ) N r r aa +−−−+= − α α ε ε  221   (2.39) 

La estabilidad del filtro de síntesis de pitch ( ) zP1 no siempre está garantizada.

Para un predictor de un tono, la condición de estabilidad es 1≤G . Por tanto, la

estabilidad del filtro se puede conseguir fácilmente fijando 1=G cuando 1>G . Sin

embargo, la inestabilidad de este filtro no es tan perjudicial para la calidad de la señalreconstruida. El filtro inestable permanece durante unas tramas (aumentando la energía),pero al final, se encuentran periodos con el filtro estable, por lo que la salida nocontinua aumentando con el tiempo.

En el siguiente grupo de gráficas (figura 19), puede apreciarse como se va

eliminando la parte redundante a la señal de voz original al paso por cada uno de losfiltros ó predictores. Primero se representa la señal de voz original de un tramo sonoro.A continuación, el residuo LP, obtenido al pasar la señal de voz original a través delfiltro de predicción lineal ó predictor de corto plazo. En él se elimina gran parte de laperiodicidad (redundancia) de la señal, pero todavía puede apreciarse una ciertaperiodicidad. Y, por último el residuo LTP ó residuo de pitch, obtenido al pasar la señalde salida del predictor de corto plazo por el predictor de largo plazo ó predictor de pitch,que elimina casi por completo la redundancia de la señal original, quedando,prácticamente una señal de ruido aleatorio.

Page 51: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 51/138

 

Revisión teórica

39

Figura 19.- Señal de voz original, residuo LP y residuo LTP

Page 52: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 52/138

 

Revisión teórica

40

Cuando se usa el predictor de largo plazo, el esquema general del codificadorqueda de la siguiente manera:

(a) Codificador

(b) Decodificador

Figura 20.- Estructura de bloques de codificador y decodificador usando filtro LPC y filtro desíntesis de pitch, mediante análisis por síntesis

Una mejora significativa se consigue cuando los parámetros LTP se optimizandentro del bucle de análisis mediante síntesis; es la aproximación por códigosadaptativos. En el bloque de la figura 20, los parámetros LTP se podían calcular fueradel bucle de minimización del error (directamente de la señal residuo LPC). Con laaproximación por códigos adaptativos, el cálculo de los parámetros contribuyedirectamente al proceso de minimización del error ponderado. Tomando un predictor delargo plazo de un tono, la salida del filtro de síntesis de pitch viene dada por:

( ) ( ) ( )α −+= nGunvnu   (2.40) 

En la primera iteración, se asume que no hay ninguna excitación, partimos decondiciones iniciales cero, por lo que la ecuación se reduce a

( ) ( )α −= nGunu   (2.41) 

La señal de voz sintetizada ponderada será

( ) ( ) ( ) ( )∑=

+−=n

iw nsinhiuns

00ˆˆ   (2.42) 

Generaciónde excitación

u(n)

u(n)

s(n)

Minimizaciónde error

Ponderaciónde error

ew(n) e(n)

Generaciónde excitación

v(n)

Síntesis de pitch Síntesis LPC

v(n)

Page 53: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 53/138

 

Revisión teórica

41

donde ( )nh es la respuesta impulsiva del filtro de síntesis ponderado ( )γ   z A1 y ( )ns0ˆ  

es la respuesta a entrada cero del filtro de síntesis ponderado, es decir, la salida del filtrodebido a las condiciones iniciales. El error ponderado entre la señal original y lasintetizada está dado por

( ) ( ) ( ) ( )∑=

−−′=n

iw inhiun xne

0

  (2.43) 

donde( ) ( ) ( )nsnsn x w 0ˆ−=′   (2.44) 

y ( )nsw es la señal de entrada ponderada. Sustituyendo la ecuación (2.3.4.9) en la

(2.42):

( ) ( ) ( )nGyn xnew α −′=   (2.45) 

donde( ) ( ) ( ) ( ) ( )∑

=

−−=∗−=n

i j inh jiunh jnun y

1

  (2.46) 

El error cuadrático medio ponderado será

( ) ( )[ ]∑−

=

−′=1

0

2 N 

nw nGyn xE  α    (2.47) 

Haciendo la derivada de ese error con respecto a la ganancia G y despejando esa

ganancia:( ) ( )

( )[ ]∑

∑−

=

=

=1

0

2

1

0 N 

n

 N 

n

n y

n yn x

G

α 

α 

  (2.48) 

Substituyendo la ecuación (2.47) en la (2.48)

( )[ ]

( ) ( )

( )[ ]∑

∑−

=−

=

=

−′=1

01

0

2

21

02

 N 

n N 

n

 N 

nw

n y

n yn x

n xE 

α 

α 

  (2.49) 

El retraso de pitch se selecciona tomando el retraso que maximiza el segundosumando de la ecuación (2.49), y G se calcula mediante la ecuación (2.48). Ladesventaja de la solución en bucle cerrado es la carga computacional extra necesariapara calcular la convolución de la ecuación (2.45) dentro del rango de retraso α. Unprocedimiento rápido para calcular esta convolución ( )n yα  para todos los posibles

retrasos es calcularlo para el primer valor en el rango y después actualizarlo como sigue

Page 54: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 54/138

 

Revisión teórica

42

( ) ( ) ( )

( ) ( ) ( ) ( ) 1...,,11

00

1 −=−+−=

−=

− N nn ynh jun y

h ju y

 j j

 j  (2.50) 

Esta ecuación requiere N operaciones para determinar la convolución ( )n yα  ,

mientras que se necesitaban  N(N+1)/2 operaciones para ello usando la ecuación (2.45).El término a maximizar requiere 3 N +2 operaciones para cada retraso. Otraaproximación (la aproximación de la autocorrelación) se puede usar para actualizar laenergía en el denominador de la ecuación (2.49) con menor número de instruccionesque para el caso de la aproximación mediante convolución. Esta aproximación se verácon más detenimiento cuando se estudie el CELP.

La excitación sintetizada pasada ( )nu se almacena en un registro dealmacenamiento adaptativo desde - L p a -1, donde L p es el registro ó longitud del buffer(normalmente 147). El contenido de este buffer se actualiza cada subtrama,introduciendo N nuevas muestras y retirando las N pasadas, esto es

( ) ( ) 1...,, −−=+← p Ln N nunu   (2.51) 

El registro de almacenamiento se puede representar mediante una tabla decódigos adaptativa, donde cada palabra se obtiene moviendo la palabra anterior a laizquierda una muestra. Las palabras código se obtienen

( ) ( )n junc j +−=   p L N  j

 N n

...,,

1...,,0

=

−=  (2.52) 

Para retraso de pitch inferiores a la longitud de la trama de excitación  N , solo los j primeros valores de la palabra código ( )nc j están disponibles. En la voz natural el

retraso de pitch varía entre 20 y 160 muestras. Para estos retrasos menores que lalongitud de la trama la palabra código se construye repitiendo los valores disponibleshasta que la palabra código está completa. Esto es, para j<N  

( )( )

( )

−=+−

−=+−=

12...,,2

1...,,0

 j jnn ju

 jnn junc j

  (2.53) 

y así hasta que se completa la palabra código. El rango del retraso que normalmente seusa está entre 20 y 147 (7 bits). Para retrasos entre 0 y  N -1 la relación de la ecuación(2.50) tiene que ser modificada para esos retrasos. Para j<N la palabra código ( )nc j se

puede expresar (considerando 2 N  j ≥ )

( ) ( ) ( ) ( ) ( )ncncnc j j j21 +=   (2.54) 

donde

( ) ( )( )

=

−=+−=

 N  jn

 jnn junc j

...,,0

1...,,01   (2.55) 

y

Page 55: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 55/138

 

Revisión teórica

43

( ) ( )( )

=+−

−==

 N  jnn ju

 jnnc j ...,,2

1...,,002   (2.56) 

Teniendo en cuenta esto, la palabra de código filtrada será

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )n yn ynhncncn y j j j j j1121 +=∗+=   (2.57) 

De la ecuaciones anteriores

( ) ( ) ( ) ( ) 1...,,12 −=−= N  jn jncnc j j   (2.58) 

con lo cual tenemos que

( ) ( ) ( ) ( ) 1...,,12 −=−= N  jn jn yn y j j   (2.59) 

( ) ( )n y j1 se puede actualizar usando la relación (2.50) desde j=21 a 147. Para retrasos con

 j<N   ( )n y j se calcula a partir de ( ) ( )n y j1  

( )

( ) ( )( ) ( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( )

−=−+−+

−=−+

−=

=

1...,,2,2

12...,,,

1...,,0,

111

11

1

 N  jn para jn y jn yn y

 j jn para jn yn y

 jn paran y

n y

 j j j

 j j

 j

 j   (2.60) 

La ecuación (2.59) solo se aplica cuando  j<N   /2. Una aproximación más simplepara trabajar con los retrasos menores que la longitud de la trama es extender el bufferde excitación del residuo de la predicción de corto plazo, es decir,

( ) ( ) 1...,,0 min −−== α  N nnr nu   (2.61) 

donde minα  es el mínimo valor en el rango de retrasos de pitch. En este caso, los retrasosmenores que la longitud de trama no se tratan de forma diferente.

La realización de la predicción de pitch se puede mejorar usando retrasos de

pitch no enteros. A menudo ocurre que el pitch no coincide exactamente con el instantede la muestra. En este caso, el retraso entero más cercano al retraso de pitch real, o unmúltiplo de él, sería elegido. Para encontrar un retraso más cercano al real es necesariouna resolución mayor.

Page 56: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 56/138

 

Revisión teórica

44

2.3.5  Filtro de ponderación de error

En este punto tratamos de elegir un criterio de error adecuado para el modelogeneral de codificación de voz (figura 17). Tradicionalmente los algoritmos decodificación de voz han intentado minimizar la diferencia rms entre las envolventes delas señales de voz original y codificada. Sin embargo, hoy en día se sabe que lapercepción subjetiva de la distorsión de la señal no sólo se basa en el error rms. Lateoría del enmascaramiento auditivo sugiere que el ruido en las regiones de losformantes puede enmascararse total o parcialmente por la señal de voz. Por eso, unaparte importante del ruido percibido en el codificador proviene de las regiones defrecuencia donde el nivel de la señal es bajo. Así, para reducir el ruido percibido, suespectro ancho se modela de forma que las componentes de frecuencia de ruidoalrededor de las regiones de los formantes puedan tener mayor energía que lascomponentes en las regiones entre formantes. El ruido de cuantización que aparece en laseñal de voz reconstruida es

( ) ( ) ( ) ( )( )( ) f P

 f F  f  f S f S f  N 

δ −

−∆=−=

1

1ˆ 222  (2.62) 

donde ( )2

 f ∆ es la potencia espectral del ruido a la salida del cuantizador, ( ) zPδ  es el

predictor de corto plazo y ( ) zF  es un filtro de reacción. Atal y Schroeder describieronun método eficiente para determinar el filtro de ponderación minimizando la altura delruido de cuantización. En el modelo general de codificador, el filtro de ponderaciónpuede expresarse como:

( )( )

( )

( )

( ) z B

 z A

 zF 

 zP zW  =

−=′

1

1 δ    (2.63) 

Esta ecuación se deriva de la anterior donde

( ) ( ) ( )( )

( )( ) ( ) f W  f  N 

 f F 

 f P f S f S f  =

−−=∆

1

1ˆ δ    (2.64) 

Una elección apropiada para ( ) z B fue tomar ( ) ( )γ   z A z B = , lo cual da como resultado

( )( )

( )∑

=

=

==′ p

k k k 

 p

k k 

 za

 za

 z A

 z A zW 

1

1

1

1

γ  γ  

  (2.65) 

donde γ es un valor entre 0 y 1. El valor de γ se determina por el grado que uno deseadesenfatizar las regiones de los formantes en el espectro del error. Disminuir el valor deγ aumenta el ancho de banda de los polos de ( ) zW ′ . El aumento en el ancho de banda ω 

es:

Page 57: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 57/138

 

Revisión teórica

45

( )γ  π 

ω  lns f −=   (2.66) 

donde f s es la frecuencia de muestreo. La elección de γ = 0 da ( ) ( ) z A zW  =′ . En estecaso, el ruido a la salida del codificador tiene la misma envolvente que la señal original.

Por otro lado, tomando γ = 1 tenemos ( ) 1=′

zW  lo cual equivale a no hacer ponderaciónalguna. Una buena elección es tomar un valor entre 0.8 y 0,9, que corresponde a unincremento en el ancho de banda de los polos de ( ) zW ′ entre 270 y 570 Hz,aproximadamente.

Usando el filtro de error ponderado dado en la ecuación (de W’), y ponderandola señal de voz original y la sintetizada separadamente antes de compararlas, se puedecombinar el filtro de síntesis con el filtro de error ponderado, produciendo el filtro:

( )( )

∑=−−

== p

k k k k  za

 z A zW 

11

11

γ  γ  

  (2.67) 

Nos referiremos a este filtro como filtro de síntesis ponderado. La estructurabásica para un codificador predictivo que use análisis mediante síntesis será:

Figura 21.- Diagrama de bloques de la estructura básica de un codificador predictivo que useanálisis mediante síntesis

u(n)

Minimizaciónde error

ew(n)

Generaciónde excitación

v(n)

Filtro de síntesisde pitch

Filtro de síntesisponderado

Filtro inversoA(z)

( )( )γ   z A

 zW 1

=Señal deentrada

s(n) r(n)

sw(n)

( )( )γ   z A

 zW 1

=

Page 58: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 58/138

 

Revisión teórica

46

2.4  CELP

2.4.1  Introducción

La implementación de un predictor de largo plazo en el bucle del análisismediante síntesis se debe a la importancia que tiene eliminar la redundancia de la señallo máximo posible. La señal residuo después de los predictores de corto y largo plazo seconvierte en una señal parecida a ruido y puede ser modelada por un proceso Gaussianode media cero con un espectro de potencia que varía lentamente. Esto es lo que permitela implementación de codificadores estocásticos, donde la trama de excitación secuantiza vectorialmente usando una tabla de códigos estocásticos amplia.

La codificación estocástica o codificación CELP (Code-Excited LinearPrediction) fue propuesta por Atal y Schroeder en 1984 [Kumar y Sundaresan, 2000].En esta codificación las tramas de la señal excitación se modelan por un vector

gaussiano elegido de una tabla de códigos gaussianos minimizando el error ponderadoperceptual entre la señal de voz original y la sintetizada. Sin embargo, hasta entrados los90, el gran impedimento para la expansión de los algoritmos CELP era la grancomplejidad que suponía su implementación en tiempo real, que proviene de labúsqueda en la tabla de códigos, ya que se calcula y compara con todas las posiblesentradas de la tabla.

En los últimos años, la investigación se ha basado en reducir la complejidad delcodificador CELP y lograr su implementación en tiempo real usando la tecnologíaCELP actual. Se ha logrado una significativa reducción usando diferentes tabla decódigos con menos entradas o con muchas de ellas a cero. El uso de tablas de códigos

algebraicos también reduce la complejidad del algoritmo. En ellos, la tabla de códigosse genera usando un código binario especial con corrección de errores.

2.4.2  Principio del CELP

Después de realizar la predicción de corto y largo plazo, las redundancias de laseñal de voz se han eliminado casi completamente y la señal residuo tiene muy pocacorrelación. Un proceso Gaussiano con un espectro de potencia que varíe lentamente en

el tiempo se puede usar para representar esa señal residuo, y la forma de onda de laseñal de voz se genera filtrando secuencias de innovación blancas y gaussianas a travésde los filtros de síntesis de corto y largo plazo. La secuencia de innovación óptima seselecciona de una tabla de códigos que contiene secuencias de gaussianas blancasaleatorias minimizando el error ponderado subjetivo entre la señal original y lasintetizada. El diagrama por bloques del modelo de síntesis del CELP quedaría:

Page 59: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 59/138

 

Revisión teórica

47

Figura 20.- Diagrama de bloques del modelo de síntesis del CELP

El filtro de correlación de pitch del esquema general se sustituye por una tablade códigos adaptativo de solape. La posición de la tabla de códigos seleccionada y sucorrespondiente ganancia (retraso de pitch y ganancia) junto con la posiciónseleccionada de la tabla de códigos estocásticos y su correspondiente ganancia de escalason enviadas al decodificador, que utiliza las mismas tablas de códigos (en ausencia de

errores de canal) para determinar la señal de excitación a la entrada del filtro de síntesisLPC para producir la señal sintetizada.

La tablado de códigos de excitación contiene  L palabras de código (vectoresestocásticos) de longitud N muestras (generalmente L = 1024 y N = 40, que correspondea una trama de 5 ms). La señal de excitación de una trama de voz de longitud  N se eligemediante una búsqueda exhaustiva de la tabla de códigos después de escalar losvectores gaussianos por un factor de ganancia β .

El filtro ( ) zW  es el filtro de síntesis ponderado dado por:

( )( )

∑=

−−

== p

k k k  za

 z A zW 

1

1

11

γ  γ  

  (2.68) 

Una vez se han determinado los parámetros de la tabla de códigos adaptativos(retraso de pitch y ganancia) la señal de voz sintetizada ponderada es

( ) ( ) ( ) ( ) ( )nsnGynhncns k w 0ˆ++∗= α  β ) 

  (2.69) 

donde la convolución carece de memoria, ( )nck 

es la palabra código de excitación para

el índice k ,  β es el factor de escala, ( )nh es la respuesta al impulso del filtro de síntesis

Tabla de códigosadaptativos

Tabla de códigosfijos

G2

G1 Filtro desíntesis

Retrasosubtrama

Señal de vozsintetizada

Page 60: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 60/138

 

Revisión teórica

48

ponderado ( ) zW  , ( )ns0ˆ es la respuesta a entrada cero del filtro de síntesis ponderado, G 

es la ganancia de la tabla de códigos adaptativa y ( ) ( ) ( )nhncn y ∗′= α α  es la respuesta a

estado cero del filtro de síntesis ponderado a la palabra código ( )ncα ′ seleccionada de la

tabla de códigos adaptativa.

El error ponderado entre la señal original y la sintetizada es:

( ) ( ) ( ) ( ) ( ) ( )nhncn xnsnsne k www ∗−=−= β ˆ   (2.70) 

donde( ) ( ) ( ) ( )nsnGynsn x w 0ˆ−−= α    (2.71) 

La señal ( )n x se calcula actualizando ( )n x′  

( ) ( ) ( )nGyn xn x α −′=   (2.72) 

como ( )n x′ ha sido ya determinada en la búsqueda de la tabla de códigos adaptativos.

El error cuadrático medio ponderado está dado por

( )[ ] ( ) ( ) ( )[ ]21

0

1

0

2∑ ∑−

=

=

∗−== N 

n

 N 

nk w nhncn xneE  β    (2.73) 

Calculando la derivada de ese error respecto al factor de escala  β  e igualando acero, obtenemos la expresión para  β .

( ) ( ) ( )[ ]

( ) ( )[ ]∑

∑−

=

=

=1

0

2

1

0 N 

nk 

 N 

nk 

nhnc

nhncn x

 β    (2.74) 

y sustituyendo  β en la ecuación (2.73)

( )( ) ( ) ( )[ ]

( ) ( )[ ]∑

∑−

=−

=

=

−=1

01

0

2

21

02 N 

n N 

nk 

 N 

nk 

nhnc

nhncn xn xE    (2.75) 

Estas dos últimas ecuaciones se pueden escribir en forma matricial como

k

cTHT

k

c

kcTxH

= β    (2.76) 

y

Page 61: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 61/138

 

Revisión teórica

49

kHcTHT

kc

kHcTx

xTxk

Hcx

22

  

  

−=−= β E    (2.77) 

donde x y ck son vectores de dimensión N dados por

( )

( )110

110

=

=

 N 

 N 

ccc

 x x x

K

K

T

T

c

x  (2.78) 

y H es una matriz de convolución triangular inferior de la respuesta impulsiva ( )nh  

 

 

 

 

=

−−− 0321

012

01

0

0

00

000

hhhh

hhh

hh

h

 N  N  N  L

MOMMM

L

L

L

H   (2.79) 

Definimos la matriz Φ comoΦ = HTH . Por tanto, Φ es una matriz simétricaque contiene las correlaciones de la respuesta impulsiva ( )nh  

( ) ( ) ( )( )∑

= −=−−=

1

,max 1...,,0,,,

 N 

 jin  N  ji jnhinh jiφ    (2.80) 

Se define un vector Ψ tal que Ψ= HTx , cuyos elementos son

( ) ( ) ( ) ( ) ( )∑−

=

−=−=−∗=1

1...,,0 N 

in

 N iinhn xihi xiψ    (2.81) 

El error cuadrático medio ponderado se puede minimizar maximizando elsegundo término de la ecuación (2.77), que está dado por

( ) ( )

kΦcT

kc

kcΨ

kcTHT

kc

kcTxH T 2

2

2

=

  

  

==k 

k k 

ε τ    (2.82) 

donde k C  es la correlación cruzada entre  x y la palabra código filtradak

Hc y está dada

por

( ) ( ) ( )[ ] ( ) ( )ncnnhncn xC  k 

 N 

n

 N 

n

k k  ∑ ∑−

=

=

=∗=1

0

1

0

ψ    (2.83) 

Page 62: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 62/138

 

Revisión teórica

50

y k ε  es la energía de la palabra código k c  

( ) ( )[ ] ( ) ( ) ( ) ( ) ( )∑ ∑ ∑∑−

=

=

+=

=

+=∗=1

0

2

0

1

1

1

0

22 ,2, N 

n

 N 

i

 N 

i jk k 

 N 

nk k k  ji jcic jincnhnc φ φ ε    (2.84) 

( )iψ  y ( ) ji,φ  son calculadas fuera del bucle de optimización, y el término k τ  de la

ecuación (2.82) se evalúa desde k  = 0 a  L-1, donde  L es el tamaño de la tabla decódigos. Se elige la palabra código con índice k que maximiza ese término y la gananciaescalar  β  se calcula a partir de la ecuación (2.77). En esta aproximación, la palabracódigo k c y la ganancia  β no se optimizan conjuntamente, ya que la ganancia tiene que

ser cuantizada y el término de la ecuación (2.82) se deriva usando en valor de laganancia sin cuantizar. La ganancia y el vector de excitación pueden ser optimizadoscomo sigue: para la palabra código con índice k la correlación cruzada k C  y la energía

k ε  se determinan a partir de las ecuaciones (2.84). La ganancia se calcula con la

ecuación:

k k 

ε  β  =   (2.85) 

La ganancia se cuantiza para obtener el valor k  β  y este valor cuantizado se

sustituye en la ecuación 2.73 para obtener el mínimo error

( ) ( ) ( )[ ] k k k k k 

 N 

n

k k  C nhncn xE  ε  β  β  β  β  β  221

0

2 ˆˆ2ˆˆ2 +−=+−=∗−= ∑−

=

xxHcHccHxxx Tk

TTkk

TT  

(2.86)El término a maximizar viene ahora dado por

( )k k k k k  C  ε  β  β τ  ˆ2ˆ −=   (2.87) 

Este término se calcula para cada palabra código y se toma el que maximiza eltérmino con la ganancia cuantizada. Esta aproximación por unión no introduce ningunacomplejidad a tener en cuenta, ya que la correlación C y la energía ε se calculan una vezpor palabra código igual que cuando se calculaba la ecuación de (2.77). La carga

computacional extra es que la ganancia tiene que ser cuantizada para cada palabracódigo.

El número de operaciones necesarias para evaluar la expresión en la ecuación(2.87) es aproximadamente  N 2  (usando las ecuaciones (2.83) y (2.84)). En cambio,cuando la convolución se calcula usando filtrado recursivo, las palabras código ( )nck  se

filtran a través de un filtro con estado cero, donde la convolución necesita  Np instrucciones, el cálculo de la energía ε requiere  N  y la evaluación de la correlacióncruzada k C  otras N instrucciones, dando un total de  N(p+2) operaciones. Esto, para un

predictor de orden 10 supone una importante reducción en el número de operaciones.

Page 63: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 63/138

 

Revisión teórica

51

2.4.3  Tabla de códigos algebraicos

Los códigos algebraicos se pueden usar para poblar las tablas de códigos deexcitación. Algoritmos de búsqueda eficientes en la tabla de códigos se pueden obtenercódigos algebraicos altamente estructurados. Inicialmente, las tablas de códigosalgebraicos se obtenían usando códigos binarios de corrección de errores. Acontinuación veremos un código algebraico donde los vectores de excitación se derivanusando códigos de permutación interrelacionados (IPC) [Adoul et al. 1994].

En los códigos de permutación interrelacionados, un vector de excitación quecontiene un pequeño número de pulsos distintos de cero con un conjunto de posicionescon interrelaciones predefinidas. Los pulsos tienen sus amplitudes fijadas a 1 ó -1, ycada pulso tiene un conjunto de posiciones distintas a las de otros pulsos. Los conjuntosde posiciones están interrelacionados. El código de excitación se identifica por lasposiciones de sus pulsos distintos de cero. Esto es, la búsqueda en la tabla de códigos es

básicamente una búsqueda de las posiciones óptimas de los pulsos distintos de cero.

Page 64: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 64/138

 

Revisión teórica

52

Page 65: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 65/138

 

Recomendación G.729:CS-CELP

53

3  Recomendación G.729: CS-CELP

3.1  LA ITU-T 

La Unión Internacional de Telecomunicaciones, conocida como ITU(Internacional Telecommunications Union), es un organismo dentro de la UNESCO(United Nations Economic, Scientific and Cultural Organization). Está dividido en dos

cuerpos: por un lado el Sector de estandarización de las Telecomunicaciones o ITU-T y,por otro, el sector de estandarización para la Radio o ITU-R. A pesar de llevar la palabraestándar en su nomenclatura, estas dos entidades no crean estándares, sino que generanuna serie de documentos conocidos formalmente como recomendaciones. Estasrecomendaciones representan un acuerdo entre un segmento de la industria de lastelecomunicaciones sobre un tema determinado, pero no hay ningún tipo de ley quefuerce a su cumplimiento. De ahí el término de recomendaciones.

La ITU-T se divide a su vez en secciones más pequeñas denominadas grupos deestudio. El grupo de estudio que se encarga de las recomendaciones relacionadas con elprocesamiento de la voz y el video, como la codificación de voz o la telefonía por videoes el 15 (SG15). Otros grupos relacionados con aspectos de la codificación de voz sonel SG12, que se encarga de los problemas en la red, que influyen en la calidad de laseñal de voz; o el grupo de expertos para la calidad de la señal de voz (SQEG) que seencarga de realizar los experimentos y pruebas subjetivas usadas para determinar cómode bien funciona una determinada recomendación de codificación de voz propuesta porla ITU.

Las recomendaciones de la ITU están a menudo registradas como patentes. Lasempresas dueñas de esas patentes se comprometen a cobrar unas tasas razonables a lasdemás empresas por su uso. Incluso a veces se ha llegado a un acuerdo para pagar esas

tasas entre todas las empresas usuarias. Por tanto, la ITU, como entidad, no administralos derechos de la propiedad intelectual.

Page 66: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 66/138

 

Recomendación G.729: CS-CELP

54

Para establecer una recomendación lo primero es especificar una serie derequerimientos a cumplir por la misma, llamados términos de referencia (ToR; Terms of Reference). En este documento se refleja, junto con un calendario con las estimacionesde tiempo para su ejecución, los objetivos y características que debe cumplir. Ademásde la calidad, también especifica las demás propiedades del codificador, como son la

tasa de bit, el retraso y la complejidad.

Uno de los puntos destacados es la elaboración del calendario, que dependeprincipalmente de la urgencia de la necesidad de implantar la nueva recomendación.Generalmente, se puede dividir en tres partes principales: por un lado, el tiempoempleado en determinar todos los requerimientos y objetivos que debe cumplir larecomendación (que se concluye una vez definidos los términos de referencia); por otro,el tiempo empleado para pruebas, ensayos y tests (que se culmina con la elección delcodificador) y, por último, el tiempo que conlleva el diseño final de la recomendación yel seguimiento de los diferentes pasos que se requieren hasta la ratificación de la misma.El candidato inicial rara vez suele cumplir con los requerimientos fijados en los

términos de referencia, por los que se debe crear un codificador optimizado y volver arealizarle todas las pruebas, con lo que esta parte del proceso es la más puede alargar elcalendario.

Bajo condiciones ideales, el proceso completo de pruebas y tests, entre ladefinición de los términos de referencia y la selección del codificador candidato, sepodría completar en unos 24 meses; si bien reduciendo el número pruebas se puederealizar en menos tiempo. Ello depende de la importancia de la recomendación arealizar. Además, el uso de software para los tests ha reducido el tiempo empleado enellos, al no tener que montar los equipos en el laboratorio para las diferentes pruebas.

3.2  Descripción de la recomendación

3.2.1  Introducción

La recomendación ITU-T G.729 define un algoritmo para la codificación deseñales de voz a 8 kbit/s, usando un CS-CELP. En este sistema, una señal de vozanalógica se pasa a través de un filtro paso de banda entre 300 Hz y 3400 Hz y la señalde voz resultante es muestreada a 8000 muestras por segundo. Así se obtiene lainformación digital de la misma, que se convierte a una señal PCM lineal. Las muestrasson cuantizadas usando una resolución de 16 bits. La tasa de bit de entrada es, por tanto,128 kbit/s. El vocoder G.729 trabaja con tramas de 10 milisegundos, con un retraso de 5ms para el análisis de predicción lineal. El codificador toma 80 muestras de la señal devoz por trama y da como salida 80 bits de información comprimida. El decodificadortoma esos 80 bits por trama y los transforma en 80 muestras de voz sintetizadadescomprimida [IEEE, Marzo 1998].

La comunidad científica consideró que el estándar G.729 representaba un avancesignificativo en el campo de la compresión digital de audio para la transmisión y

almacenamiento de señales de voz y generaría productos innovadores y serviciosdisponibles para el público. Los beneficios de una calidad de voz buena (toll) a 8 kbit/s,con un retraso y unos requerimientos de procesado moderados, hace del estándar G.729

Page 67: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 67/138

 

Recomendación G.729:CS-CELP

55

una opción muy popular para muchas aplicaciones, como la tele/videoconferencia,telefonía visual, sistemas de satélite digital, voz sobre protocolos IP, PSTN, ISDN,teléfonos móviles y otro tipo de aplicaciones inalámbricas, donde la calidad, retraso yancho de banda son importantes.

3.2.2  Historia

El codificador CS-CELP surgió de la búsqueda de un codificador que, con unatasa de bits de 8 kbit/s, consiguiera una calidad de voz equivalente a la que se obtienecon un codificador ADPCM, operando a 32 kbit/s, para la mayor parte de la condicionesde trabajo. Entre estas condiciones cabe citar señales de voz, tanto limpias comoruidosas, variaciones de nivel o señales carentes de voz.

Para la recomendación de la ITU G.729, uno de los términos de referencia quese fijaron fue que el codificador de voz trabajara a 8 kbit/s. Esta tasa se eligió en parteporque se adecua al rango de trabajo de la primera generación de estándares digitalescelulares, que va desde los 6,7 kbit/s en Japón hasta los 13 kbit/s en Europa, pasandopor los 7,95 kbit/s en Estados Unidos. Además era lo más natural dividir por dos la tasade bit de codificadores de voz ya existentes y estandarizados (64, 32 y 16).

Se propusieron dos algoritmos para la obtención de este codificador: uno desdela NTT (Nippon Telegragh and Telephone Corporation) y otro desde France TelecomCNET/Universidad de Sherbrooke. Sin embargo, a pesar que ambos eran prácticamenteequivalentes al codificador ADPM a 32 kbit/s en la mayor parte de las pruebas, ninguno

se equiparaba a él en todas. En ese punto, los dos candidatos decidieron unirse y crearun nuevo codificador con las mejores características de los dos códigos y continuar susinvestigaciones para alcanzar el objetivo común. Así, se probó una versión delcodificador resultante en Enero de 1995 y un mes después fue aprobada en la reuniónde la ITU-T. La recomendación final fue finalmente ratificada en Noviembre de 1995.

El 12 de Marzo de 1998 France Telecom, Nippon Telegraph and TelephoneCorporation y la Universidad de Sherbrooke (Québec, Canadá) establecieron elconsorcio G.729 para simplificar el proceso de licitación para el estándar internacionalde codificación y decodificación digital de audio ITU G.729 y para promover laexpansión y adopción tanto del estándar G.729, como del G.729 Anexo A. El consorcio

también acordó tener un único agente, Spiro LabTelecom (compañía canadienserepresentante comercial del Laboratorio de compresión de voz de la universidad deSherbrooke y de su famosa tecnología ACELP desde 1993).

En la tabla 4 se muestra el calendario que se siguió para la consecución de larecomendación [Cox y Kroon, 1996]:

Page 68: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 68/138

 

Recomendación G.729: CS-CELP

56

 Actividad Discusión inicial de los ToRFinalización de los ToR

Total meses

7/9011/91

16Reunión de codificadores candidatos

Realización de pruebas y ensayosSelección del candidato

Total meses

9/92

2/932/95

39Reunión para la determinaciónPrimer boceto de la recomendaciónSe somete a decisión

Total meses

2/956/95

11/959

Total meses para el proceso completo 64

Tabla 4.- Calendario seguido para la aprobación de la recomendación G.729

El término de referencia para el retraso del codificador fue uno de los asuntosque más tiempo llevó concretar, alargándose la discusión más de un año. Inicialmente sepropuso un retraso del codificador en un sentido máximo de 10 ms. Más tarde, se pensófijar el tamaño de la trama en 16 ms. Finalmente el tamaño de la trama se fijó en 10 ms.Con este tamaño se obtiene un retraso hacia delante de 5 ms, un retraso deprocesamiento de 10 ms y un retraso en la transmisión de otros 10 ms, con lo que elretraso total del sistema en un sentido es de 35 ms.

3.2.3  Objetivos y requerimientos de la recomendación G.729

Los objetivos más discutidos a la hora de realizar la recomendación fueron elretraso y la complejidad del codificador [3]. Se optó por aceptar un retraso quepermitiera una reducción significativa de la complejidad con respecto a codificadores deotras recomendaciones existentes, como la G.728. El número de millones deinstrucciones por segundo se redujo hasta 17 MIPS. Sin embargo la cantidad dememoria RAM necesaria es de 3 kwords, un 50 % más que en la recomendación G.728.Gran parte de este uso extra de memoria se debe a la utilización de tramas más largas.

En las dos tablas presentadas a continuación se resumen los requerimientos y

objetivos (términos de referencia) que se definieron a la hora de implementar elcodificador para la recomendación. En la primera de ellas (tabla 5) se definen losobjetivos relacionados con la tasa de bit, el retraso y la complejidad del codificador.

ParámetroTasa de bit (kb/s) 8

Tamaño de la trama (ms) 10Tamaño de la subtrama (ms) 5

Retraso algorítmico (ms) 15MIPS (punto fijo DSP) 20

RAM (palabras de 16 bits) 2.7 kTabla 5.- Valores de los parámetros más importantes para la recomendación G.729

Page 69: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 69/138

 

Recomendación G.729:CS-CELP

57

En la segunda (tabla 6) se definen todos los requerimientos y objetivosrelacionados con la calidad de la señal de voz.

La parte más difícil fue medir su comportamiento para las diferentes condicionesde ruido ambiente. Los primeros codificadores propuestos fallaron para algunas o

incluso para todas estas condiciones porque el ruido codificado no sonaba igual que eloriginal.

En los tests de promediado de degradación de categoría (DRC), los sujetosapreciaban una diferencia a peor. Como consecuencia, la G.729 obtenía peoresresultados que la G.726 en este test. Sin embargo, al realizar los tests de promediado decategoría absoluta (ACR), los resultados en la escala MOS de la G.729 no eransignificativamente peores que los de la G.726, siendo incluso, a veces, mejores.

Parámetro Requerimientos Objetivos

Calidad (sin errores de bit) No peor que la G.726 a 32kbit/s

Calidad (con errores de bit)Errores de bit aleatoriosBER<10-3 Pérdidas de trama detectadas

Errores no detectados

No peor que la G.726No más de 0,5 MOS dedegradación con respecto alADPCM a 32 kbit/s sinerrores

Equivalente a la G.726 32kbit/sTan pequeño como seaposible

Para estudios posterioresDependencia del nivel No peor que la G.726 a 32

kbit/s

Tan pequeño como sea

posibleDependencia del hablante No peor que la G.726 a 32kbit/s

Capacidad de transmitir música No generar efectos molestosCapacidad de tandeming para laseñal de voz

Tandeming con otros estándaresde ITUTandeming con estándaresregionales DMR

2 códigos asíncronos con unadistorsión total < 4asíncronos G.726 a 32 kbit/s< 4 asíncronos G.726 a 32kbit/s

Para estudios posteriores

3 códigos asíncronos con unadistorsión total < 4asíncronos G.726 a 32 kbit/sPropiedad de tandemingsíncrona

Ruido de canal-  ponderado-  frecuencia simple

Para estudios posterioresNo peor que la G.726 a 32kb/s

No peor que la G.726 a 32kb/s

Capacidad de transmitir tonos deseñal/información

DTMF, CCITT Nos. 5,6 y 7,CCITT R2, Q.35, Q.23, V.25

Distorsión lo más pequeñaposible

Tabla 6.- Requerimientos y objetivos para la recomendación G.729

El segundo requerimiento es el referente a la calidad de la señal de vozrelacionado con canales ruidosos. Para una tasa de error de bit de 10-3, la calidad de la

señal de voz no debía ser peor que la de la G.726 bajo las mismas condiciones. Losrequerimientos para borrado de tramas fueron más complicados de determinar.

Page 70: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 70/138

 

Recomendación G.729: CS-CELP

58

Finalmente el código se probó con 1, 3 y 5 % de tramas borradas aleatoria osecuencialmente. El requerimiento fue que para el caso del 3 %, para ambas situaciones,no debía ser peor que el resultado obtenido en la escala MOS por el codificador de larecomendación G.726 menos 0,5 puntos.

El tercero de los requerimientos relacionados con la señal de voz es que laentrada esté como mucho 10 dB por encima o por debajo del nivel nominal de entrada.

Para realizar las pruebas del cuarto requerimiento se necesitó un gran número dehablantes, tanto niños como adultos. La recomendación se probó en cuatro idiomasdiferentes con al menos 8 hablantes por idioma.

El codificador admite señales musicales, si bien la calidad que se obtiene esbastante pobre. El principal motivo de este resultado es que los codificadores basadosen la predicción lineal con análisis por síntesis se basan en la predicción del pitch paralograr una codificación eficiente. La mayoría de las señales de audio carecen de una

estructura con pitch y toda la carga de la codificación recae en la excitación y elpredictor lineal de bajo orden.

El siguiente requerimiento hace referencia a la conexión del codificador conotros codificadores, ya sea otro de sus mismas características o de otras diferentes. Paraambos casos, la unión de los dos no debe producir una distorsión mayor que la de 4codificadores de la recomendación G.726 a 32 kb/s. No se propuso ningún tipo derequerimiento para su interconexión con estándares regionales con tecnología digitalcelular.

3.2.4  Características del codificador

El codificador CS-CELP se basa en el modelo de codificación conocido comoCELP (code-excited linear prediction). En este modelo, la señal codificada se comparacon la señal original y los parámetros del codificador se eligen de forma que seminimice el error cuadrático medio ponderado entre la señal original y la señalreconstruida.

Como ya se ha dicho, el codificador CS-CELP está diseñado con una señal,

apropiadamente limitada en banda, muestreada a 8.000 Hz. Las muestras de entrada ysalida se representan usando una cuantización lineal PCM de 16 bits. El codificadoropera con tramas de 10 ms, usando subtramas de 5 ms para el análisis de predicciónlineal (LP). El uso de subtramas permite una mejor determinación de los parámetros depitch y ganancia y, además, reduce la complejidad de las búsquedas en la tabla depalabras código.

Lo que más destaca del decodificador y lo que mayor potencial le otorga paraaplicaciones sin cables es lo robusto que es frente a errores en el canal y la capacidad dedetectar y recomponer tramas perdidas.

Muchos codificadores usan la codificación lineal predictiva (LPC) adaptativahacia atrás, realizando el análisis LPC sobre la señal de voz previamente cuantizada.

Page 71: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 71/138

 

Recomendación G.729:CS-CELP

59

Como la señal reconstruida está disponible tanto en el codificador como en eldecodificador, no es necesario enviar al decodificador los coeficientes LPC. Sinembargo, aunque esta técnica funciona para algoritmos operando a 16 kbit/s, no seconsigue una calidad suficiente en algoritmos a 8 kbit/s sin realizar una predicción delpitch. Los codificadores que usan el modelo de codificación CELP usan normalmente

un predictor de pitch adaptativo hacia delante, para explotar una de las característicasmás importantes de las señales de voz, su redundancia.

Para conseguir esas propiedades que hacen que este decodificador sea muybueno para diferentes aplicaciones se han usado tres nuevos esquemas en el algoritmo:

-  Cuantización vectorial multistage VQ de los coeficientes LSP con predicciónMA entre tramas, ya que el cuantizador debe operar con señales de voz conrespuesta en frecuencia diferentes.

-  Preselección en la búsqueda en la tabla de códigos, para reducir su complejidad.-  Ganancia VQ con predicción hacia atrás para hacerlo más robusto frente a

errores en el canal.

La principal diferencia entre el codificador CS-CELP y otros codificadoresbasados en el modelo CELP es el uso de una estructura de tabla de códigos conjugada,tanto para la tabla de códigos fijos como para la de códigos adaptativos. Cuatro son lasventajas más interesantes que se desprenden del uso de esta estructura conjugada[Kataota, 2001]:

-  Mejora la robustez del sistema-  Reduce la memoria necesaria para operar-  Junto con la preselección, reduce la complejidad de las búsquedas en la tabla de

códigos aleatorios o adaptativos.-  Permite generar una tabla de códigos aleatorios entrenada

Vamos a ver un poco más en profundidad algunas de ellas por separado.

Con un simple ejemplo se demostrará la efectividad de esta estructura conjugadafrente a errores en el canal, comparada con la de un codificador que no la usa. Para estesegundo codificador (con un solo vector) un error en el canal puede producir un vectortotalmente diferente al esperado:

Figura 22.- Posible error en el canal usando una tabla de códigos única

Sin embargo, para un codificador con estructura conjugada el vector de salida se

genera sumando dos vectores (subvectores 1 y 2). Si uno de los dos sufre un error en elcanal entonces, aunque el subvector de salida generado a partir de él pueda ser bastante

Vector error

Vector de salida

error

Page 72: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 72/138

 

Recomendación G.729: CS-CELP

60

diferente del esperado, el vector de salida, que no es sino la suma de los dos subvectoresde salida, no será tan diferente del esperado.

Figura 23.- Posible error en el canal usando una tabla de códigos con estructuraconjugada

La cantidad de memoria necesaria para almacenar una tabla de códigosaleatorios depende del número de bits. La estructura conjugada usa dos subtablas. Comocada una de las subtablas es menor que la tabla de códigos, se necesita menos memoria.

Si la necesidad de usar una memoria reducida no es primordial, es posible hacertablas de códigos aleatorios entrenadas.

Para mejorar la robustez del sistema se reduce el número de bits sensible aposibles errores en el canal del codificador. En la codificación convencional usando el

modelo CELP, la potencia de la señal de voz de entrada para cada trama es cuantizadaen primer lugar, y después el residuo de la potencia se cuantiza usando la tabla decódigos de ganancia. El índice de la información de potencia es especialmente sensiblea los errores en el canal y un error en él puede provocar una distorsión de importancia(clicks) en la señal de voz reconstruida. En el codificador CS-CELP la ganancia VQ conpredicción hacia atrás elimina la necesidad de transmitir explícitamente la informaciónde potencia. Por supuesto, si el índice de la tabla de códigos de ganancia sufre algúnerror debido al canal, la calidad de la señal de voz en el decodificador se degrada. Sinembargo, para este esquema, se producen un número pequeño de distorsiones en laamplitud para unas pocas tramas, lo cual es preferible al caso anterior.

3.2.5  Aplicaciones

Muchas aplicaciones, como por ejemplo los sistemas de radio digitales celulares,requieren un algoritmo de codificación de voz que aúne una calidad elevada y robustezfrente a errores por debajo de los 8 kbit/s. Otras aplicaciones de estos algoritmos decodificación de voz a 8 kbit/s son:

-  Sistemas de comunicación personal (SCP)

-  Sistemas digitales por satélite-  VoIP (Voz sobre IP)

Vector error

errorSub-vector 1

Sub-vector 1

Sub-vector 2

Vector de salida

Page 73: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 73/138

 

Recomendación G.729:CS-CELP

61

-  Otras aplicaciones como voz empaquetada y equipos con circuitosmultiplexadores

Las aplicaciones de comunicación sin cables requieren que el codificador searobusto frente a los errores en el canal. Estos errores pueden ser aleatorios o

secuenciales y el codificador debe de ser capaz de asimilarlos sin introducir efectosextraños en la señal. El decodificador debe recomponer tramas perdidas de la señal conuna mínima pérdida en la calidad de la señal de voz.

3.2.6  Anexos

El Anexo A del estándar G.729 es un modelo simplificado del G.729, que tieneuna total interoperativibilidad con éste.

Los codificadores G.729 y G.729A proporcionan la misma calidad de vozoperando normalmente, la tasa de datos y el tamaño de las tramas es el mismo, y sontotalmente interoperativos. Esto lleva a veces a confusión entre ambos porque sonidénticos, a excepción de por su complejidad.

El anexo B del estándar describe un detector de actividad vocal (VAD), quepuede usar tanto el estándar G.729 como el G.729 A. El VAD permite la supresión desilencios (también llamadas discontinuidades en la transmisión) y generan ruido deconfort. La supresión de silencios implica la detección de las partes de la señal donde nohay voz y hace discontinua la salida del codificador. El ruido confort se simula

mediante ruido de fondo que suena durante la supresión de silencios para confirmar aloyente que la comunicación sigue activa. En una conversación normal la supresión desilencios reduce la cantidad de información enviada entre un 40 y un 60 %, reduciendola tasa media de bit hasta en 4 kbit/s. Por tanto, la utilización del estándar G.729 con suAnexo B reduce la demanda de ancho de banda no transmitiendo los silencios.

Page 74: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 74/138

 

Recomendación G.729: CS-CELP

62

Page 75: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 75/138

 

Implementación del codificador de voz

63

4  Implementación del codificador de voz

4.1  Introducción

4.1.1  Definición del sistema a implementar

El codificador que se va a implementar se basa en el definido en larecomendación G.729 de la ITU-T (“Codificación de la voz a 8 kbit/s mediantepredicción lineal con excitación por código algebraico de estructura conjugada”), conalguna pequeña modificación. Este tipo de predicción lineal se conoce genéricamentecomo CS-ACELP y a partir de ahora nos referiremos a ella de esta manera.

El códec definido en la recomendación está diseñado para trabajar con una señaldigital para efectuar primero un filtrado con la anchura de la banda telefónica de laseñal analógica de entrada, seguido de un muestreo a 8000 Hz y su conversión a unamodulación por impulsos codificados (MIC) lineal de 16 bits, para entrar en elcodificador. La salida del decodificador se reconvierte a una señal analógica siguiendo

un método similar. Este estudio se centrará exclusivamente al estudio de codificador ydecodificador, dejando lo demás (paso de señales de analógico a digital y viceversaantes y después del sistema en función de la red en que trabaje, cuantización y envío deparámetros…) para próximos estudios sobre el tema.

El códec CS-CELP se basa en el modelo de codificación mediante predicciónlineal con excitación por código (CELP). Opera con tramas vocales de 10 mscorrespondientes a 80 muestras a una velocidad de muestreo de 8000 muestras porsegundo. En cada trama de 10 ms se analiza la señal vocal para extraer los parámetrosdel modelo CELP (coeficientes de filtro de predicción lineal, ganancias e índices de lastablas de códigos adaptativos y fijos). Los parámetros en cuestión se codifican y se

transmiten. En el decodificador, dichos parámetros se usan para recuperar losparámetros de excitación y del filtro de síntesis. La voz se reconstruye filtrando la

Page 76: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 76/138

 

Implementación del codificador de voz

64

excitación a través del filtro de síntesis de corto plazo como se ve en la figura 24. Elfiltro de síntesis de corto plazo se basa en un filtro de predicción lineal de décimo orden.El filtro de síntesis de largo plazo o de pitch se aplica mediante el método de la llamadatabla de códigos adaptativos. Tras calcular la señal vocal reconstruida, ésta se mejoracon un postfiltrado.

Además, para la correcta implementación del código en Matlab se añadiránceros al inicio de ciertas señales (para el tratamiento de las primeras tramas), evitandode esta forma la posibilidad de tener índices con valores cero o negativos, no permitidospor esta aplicación.

Para ir viendo la evolución de la señal en los diferentes puntos de codificador ydecodificador, se empleará una ventana de 240 muestras de la vocal “a” de la palabra“campo”.

Fig. 24.- Diagrama funcional del modelo conceptual de síntesis (CELP)

4.1.2  Codificador

El principio de codificación puede observarse en la figura 25. La señal deentrada se pasa por un filtro de paso de alta y se pone a escala en el bloque depreprocesamiento. La señal preprocesada actúa como señal de entrada para todo elanálisis posterior. Se efectúa un análisis de predicción lineal para cada trama de 10 mscon el fin de calcular los coeficientes del filtro LP. Éstos se convierten en pares delespectro lineal (LSP, line spectrum pair). La cuantización de estos parámetros que se ha

realizado es una cuantización lineal (La cuantización de estos parámetros, al igual que lade otros que veremos más adelante, de una forma más eficiente se deja propuesta paraposteriores estudios). La señal de excitación se selecciona utilizando un procedimientode búsqueda basado en el análisis por síntesis, según el cual la diferencia entre la señaloriginal y la reconstruida se reduce al mínimo de acuerdo con una medida de ladistorsión ponderada perceptualmente. Esto se logra pasando la señal de error por unfiltro de ponderación perceptual, cuyos coeficientes se derivan del filtro LP sincuantificar. El valor de la ponderación perceptual se hace adaptativo, con el fin demejorar la calidad para señales de entrada con una respuesta de frecuencia plana.

El primer paso del proceso es analizar el retraso de pitch. Esto se hace

analizando la autocorrelación de la señal de voz (ponderada para enfatizar diversascaracterísticas en frecuencia), y encontrando el máximo con la menor posición, de

Page 77: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 77/138

 

Implementación del codificador de voz

65

forma que no se tomen múltiplos del retraso de pitch. A esto se le denomina análisis depitch en bucle abierto. Se hace una búsqueda en la región alrededor del retraso de pitchen bucle abierto para encontrar el mejor retraso de pitch. El mejor retraso se definefiltrando la excitación previa (retrasada la cantidad apropiada) a través del filtro desíntesis LP. El resultado es correlacionado con la señal de voz actual y dividido por la

magnitud de la salida del filtro de síntesis, con lo cual se elimina la ganancia delproceso de búsqueda. Se toma el retraso que maximiza esta cantidad. La ganancia seobtiene directamente a partir de la excitación óptima. Se extrae de la señal de vozoriginal la salida del filtro de síntesis usando el retraso óptimo y la excitaciónamplificada, y la diferencia, llamada señal objetivo, se usa para encontrar la segundaparte de la excitación.

La excitación consiste en cuatro impulsos. Cada impulso tiene una amplitudpositiva o negativa, y puede encontrarse dentro de un conjunto fijo de posiciones, que esdiferente para cada impulso. Estos pulsos se filtran mediante un filtro armónico simple.La búsqueda se realiza, primero identificando las amplitudes ideales (positivas o

negativas), y después las posiciones. Como antes, la búsqueda se realiza filtrando laseñal de excitación a través del filtro de síntesis, y comparando el resultado con la señalobjetivo. Después es dividida por la energía de la señal de salida del filtro de síntesis(eliminando de nuevo la ganancia del proceso de búsqueda). Se selecciona el conjuntode amplitudes y posiciones que maximizan esta métrica. Finalmente la ganancia secalcula directamente.

Los parámetros de excitación (parámetros de tabla de códigos fijos yadaptativos) se determinan para cada subtrama de 5 ms (40 muestras). Los coeficientescuantificados y no cuantificados del filtro LP se aplican a la segunda subtrama, mientrasque para la primera subtrama se utilizan coeficientes del filtro LP interpolados(cuantificados o no). Se estima un retardo de tono ó pitch en bucle abierto por cadatrama de 10 ms en base a la señal vocal ponderada perceptualmente. Luego se efectúan,para cada subtrama por separado, las siguientes operaciones:

•  Se calcula la señal objetivo x(n) pasando el LP residual por el filtro de síntesis

ponderado ( ) ( ) z A zW  ˆ . Los estados iniciales de estos filtros se actualizanfiltrando la diferencia que se produce entre el residuo LP y la excitación. Elloequivale al método corriente de sustraer de la señal vocal ponderada la respuestade entrada cero del filtro de síntesis ponderado.

•  Se calcula la respuesta de impulso h(n) del filtro de síntesis ponderado.

•  Se analiza el tono en bucle cerrado (para determinar el retardo y la ganancia dela tabla de códigos adaptativos) mediante la respuesta objetivo  x(n) y larespuesta a los impulsos h(n), indagando en torno al valor del retardo en bucleabierto. Se utiliza un retardo fraccionario de 1/3 de definición. La señal objetivox(n) se actualiza sustrayendo la contribución (filtrada) de la tabla de códigosadaptativos y se aplica este nuevo objetivo, x’(n), para la búsqueda de de la tablade códigos fijos, con el fin de obtener la excitación óptima.

•  Se construye la tabla de códigos fijos, y

Page 78: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 78/138

 

Implementación del codificador de voz

66

•  Finalmente se actualizan las memorias de los filtros mediante la señal deexcitación así determinada.

Figura 25.- Principio de codificación del codificador

4.1.3  Decodificador

El principio del decodificador aparece en la figura 26. Primero se extraen losíndices de los parámetros a partir del tren de bits recibidos. Los índices se decodificanpara obtener los parámetros del códec correspondientes a una trama de voz de 10 ms.Estos parámetros son los coeficientes LSP, los dos retardos de tono fraccionarios, losdos vectores de de la tabla de códigos fijos y las ganancias de las tablas de códigosadaptativos y fijos. Los coeficientes LSP se interpolan y se convierten en coeficientesdel filtro LP de cada subtrama. A continuación, para cada subtrama de 5 ms se aplican

los siguientes pasos:

Page 79: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 79/138

 

Implementación del codificador de voz

67

•  Se construye la excitación sumando los vectores de las tablas de los códigosadaptativos y fijos, puestos a escala por sus respectivas ganancias.

•  Se reconstruye la señal vocal filtrando la excitación por el filtro de síntesis LP.

•  Se hace pasar la señal vocal reconstruida a través de una fase depostprocesamiento, que incluye un postfiltro adaptativo basado en filtros desíntesis de largo y corto alcance, seguido de un filtro paso de alta y unescalamiento.

Figura 26.- Principio del decodificador

4.2  Descripción de las funciones del codificador

En este apartado se describen las diferentes funciones del codificadorrepresentadas por los bloques de la Figura 25. Se presente un flujo más detallado de lasseñales en la Figura 27.

Page 80: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 80/138

 

Implementación del codificador de voz

68

Figura 27.- Flujo de señales en el codificador

Page 81: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 81/138

 

Implementación del codificador de voz

69

4.2.1  Preprocesamiento

Como ya se ha indicado anteriormente la entrada al codificador debe ser unaseñal MIC (modulación por impulsos codificados) de 16 bits. Antes de iniciarse lacodificación se efectúan dos funciones de preprocesamiento:

1.  escalamiento de las señales2.  filtrado paso de alta

Para poner la señal en escala se divide la entrada por 2, con la finalidad dereducir los desbordamientos. El filtro paso alto es una precaución para evitarcomponentes indeseables de baja frecuencia. Se utiliza un filtro de polos y ceros desegundo orden con una frecuencia de corte de 140 Hz. Ambas funciones, elescalamiento y el filtrado paso alto, se combinan dividiendo los coeficientes delnumerador de este filtro por 2. El filtro resultante está dado por la expresión:

21

21

1 9114024,09059465,11

46363718,092724705,046363718,0)(

−−

−−

+−

+−=

 z z

 z z z H h   (4.1) 

Figura 28.- Filtro de preprocesado

La señal de entrada filtrada mediante )(1 z H h se define como s(n), símbolo que

se utilizará de ahora en adelante en todas las demás aplicaciones del códec.

Page 82: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 82/138

 

Implementación del codificador de voz

70

4.2.2  Análisis y cuantización de la predicción lineal

Los filtros de análisis y síntesis de predicción de corto plazo se basan en filtrosde predicción lineal (LP), ya vistos con anterioridad. Para nuestro codificadoremplearemos un filtro de orden 10. El filtro de síntesis LP se define por:

( )

∑=

−+

==10

1

1

1

)(

1

k k  zâ

 z Â z H    (4.2)

donde k â , k =1,2,…,10, representa los coeficientes (cuantificados) de predicción lineal

(LP). La predicción a corto plazo o predicción lineal se lleva a cabo para cada tramamediante el método de autocorrelación, con una ventana asimétrica de 30 ms. Cada 80muestras (10 ms), se calculan los coeficientes de autocorrelación de las señales vocales

ventanizadas y se convierten en coeficientes LP por medio del algoritmo de Levinson.Luego los coeficientes LP se transforman al dominio LSP, para permitir lacuantificación e interpolación. Los filtros interpolados, cuantificados o no, sereconvierten en coeficientes LP (a fin de construir los filtros de síntesis y ponderaciónpara cada subtrama).

4.2.2.1  Ventanización y cálculo de la autocorrelación

La ventana de análisis LP consta de dos partes: la primera es media ventana deHamming y la segunda un cuarto del ciclo de la función coseno. La ventana está dada

por la ecuación:

=−

=−=

240,...,201)159

)201(2cos(

200,...,1)399

2cos(46,054,0

)(

nn

nn

nwlpπ 

π 

  (4.3) 

Page 83: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 83/138

 

Implementación del codificador de voz

71

Figura 29.- Ventana para el análisis LPComo en el análisis de predicción lineal hay un preanálisis de 5 ms, lo cual

requiere 40 muestras de la trama vocal futura. La ventana del análisis LP se aplica a 120muestras de las tramas vocales precedentes, 80 muestras de la trama vocal presente y 40muestras de la trama futura. La ventana puede verse gráficamente en la figura 29. En

ella puede verse cómo la parte que más peso va a tener es la comprendida entre el iniciode la trama actual y la mitad de la subtrama siguiente.

En el siguiente diagrama (figura 30) puede verse cómo quedarían las ventanas ya qué muestras afectaría cada una si se tomara la señal vocal, dividida en tramas de 80muestras, y se superpusiesen las ventanas. El diferente sombreado identifica lascorrespondientes excitación (señal vocal) y ventanas de análisis LP.

Figura 30.- Procedimiento de ventanización en el análisis LP

La señal vocal ventanizada se obtiene pasando la señal vocal a través de laventana:

40,...,1)()()(' == nnsnwns lp   (4.4) 

Si se toma un trozo de la señal de voz y la enventanamos usando la ventanadefinida, se obtiene lo siguiente:

Figura 31.- Tramo de señal de voz original y enventanada en el espacio muestral y en frecuencia

Page 84: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 84/138

 

Implementación del codificador de voz

72

Como puede apreciarse, en las gráficas de la figura 31, las muestras que másvalor tendrán en el posterior procesamiento van a ser las de la trama actual. Si sesuperponen las dos señales, figura 32, se puede apreciar mejor. Al usar una ventana tangrande, abarca tres tramas de la señal vocal, se busca una mayor resolución en lafrecuencia.

Figura 32.- Tramo de señal de voz original y enventanada superpuestos en el espacio muestral

Figura 33.- Espectros de un tramo de señal de voz original y enventanada superpuestos

Page 85: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 85/138

 

Implementación del codificador de voz

73

Esta señal ventanizada es la que se utiliza para calcular los coeficientes deautocorrelación:

11,...,1)(')(')(240

=−= ∑=

iinsnsir in

  (4.5) 

Con el fin de eludir problemas aritméticos para las señales de entrada de bajonivel, se pone un límite inferior al primer coeficiente de la autocorrelación de r(1)=1,0.

Como el análisis LP puede generar filtros de síntesis con picos espectralesafilados, se expande el ancho de banda para evitar problemas. La expansión afectaespecialmente a los picos de los formantes principales de la respuesta en magnitud delfiltro. Normalmente esta expansión del ancho de banda se emplea para evitar sonidossintetizados no naturales en señales de voz con un pitch elevado, cuando el análisis LPtiene problemas a la hora de estimar la envolvente del espectro. Además, la expansión

aumenta la robustez del filtro frente a errores de cuantización.Una expansión del ancho de banda de 60 Hz se hace multiplicando los

coeficientes de autocorrelación por los factores:

11,...,22

2

1exp)(

2

0 =

 

  

 −= i

 f 

i f iw

slag

π   (4.6) 

donde f 0=60 Hz es la expansión de la anchura de banda y f s=8000 Hz es la frecuencia demuestreo.

Se hace, además, una corrección por ruido blanco para reducir posiblesproblemas numéricos en el análisis LP. La voz tiene un espectro con un fuerte filtradoen baja frecuencia (-6 dB/octava), por lo que presenta un rango dinámico elevado. Apesar de que la expansión del ancho de banda minimiza el rango dinámico al reducir suspicos, las componentes de alta frecuencia en el espectro de la señal de voz tienen unaamplitud muy pequeña. La corrección se usa dado que el análisis LP requiere una altaprecisión computacional para capturar la descripción de los elementos en el extremofinal del espectro de la señal de voz. Cuando estos elementos son muy pequeños, lamatriz de autocorrelación se vuelve singular, generando problemas computacionales.Añadiendo a la señal un ruido de bajo nivel, se reduce el rango dinámico del espectro yse evitan los problemas numéricos. Para introducir esta corrección se multiplica r(1) porun factor de corrección por ruido blanco 1,0001, lo que equivale a añadir un umbral deruido de -40 dB a la señal. Los coeficientes de autocorrelación modificados estándefinidos por:

)1(0001,1)1(' r r  =  

11,...,2)()()(' == iir iwir  lag   (4.7)

Si se representa las densidades espectrales de una ventana de la señal con suscoeficientes de autocorrelación sin modificar y modificados, se observa como se

suavizan los picos del espectro, afectando especialmente a los picos de los formantesprincipales:

Page 86: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 86/138

 

Implementación del codificador de voz

74

Figura 34.- Densidad espectral de un tramo de voz sin modificar sus coeficientes deautocorrelación y modificándolos

4.2.2.2 Algoritmo de Levinson-Durbin

Los coeficientes de autocorrelación modificados )(' ir  se utilizan para obtener los

coeficientes de filtro LP k a , k  = 2,…, 11. Esta operación se realiza tal y como se

explicó en la parte teórica, resolviendo el siguiente conjunto de ecuaciones:

11,...,2)()('11

2

=−=−∑=

iir  jir a j

 j   (4.8) 

que se obtienen a partir de la ecuación fundamental del modelo LPC y, donde los

coeficientes  ja son las estimaciones de los coeficientes k a .

Este conjunto de ecuaciones (4.8) se resuelve mediante el algoritmo de LevinsonDurbin. Esto puede realizarse mediante la función levinson de Matlab, a la cual solo sele pasa como argumento los coeficientes de autocorrelación modificados.

La solución final se expresa por [ ]10 j j aa = , j = 1,…,11, con 0,11 =a .

Page 87: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 87/138

 

Implementación del codificador de voz

75

4.2.2.3 Conversión LP -> LSP

Los coeficientes de filtro de predicción lineal (LP), a j, j = 1,…,11, se conviertenpara los efectos de cuantificación e interpolación en coeficientes de pares del espectrolineal (LSP). Esta conversión se efectúa tal y como se vio en la parte teórica, aunque aefecto prácticos se usará el comando de Matlab poly2lsf, que realiza dicha conversión.

4.2.2.4 Cuantización de los coeficientes LSP

De una manera sencilla se utilizará una cuantización lineal de los coeficientesLSP, en lugar de la cuantización vectorial descrita en la recomendación, que se dejarápara posteriores estudios.

4.2.2.5 Interpolación de los coeficientes LSP

Los coeficientes LP cuantizados (y no cuantizados) se utilizan para la segundasubtrama. Para la primera subtrama, los coeficientes LP cuantizados (y no cuantizados)se obtienen mediante interpolación lineal de los parámetros correspondientes en lassubtramas adyacentes. La interpolación tiene lugar en los coeficientes LSP del dominiocoseno. Sean qi

(actual) los coeficientes LSP calculados para la trama actual de 10 ms, yqi

(anterior) los coeficientes LSP calculados en la trama anterior de 10 ms. Los coeficientesLSP interpolados (no cuantizados) en cada una de las dos subtramas corresponden a:

Subtrama 1: 10,...,15,05,0 )()()1( =+= iqqq actuali

anterior ii  

Subtrama 2: 10,...,15,0 )()2( == iqq actualii   (4.9) 

El mismo procedimiento de interpolación se aplica a los coeficientes LSPcuantificados, sustituyendo qi  por iq en la ecuación (4.9)

4.2.2.6 Conversión de LSP a LP

Una vez cuantificados e interpolados los coeficientes LSP, se reconvierten encoeficientes LP ak . Esta conversión se realiza de la siguiente manera. Se hallan loscoeficientes de F 1( z) y F 2( z) ampliando las ecuaciones 2.26 tras conocer los coeficientesLSP cuantificados e interpolados. Los coeficientes  f 1(i) ,i = 1,…,5, se calculan a partirde qi mediante la relación recursiva:

Page 88: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 88/138

 

Implementación del codificador de voz

76

( ) ( ) ( )

[ ]( ) [ ]( ) [ ]( ) [ ] ( )

 fin fin

 j f  j f q j f  j f 

hastaodecreciend i j para

i f i f qi f 

ai para

iii

ii

ii

212

11

2212

51

11

1112

111

1121

−+−−=

−=

−+−−=

=

−−−

 

con valores iniciales  f 1(0) = 1 y  f 1(-1) = 0. Los coeficientes f 2(i) se calculan de manerasimilar, sustituyendo q2i-1 por q2i. Después de determinar los coeficientes  f 1(i) y  f 2(i),F 1(i) y F 2(i) se multiplican por el factor 1+z-1 y 1-z-1 respectivamente, obteniendo ( ) zF 1′  

y ( ) zF 2′ , o sea:

( ) ( ) ( )

( ) ( ) ( ) 5,...,11

5,...,11

222

111

=−−=′

=−+=′

ii f i f i f 

ii f i f i f   (4.10) 

Finalmente, los coeficientes LP se calculan a partir de ( )i f 1′ y ( )i f 2′ mediante:

( ) ( )

( ) ( )

=−′−−′

=′+′=

10,...,6115,0115,0

5,...,15,05,0

21

21

ii f i f 

ii f i f ai   (4.11) 

Esto se deduce directamente de la relación ( ) ( ) ( )( ) 2 / 21 zF  zF  z A ′+′= , así como el

hecho de que ( ) zF 1′ y ( ) zF 2′ son respectivamente, polinomios simétricos y

antisimétricos.

4.2.3  Ponderación perceptual

El filtro de ponderación perceptual se basa en los coeficientes del filtro LP nocuantizados ai y viene definido por:

( )

( ) ∑

=−

=

+

+==

101 2

10

1 1

2

1

1

1)(

k k 

k ki

k k 

 za

 za

 z A

 z A zW 

γ  

γ  

γ  

γ    (4.12) 

Los valores de 21 γ  γ   y determinan la respuesta de frecuencia del filtro )( zW  .Mediante un ajuste adecuado de estas variables es posible lograr una ponderación máseficaz. El método consiste en hacer de 21 γ  γ   y una función de la forma espectral de laseñal de entrada. Se efectúa esta adaptación una vez por trama de 10 ms, pero aplicandoun procedimiento de interpolación para cada primera subtrama, a fin de suavizar elproceso de adaptación. La forma del espectro se obtiene a partir de un filtro depredicción lineal de 2º orden, como resultado secundario de la recursión de Levinson-Durbin. Los coeficientes de reflexión

1k  se convierten en coeficientes

i

o , logaritmo

relacionado de zona (LAR, Log Area Ratio) mediante:

Page 89: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 89/138

 

Implementación del codificador de voz

77

( )

( )2,1

0,1

0,1log =

+= i

k o

i

ii   (4.13) 

Los coeficientes LAR correspondientes a la trama actual de 10 ms sirven para lasegunda subtrama. Los coeficientes LAR de la primera subtrama se obtienen medianteinterpolación lineal de los parámetros LAR de la trama anterior. Los coeficientes LARinterpolados en cada una de ambas subtramas están dados por:

( ) ( ) ( )

( ) ( ) 2,1:2

2,15,05,0:12

1

==

=+=

iooSubtrama

ioooSubtramaactual

ii

actuali

anterior ii   (4.14) 

La envolvente del espectro se caracteriza como plana ( flat = 1) o inclinada ( flat = 0). Para cada subtrama se logra esta caracterización aplicando a los coeficientes LARuna función umbral. Para evitar cambios bruscos, se realiza una histéresis tomando encuenta el valor de la envolvente ( flat ) en la subtrama anterior m-1,

( ) ( ) ( )

( ) ( )( ) ( )

( )

=<−>

=>−<

=−

casosotroslosen flat 

 flat  yobienoosi

 flat  yo yosi

 flat m

mmm

mmm

1

121

121

043,052,11

165,074,10

  (4.15) 

Cuando el espectro interpolado para una subtrama se califica de plano( ) 1=m flat  , los factores de ponderación se establecen en 6,094,0 21 == γ  γ   y . Cuando

el espectro se califica de inclinado ( ) 0=m flat  , el valor de 1γ   se establece a 0,98 y el

de 2γ   se adapta a la intensidad de las resonancias en el filtro de síntesis LP, perolimitado entre 0,4 y 0,7. En caso de registrarse una fuerte resonancia, el valor de 2γ   sefija más cerca del límite superior. Esta adaptación se logra en base al criterio de ladistancia mínima entre dos coeficientes LSP sucesivos para la subtrama actual. Ladistancia mínima está dada por:

[ ] 9,...,11min =−= + imínd  ii ω ω    (4.16) 

El valor de 2γ   se calcula mediante la relación lineal:

7,04,0int0,10,6 2min2 ≤≤+−= γ  γ   ervaloelend    (4.17) 

Si se representa la forma del filtro para cada una de estas situaciones, es decir,con 6,094,0 21 == γ  γ   y para el caso en que el espectro resulte plano, y con unos

valores cualesquiera de entre los posibles, por ejemplo 7,098,0 21 == γ  γ   y , para unespectro inclinado:

Page 90: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 90/138

 

Implementación del codificador de voz

78

Figura 35.- Comparación del filtro de ponderación cuando la envolvente se considera plana ycuando se considera inclinada

La señal vocal ponderada en una subtrama está dada por:

40,...,1)()()()(10

12

10

11 =−−−+= ∑∑

==

nk nswak nsansnswk 

k k 

k k  γ  γ     (4.18) 

Figura 36.- Tramo de señal vocal sin ponderar y ponderado en el espacio muestral y enfrecuencia

Page 91: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 91/138

 

Implementación del codificador de voz

79

Si se compara el mismo tramo de la señal vocal sin ponderar y una vezponderado, se aprecia el efecto que tiene la ponderación sobre la señal vocal, queconsiste principalmente en una disminución de la amplitud de los picos y valles de laseñal, sin grandes cambios en la forma de onda.

Figura 37.- Representación señal vocal sin ponderar frente a señal vocal ponderada en el espaciomuestral

Figura 38.- Representación espectro señal vocal sin ponderar frente a espectro señal vocalponderada

Page 92: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 92/138

 

Implementación del codificador de voz

80

La señal vocal ponderada sw(n) se utiliza para estimar el retardo de tono en latrama vocal.

4.2.4  Análisis de tono en bucle abierto

Con el fin de disminuir la complejidad que implica buscar el mejor retardo de latabla de códigos adaptativos, el campo de búsqueda se limita en torno a un retardocandidato Top, que se obtiene de un análisis de tono en bucle abierto. Este análisis detono en bucle abierto se efectúa una vez por cada trama (10 ms). La estimación de tonoen bucle abierto utiliza los valores de la señal vocal ponderada sw(n) de la ecuación4.18, y el método descrito a continuación:

-  como primer paso, se establecen tres máximos de la correlación

∑=

−=80

1

)()()(n

nswnsw R α α    (4.19) 

para los tres rangos siguientes:

i = 1: 81,…,144i = 2: 41,…,80i = 1: 21,…,40

-  Los máximos retenidos R(t i), i = 1,…,3 se normalizan mediante:

3,...,1)(

)()('

2=

−=

∑i

t nsw

t  Rt  R

n i

ii   (4.20) 

-  El ganador de las tres correlaciones normalizadas se selecciona favoreciendoaquellos retardos que presentan valores en la gama inferior. Ello se lograponderando las correlaciones normalizadas correspondientes a los retardos máslargos. El mejor retardo de bucle abierto T op se determina de la siguiente manera:

)(')(' 1

1

t  RT  Rt T 

op

op

==  

si )('85,0)(' 2 opT  Rt  R ≥  

)(')(' 2t  RT  R op =  

2t T op =  

 finsi )('85,0)(' 3 opT  Rt  R ≥  

)(')(' 3t  RT  R op =  

3t T 

op =   fin

Page 93: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 93/138

 

Implementación del codificador de voz

81

El recurso de dividir la gama de retardos en tres secciones para favorecer losvalores menores tiene por objeto evitar la elección de los múltiplos del tonofundamental (pitch).

4.2.5  Cálculo de la respuesta impulsiva

La respuesta a impulsos h(n) del filtro de síntesis ponderado W (z)/  Â(z) senecesita para indagar las tablas de códigos adaptativos y fijos. Se calcula la respuesta deimpulso h(n) para cada subtrama filtrando una señal consistente en los coeficientes delfiltro A(z/ γ1) completado con ceros, a través de ambos filtros 1/  Â(z) y 1/  A(z/ γ2).

El filtro de síntesis y el filtro de síntesis ponderado se muestran en la figura 39.Puede observarse claramente el efecto de la ponderación:

Figura 39.- Filtro de síntesis y filtro de síntesis ponderado

La respuesta impulsiva de este filtro es la siguiente:

Figura 40.- Respuesta impulsiva del filtro de síntesis ponderado

Page 94: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 94/138

 

Implementación del codificador de voz

82

4.2.6  Cálculo de la señal objetivo

La señal objetivo x(n) que se usará como referencia para la búsqueda de la tablade códigos adaptativos suele calcularse restando la respuesta de entrada cero del filtrode síntesis ponderado W (z)/  Â(z) =  A(z/ γ1)/[ Â(z) A(z/ γ2)] de la señal vocal ponderadasw(n) de la ecuación 4.18. Esto se realiza para cada subtrama.

Un procedimiento equivalente para calcular la señal objetivo, que será el queusaremos en este desarrollo, consiste en filtrar la señal LP residual r(n) a través de lacombinación del filtro de síntesis 1/  Â(z) y el filtro de ponderación  A(z/ γ1)/  A(z/ γ2). Trasdeterminar la excitación correspondiente a la subtrama, los estados iniciales de dichosfiltros se actualizan filtrando la diferencia entre las señales residuales y de excitación.La actualización de la memoria de estos filtros se examinará más adelante.

La señal residual r (n), necesaria para determinar el vector objetivo, también se

aplica a la búsqueda de la tabla de códigos adaptativos, para ampliar la memoriaintermedia de la excitación anterior. El recurso simplifica el procedimiento de búsquedade la tabla de códigos adaptativos para retardos menores que el correspondiente a unasubtrama de tamaño 40, como se verá en el siguiente apartado. El residuo LP estádefinido por:

,401,)()()(10

1

…=−+= ∑=

nk nsânsnr k 

k    (4.21) 

Si se calcula el residuo del tramo de voz que se está empleando, se obtiene:

Figura 41.- Residuo LP de un tramo de la señal de voz

La señal objetivo se muestra en la figura 42. Al igual que en el residuo LPtodavía se aprecia la periodicidad de la señal.

Page 95: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 95/138

 

Implementación del codificador de voz

83

Figura 42.- Señal objetivo en el tiempo y en la frecuencia

4.2.7  Búsqueda de la tabla de códigos adaptativos

La tabla de códigos adaptativa se basa en un filtro de síntesis de pitch, que es elresponsable del tratamiento de los efectos de largo plazo. La salida del filtro de pitch óde largo plazo es simplemente la señal de excitación previa retrasada una cierta cantidad(retraso) y escalada con una cierta ganancia.

Los componentes de la tabla de códigos adaptativos representan la periodicidad

de la señal de excitación usando un retraso de pitch fraccionario con una resolución de1/3. El índice y la ganancia de la tabla se encuentran usando una búsqueda en buclecerrado sobre el retraso obtenido en la búsqueda en bucle abierto. La señal a ajustar serála señal objetivo.

Los parámetros de la tabla de códigos adaptativos (o parámetros de tono) son,por tanto, el retardo y la ganancia. Con arreglo al método de la tabla de códigosadaptativos para aplicar el filtro de tono se repite la excitación para retardos menoresque la longitud de la subtrama.

En la fase de reconocimiento, la excitación se amplia mediante el residuo LP,

para simplificar la búsqueda en bucle cerrado. La búsqueda de la tabla de códigosadaptativos se efectúa para cada subtrama (5 ms).

Para cada subtrama, el retardo óptimo se determina mediante un análisis enbucle cerrado que minimiza el error cuadrático medio ponderado. En la primerasubtrama, se determina el retardo T 1 investigando un pequeño intervalo (seis muestras)de valores de retardo en torno al retardo en bucle abierto T op. Los límites de labúsqueda, t min y t max, se definen mediante:

Page 96: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 96/138

 

Implementación del codificador de voz

84

3min −= opT t   

si 20min <t   entonces 20min =t   

6min += t t máx  

si 143>máxt   entonces 

143=máxt   6min −= máxt t   

 fin 

Para la segunda subtrama, el análisis de tono en bucle cerrado se efectúa entorno al tono seleccionado para la primera subtrama, para determinar el retardo óptimo

T 2. El intervalo de búsqueda está limitado entre3

2min −t  y

3

2+máxt  , donde t min y t max se

deducen de T 1 como sigue:

5)int( 1min −= T t   si 20min <t   entonces 20min =t   

9min += t t máx  

si 143>máxt   entonces 

143=máxt   

9min −= máxt t   

 fin 

La búsqueda de tono de bucle cerrado reduce al mínimo el error cuadrático

medio ponderado entre la señal vocal original y la reconstruida. Esto se logra haciendomáximo el término:

=

==40

1

40

1

)()(

)()()(

n

n

n yn y

n yn x R

α α 

α α    (4.22) 

donde x(n) es la señal objetivo e  yα (n) la excitación filtrada anterior en el retardo α (excitación anterior convolucionada con h(n)). Obsérvese que el intervalo de búsquedaestá limitado en torno a un valor preseleccionado, correspondiente al tono en bucle

abierto T op para la primera subtrama y T 1 para la segunda subtrama.

La convolución  yα (n) se calcula para el retardo t min. Para los demás retardosenteros en el intervalo de búsqueda α =t min+1,…,t max, se actualiza mediante la relaciónrecursiva:

1,...,40)()()1()( 1 =−+−= − nnhun yn y α α α    (4.23) 

donde u(n), n = -144,…,40 es la memoria intermedia de excitación e yα-1(-1) = 0. Nóteseque, en la fase de búsqueda, las muestras u(n), n = 1,…,40 no se conocen y se necesitan

para determinar los retardos de tono inferiores a 40. Para simplificar la búsqueda, se

Page 97: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 97/138

 

Implementación del codificador de voz

85

copia el residuo LP a u(n), de modo que la relación expresada en la ecuación (4.23) seaválida para todos los retardos.

Para determinar T 1 y T 2 cuando el retardo en bucle cerrado entero óptimo esinferior a 85, deben probarse las fracciones alrededor del retardo entero óptimo. La

búsqueda de tono fraccionario se realiza interpolando la correlación normalizada de laecuación (4.22) para encontrar su valor máximo. La interpolación tiene lugar medianteun filtro FIR b12 basado en una función sinc de Hamming ventanizada con truncamientoa ± 11 y completando con ceros a ± 12 [b12(12) = 0]. El filtro tiene una frecuencia decorte (-3 dB) a 3600 Hz en el dominio de sobremuestra. Los valores interpolados de

 R(α) para las fracciones -⅔, -⅓, 0, ⅓ y ⅔ se obtienen aplicando la fórmula deinterpolación:

2,1,0)33()1()3()()(3

012

3

012 =+−++++−= ∑∑

==

t it bi Rit bi R Rii

t  α α α    (4.24) 

donde t = 0, 1, 2 corresponde a las fracciones 0, ⅓ y ⅔, respectivamente. Debe tenersepresente la necesidad de calcular los términos de correlación de la ecuación (4.22)utilizando el intervalo entre t min – 4 y t máx + 4, para permitir una interpolación adecuada.

4.2.7.1  Generación del vector de tabla de códigos adaptativos

Una vez determinado el retardo de tono se calcula el vector de tabla de códigosadaptativos v(n) interpolando la señal de excitación anterior u(n) en el retardo entero

dado α  y la fracción t :

2,1,0;40,...,1;)33()1()3()()(9

030

9

030 ==+−++−+++−= ∑∑

==

t nit binuit binunvii

α α 

  (4.25) 

El filtro de interpolación b30 se basa en una función sinc de Hammingventanizada con truncamiento a ± 29 y completando con ceros a ± 30 [ b30(30) = 0]. Elfiltro tiene una frecuencia de corte (-3 dB) a 3600 Hz en el dominio de sobremuestra.

Page 98: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 98/138

 

Implementación del codificador de voz

86

Figura 43.- Filtro de interpolación

4.2.7.2 Cálculo de la palabra de código para retardos de tabla de códigosadaptativos

Los retardos de tono T 1 y T 2 no se envían directamente, sino que se codificanpara enviarlos al decodificador, dos índices P1 y P2 que se obtienen a partir de losretardos fraccionarios, compuestos de su parte entera int (T ) y su parte fraccionaria

 frac/ 3,  frac = -1, 0, 1.

El índice de tono P1 se obtiene de la siguiente manera:

( )

( )

=…=+−

=…=−+−=

0 frac 143],,[86,T1si 19785)1int(

1]0,[-1,frac 85],,[19,T1si 119)1int(31

 fracT P   (4.26) 

El índice de tono T 2 se codifica en relación con el valor de T 1. Aplicando lamisma interpretación arriba indicada, se codifica el retardo fraccionario T 2,representado por su parte entera int (T 2) y una parte fraccionaria frac /3,  frac = -1, 0, 1,sobre la base de:

( ) 2)2int(32 min ++−= fract T P   (4.27) 

donde t min se deriva de T 1, igual que en el apartado 4.2.7.

4.2.7.3 Cálculo de la ganancia de tabla de códigos adaptativos

Después de determinar el retardo de tabla de códigos adaptativos, se calcula laganancia de tabla de códigos adaptativos g p según:

∑∑ =

==40

1

40

1

)()()()(

n

n p

n yn yn yn xg en el intervalo 0 ≤ g p ≤ 1,2 (4.28) 

Page 99: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 99/138

 

Implementación del codificador de voz

87

donde  x(n) es la señal objetivo e  y(n) es el vector de la tabla de códigos adaptativosfiltrado [respuesta al estado cero de W (z)/  Â(z) respecto de v(n)]. Este vector se obtienemediante convolución de v(n) con h(n):

40,...,1)()()(1

=−= ∑=

ninhivn y n

i

  (4.29) 

4.2.8  Tabla de códigos fijos: estructura y búsqueda

La tabla de códigos fijos refleja lo que queda de la señal de voz original una vezse le ha extraído la información del tracto vocal y la del pitch (corto y largo plazo). Sebasa en una estructura de tabla de códigos algebraicos mediante un diseño depermutación de impulso individual intercalado (ISPP, interleaved single-pulsepermutation). En esta tabla, cada vector de la tabla de códigos contiene cuatro impulsosno cero. Cada impulso puede tener amplitudes +1 o -1 y asumir las posiciones queaparecen en el siguiente cuadro:

Impulso Signo Posicionesi0 s0: ±1 m0: 1, 6, 11, 16, 21, 26, 31, 36i1 s1: ±1 m1: 2, 7, 12, 17, 22, 27, 32, 37i2 s2: ±1 m2: 3, 8, 13, 18, 23, 28, 33, 38i3 s3: ±1 m2: 4, 9, 14, 19, 24, 29, 34, 39

5, 10, 15, 20, 25, 30, 35, 40

Tabla 7.- Estructura de la tabla de códigos fijos

El vector de tabla de códigos fijos c(n) se construye tomando un vector dedimensión 40 e introduciendo los cuatro impulsos unitarios en las posicionesencontradas, multiplicadas por su signo correspondiente:

40,...,1)()()()()( 33221100 =−+−+−+−= nmnsmnsmnsmnsnc δ δ δ δ    (4.30) 

donde δ(0) es un impulso unitario. Si se representa el vector de la tabla de códigos fijosdel tramo de voz analizado, se tiene:

Page 100: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 100/138

 

Implementación del codificador de voz

88

Figura 44.- Vector de la tabla de códigos fijos, c(n)

En este caso, los cuatro impulsos tienen signo negativo.

Una característica especial incorporada en la tabla de códigos es que el vector detabla de códigos seleccionado se pasa a través de un prefiltro adaptativo P(z) que amplialos componentes armónicos para mejorar la calidad de las señales vocales reconstruidas.Se utiliza para ello el filtro:

( )T  z zP −−= β 11)( (4.31) 

donde T  es la componente entera del retardo de tono de la subtrama actual y β unaganancia de tono. El valor de β se hace adaptativo aplicando la cuantificación de laganancia de la tabla de códigos adaptativos de la subtrama anterior, es decir:

)1(ˆ −= m pg β  en el intervalo 0,2 ≤ β ≤ 0,8 (4.32) 

El prefiltro adaptativo para el tramo de señal de voz a estudio, que tiene una β de0,2 y una T de 52 (que equivale a una frecuencia de 153,85 Hz):

Figura 45.- Prefiltro adaptativo

Page 101: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 101/138

 

Implementación del codificador de voz

89

Para retardos menores de 40, la tabla de códigos c(n) de la ecuación (4.30) semodifica con arreglo a:

=−+

=

= 40,...,n)()(

1-T0,...,n )(

)( T T ncnc

nc

nc  β    (4.33) 

Esta modificación se incorpora a la búsqueda de la tabla de códigos fijosmodificando la respuesta a impulsos h(n) según:

=−+

==

40,...,n)()(

1-T0,...,n )()(

T T nhnh

nhnh

 β   (4.34) 

4.2.8.1  Procedimiento de búsqueda de la tabla de códigos fijos

La tabla de códigos fijos se explora para hacer mínimo el error cuadrático medioentre la señal de voz ponderada de entrada, sw(n), de la ecuación (4.18) y la señal devoz ponderada reconstruida. Se actualiza la señal objetivo utilizada para la búsqueda deltono en bucle cerrado restando la contribución de la tabla de códigos adaptativos, o sea:

( ) ( ) ( ) 40...,,1=−=′ nn ygn xn x p   (4.35) 

donde ( )n y es el vector de la tabla de códigos adaptativos de la ecuación (4.29) y

 pg corresponde a la ganancia de la tabla de códigos adaptativos de la ecuación (4.28).

Para el caso del tramo de la señal de voz estudiado, la ganancia de la tabla de latabla de códigos adaptativos es cero (g p = 0), por tanto, la señal objetivo actualizada seráigual a la señal objetivo original. Si se toma otro tramo donde esa ganancia no sea 0,

Figura 46.- Comparación señal objetivo y señal objetivo actualizada

Page 102: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 102/138

 

Implementación del codificador de voz

90

Se aprecian pequeñas diferencias en ciertos lugares de la gráfica. Las diferenciasentre una señal y otra no son muy significativas debido a que los valores que toma laganancia de la tabla de códigos adaptativos son pequeños.

La matriz H se define como la matriz inferior de convolución triangular de

Toeplitz con diagonal h(1) y diagonales inferiores h(2), …, h(40).

( )

( ) ( )

( ) ( ) ( )

( ) ( ) ( ) ( )

 

 

 

 

=

1383940

0123

0012

0001

hhhh

hhh

hh

h

 H 

L

MOMMM

L

L

L

  (4.36) 

La matriz Ф=HtH contiene las correlaciones de h(n), mientras que los elementos

de esta matriz simétrica están dados por:

( ) ( ) ( ) 40...,,40...,,1,40

i ji jnhinh ji jn

==−−=Φ ∑=

(4.37) 

La señal de correlación d (n) se obtiene a partir de la señal objetivo  x’(n) y larespuesta a los impulsos h(n) mediante:

( ) ( ) ( ) 40...,,140

=−′= ∑=

nnihi xnd ni

  (4.38) 

Si ck representa el k-ésimo vector de la tabla de códigos fijos, la tabla de códigosse explora para hacer máxima la expresión:

( ) ( )( )k 

t k 

n k 

cc

ncnd 

Φ=

∑ =

240

12

  (4.39) 

donde t denota transposición.

Por tanto, para calcular las posiciones y el signo de cada uno de los cuatroimpulsos que conforman el vector de códigos fijos se va probando con cada una de lasdiferentes opciones que existen para cada uno de ellos, tomando la posición y el signode aquel que maximice la expresión (4.39). Como ejemplo se presenta cómo se obtieneel primero de los impulsos para el tramo de voz estudiado:

Page 103: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 103/138

 

Implementación del codificador de voz

91

Figura 47.- Valores que toma la expresión (4.39) para el rango del primer impulso

Viendo la gráfica, puede apreciarse que la expresión (4.39) tiene su máximo enla posición 31, dentro del rango de posibles valores para el primer impulso, y con signonegativo. Por lo tanto, el vector de códigos fijos tendrá un impulso negativo en laposición 31.

4.2.8.2 Cálculo de palabra de código de la tabla de códigos fijos

Para la codificación de los impulsos se usarán dos palabras código: una para elsigno y otra para la posición de los mismos.

Definiendo s=1 cuando el signo es positivo y s=0 cuando el signo es negativo, lapalabra de código de signo se obtiene de:

4321 842 ssssS +++=   (4.40) 

y la palabra de código de la tabla de códigos fijos se obtiene de:

( ) ( ) ( ) ( )( ) jxmmmmC  ++++= 52512564585 4321 (4.41) 

donde jx = 0 cuando m4 = 4, 8, …, 39, y jx = 1 cuando m4 = 5, 10, …, 40.

4.2.8.3 Cálculo de la ganancia de la tabla de códigos fijos

Se calcula la ganancia de la tabla de códigos fijos a partir de las variables yvectores que se han calculado. La ganancia será equivalente a la expresión utilizada paracalcular la posición y el signo de los impulsos del vector de la tabla de códigos fijos,pero sin elevar el numerador al cuadrado. La expresión de esta ganancia se obtiene en la

parte teórica (apartado 2.4.2) y es:

Page 104: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 104/138

 

Implementación del codificador de voz

92

( ) ( )

k t k 

n k 

c cc

ncnd g

Φ=

∑ =

40

1   (4.42) 

4.2.9  Actualización de la memoria

Es necesario actualizar los estados de los filtros de síntesis y de ponderaciónpara calcular la señal objetivo en la subtrama siguiente. Después de cuantificar las dosganancias, la señal de excitación, u(n), en la subtrama actual se obtiene mediante:

( ) ( ) ( ) 40...,,1ˆˆ =+= nncgnvgnu c p   (4.43) 

donde  pg y cg son las ganancias cuantificadas de las tablas de códigos adaptativos y

fijos respectivamente, ( )nv es el vector de tabla de códigos adaptativos (excitaciónanterior interpolada) y ( )nc es el vector de tabla de códigos fijos que incluye losarmónicos ampliados.

Si se representa la señal de excitación de una subtrama y de toda la ventana queestamos estudiando, se obtiene:

Figura 48.- Señal de excitación de la subtrama y del tramo de la señal de voz

Page 105: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 105/138

 

Implementación del codificador de voz

93

4.3  Descripción de las funciones del decodificador

El principio del decodificador es el siguiente:

-  Se decodifican los parámetros enviados desde el codificador.-  Esos parámetros se usan para calcular la señal de voz reconstruida.-  La señal vocal reconstruida se mejora mediante una operación de

postprocesamiento consistente en un postfiltro, un filtro paso de alta y unescalamiento ascendente.

4.3.1  Procedimiento de decodificación de los parámetros

En nuestro caso, al no haberse realizado codificación de los coeficientes LSP,simplemente se realizó una cuantización lineal, solo habrá que aplicar elprocedimiento de interpolación descrito en el apartado 4.2.5 para obtener dos

conjuntos de coeficientes LSP interpolados (correspondientes a dos subtramas).Para cada subtrama los coeficientes LSP interpolados se convierten encoeficientes ak  del filtro LP, que se utilizan para sintetizar la señal vocalreconstruida en la subtrama.

Figura 49.- Flujo de señales en el decodificador

Page 106: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 106/138

 

Implementación del codificador de voz

94

El proceso de decodificación tiene lugar en el siguiente orden (se repiten lossiguientes pasos para cada subtrama):

1-  Decodificar el vector de tabla de códigos adaptativos2-  Decodificar el vector de tabla de códigos fijos

3-  Decodificar las ganancias de las tablas de códigos adaptativos y fijos4-  Calcular la señal vocal reconstruida

4.3.1.1  Decodificación del vector de tabla de códigos adaptativos

El índice P1 de tabla de códigos adaptativos se utiliza para determinar las partesentera y fraccionaria del retardo de tono T 1. La parte entera y la parte fraccionaria seobtienen a partir de T 1 como se indica a continuación:

( ) ( )

( )

( )

 fin

 frac

PT 

ootrode

T P frac

PT 

Psi

0

1121int

mod

58int31

193 / 21int

1971

1

1

1

=

−=

+−=

++=

<

 

Las partes enteras y fraccionarias de T 2 se obtienen a partir de P2 y t min, dondet min se deriva de T 1 como sigue:

( )

 fin

t t 

entoncest si

t t 

t entoncest si

T t 

9

143

143

9

2020

5int

maxmin

max

max

minmax

minmin

1min

−=

=

>

+=

=<

−=

 

Ahora se decodifica T 2 mediante:

( ) ( )

( )( )13 / 22322

13 / 22int min2

−+−−=

+−+=

PP frac

t PT   (4.44)

El vector de tabla de códigos adaptativos v(n) se encuentra interpolando laexcitación anterior u(n) (en el retardo de tono) mediante la ecuación (4.25, tal y como sedefinió en el apartado 4.2.7.1 (Generación del vector de la tabla de códigos adaptativos).

Page 107: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 107/138

 

Implementación del codificador de voz

95

2,1,0;40,...,1;)33()1()3()()(9

030

9

030 ==+−++−+++−= ∑∑

==

t nit binuit binunvii

α α 

  (4.45) 

4.3.1.2  Decodificación del vector de tabla de códigos fijos

El índice recibido C de tabla de códigos fijos se utiliza para extraer lasposiciones de los impulsos de excitación. Los signos de los impulsos se obtienen a partirde S. Para ello se invierte el proceso descrito en el punto 4.2.8.2.

( ) ( ) ( ) ( )( ) jxmmmmC  ++++= 52512564585 4321 (4.46) 

donde jx = 0 cuando m4 = 4, 8, …, 39, y jx = 1 cuando m4 = 5, 10, …, 40.

Se toma la palabra código y se ve si es un número entero o por el contrario esdecimal. La aportación de los tres primeros impulsos del vector de la tabla de códigosfijos a la palabra código es un número cuya parte decimal es 0.8. Ahora bien, si elcuarto impulso del vector está dentro del rango 4, 9, …, 39, su aportación a la palabrade código será un número con parte decimal 0.2 y, por tanto, la palabra de código seráun número entero. Si por el contrario el cuarto impulso tomara su valor dentro del rango5, 10, …, 40, su aportación a la palabra de código sería un número entero, por lo que lapalabra de código obtenida sería un número no entero y con parte decimal igual a 0.8.Resumiendo, si la palabra de código de la tabla de códigos fijos no es un número entero,entonces m4 = 5, 10, …, 40 y se despejaría su valor exacto del último término de laecuación 4.46. Si, por el contrario, el número es entero, se divide la palabra de códigopor 512 y se busca el número inmediatamente inferior al obtenido con parte decimal 0.8,con el cual se despejaría el valor de m4, con m4 = 4, 9, …, 39.

Se resta a la palabra de código la aportación del cuarto impulso, se divide por 64y se busca el número inmediatamente inferior al obtenido con parte decimal 0.6, quesirve para calcular la posición exacta del tercer impulso m3.

Para el segundo impulso se realiza la misma operación que para el tercero,dividiendo por 8 y buscando un número con parte decimal igual a 0.4. Con el número

resultante de restar a la palabra de código la contribución de los 3 últimos impulsos (m2,m3 y m4 ) se calcula la posición del primer impulso.

En el caso de la palabra de código de signo, que se obtenía:

4321 842 ssssS +++=   (4.47) 

definiendo s=1 cuando el signo es positivo y s=0 cuando el signo es negativo.

Se estudian todos y cada uno de los posibles valores de S (que se encuentranentre 1 y 15) que hacen que el signo de cada uno de los impulsos sea positivo.

Page 108: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 108/138

 

Implementación del codificador de voz

96

Una vez decodificados los signos y las posiciones de los impulsos, se construyeel vector c(n) de tabla de códigos fijos de acuerdo con la ecuación:

40,...,1)()()()()( 33221100 =−+−+−+−= nmnsmnsmnsmnsnc δ δ δ δ    (4.48) 

Si la parte entera del retardo de tono T  es inferior al tamaño de la subtrama,fijado en 40, se modifica c(n) con arreglo a la ecuación:

=−+

==

40,...,n)()(

1-T0,...,n )()(

T T ncnc

ncnc

 β   (4.49) 

Si se dibuja el vector c obtenido para la primera subtrama que se vieneanalizando:

Figura 50.- Vector de tabla de códigos fijos de la subtrama una vez decodificado

Comparando este resultado con el vector obtenido para la misma subtrama(figura 48), puede comprobarse que coinciden, teniendo los impulsos en las mismasposiciones y con los mismos signos.

4.3.1.3  Decodificación de las ganancias

Para nuestro estudio se optó por codificar las ganancias simplemente usando unacuantificación lineal, por lo que no es necesaria la decodificación de las mismas.

4.3.1.4  Cálculo de la señal de voz reconstruida

La excitación u(n) (véase la ecuación (4.43)) entra al filtro de síntesis LP. Laseñal de voz reconstruida para la subtrama está dada por:

Page 109: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 109/138

 

Implementación del codificador de voz

97

( )∑=

=−−=10

1

40...,,1ˆˆ)()(ˆk 

k  nk nsanuns   (4.50)

donde k a son los coeficientes interpolados del filtro LP para la subtrama actual. Si se

representa el tramo de voz:

Figura 51.- Señal de voz reconstruida y espectro de la misma en el decodificador antes de serpostprocesada

Si se pone una señal frente a la otra en la misma gráfica, puede verse como lasdos tienen prácticamente la misma forma de onda, aunque las amplitudes no sonexactamente iguales. Este hecho se corrige, en parte, al realizar el postprocesamiento dela señal reconstruida )(ˆ ns . Este postprocesamiento se describe en el siguiente apartado.

4.3.1.5  Postprocesamiento

El postprocesamiento consta de tres funciones: postfiltrado adaptativo, filtradode paso alto y aplicación de un escalamiento ascendente a las señales. El postfiltroadaptativo es una cascada de tres filtros:

-  Un postfiltro de largo plazo H  p(z)

-  Un postfiltro de corto plazo H  f (z).-  Un filtro de compensación de pendiente H t (z).

Todo ello seguido de un procedimiento de control de ganancia adaptativo.

Los coeficientes del postfiltro se actualizan cada subtrama de 5 ms. El procesode postfiltrado se organiza de la siguiente manera. En primer lugar, la voz reconstruida

)(ˆ ns es filtrada inversamente a través de  Â(z/ γn), produciendo la señal residual )(ˆ nr  .

Esta señal se usa para calcular el retardo T  y la ganancia t g del filtro de largo plazo

 H  p(z). La señal )(ˆ nr  se filtra entonces a través del postfiltro de largo plazo  H  p(z) y el

filtro de síntesis ( )d  f  z Ag γ  ˆ1 . Por último, la señal de salida del filtro de síntesis

Page 110: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 110/138

 

Implementación del codificador de voz

98

( )d  f  z Ag γ  ˆ1 se pasa a través del filtro compensación de pendiente H t (z), para generar

la señal vocal reconstruida postfiltrada sf (n). El control de ganancia adaptativo se aplicaentonces a sf (n) para ajustar la energía de )(ˆ ns . La señal resultante )(n f s ′ pasa por unfiltro de paso alto se escalona para producir la señal de salida del decodificador.

4.3.1.5.1  Postfiltro de largo plazo

El postfiltro de largo plazo está dado por:

( ) ( )T l p

l p p zg

g z H  −+

+= γ  

γ  1

1

1  (4.51) 

donde T es el retardo de tono y gl el coeficiente de ganancia. Obsérvese que gl es comomáximo 1 y que su valor se fija en cero si la ganancia de predicción a largo plazo esinferior a 3 dB. El factor γ p controla la cantidad de postfiltrado a largo plazo y tiene elvalor γ p = 0,5. El retardo y la ganancia a largo plazo se calculan a partir de la señalresidual )(ˆ nr  , que se obtiene al filtrar la señal vocal )(ˆ ns a través de  Â(z/ γn),numerador del postfiltrado de corto plazo (véase el apartado 4.3.1.5.2).

( )∑=

−+=10

1

ˆˆ)(ˆ)(ˆk 

k k n k nsansnr  γ     (4.52) 

El retardo de largo plazo se calcula en dos pasos. El primer paso selecciona elmejor entero T 0 en el intervalo [int (T 1)-1,int (T 1)+1], siendo int (T 1) la parte entera delretardo (transmitido) de tono T 1 en la primera subtrama. El retardo entero mejor es elque hace máxima la correlación:

( ) ( )∑=

−=40

1

ˆˆ)(n

nr nr  R α α    (4.53) 

El segundo paso selecciona el mejor retardo fraccionario T con una definición de1/8 en torno a T 0. Esto se obtiene buscando el retardo con la mayor correlaciónpseudonormalizada:

( ) ( )

( ) ( )∑

=

==′40

1

40

1

ˆˆ

ˆˆ)(

n

n

nr nr 

nr nr  R

α α 

α α    (4.54) 

donde ( )nr α ˆ es la señal residual en el retardo α. Obtenido el retardo óptimo T , la

correlación correspondiente R´(T ) se normaliza respecto de la raíz cuadrada de laenergía de ( )nr  . El cuadrado de esta correlación normalizada se utiliza para determinarsi el postfiltro de largo plazo debe desconectarse. Para ello se introduce gl = 0 cuando:

Page 111: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 111/138

 

Implementación del codificador de voz

99

( ) ( )5,0

ˆ

)(40

1

2

<′

∑ =nnr nr 

T  R  (4.55) 

De otro modo, el valor de gl se calcula a partir de:

( ) ( )

( ) ( )0,10int

ˆˆ

ˆˆ40

1

40

1 ≤≤=∑∑

=

=l

n

nl gervaloelen

nr nr 

nr nr g

α α 

α   (4.56) 

La señal retardada no entera ( )nr α ˆ es el primer valor calculado mediante un

filtro de interpolación de longitud 33. Después de seleccionar T , se calcula de nuevo( )nr α ˆ mediante un filtro de interpolación más largo, de longitud 129. La nueva señal

reemplaza a la anterior solamente en el caso en que el filtro más largo aumente el valorde R´(T ).

Para el caso del tramo de voz que se está analizando el coeficiente de gananciaes cero, ya que el retardo de la señal es mayor de 40, por lo que el postfiltro de largoplazo es un filtro de con valor la unidad en todo la banda. Se puede deducir que elpostfiltro de largo plazo solo tendrá valor distinto de 1, es decir, solo será efectivo,cuando el retardo de la señal esté por debajo de 40, lo que equivale a tener unafrecuencia por encima de los 200 Hz.

4.3.1.5.2  Postfiltro de corto plazo

El postfiltro de corto plazo está dado por:

( )( )

( ) ∑∑

=

=

+

+==

10

1

10

1

ˆ1

ˆ11ˆ

ˆ1

k k 

k d 

k k 

k n

 f d 

n

 f  f 

 za

 za

g z A

 z A

g z H 

γ  

γ  

γ  

γ    (4.57)

donde  Â(z) es el filtro LP inverso cuantificado recibido (no hay análisis LP en eldecodificador), mientras que los factores nγ   y d γ   controlan la cantidad de postfiltrado

de corto plazo, fijándose en 55,0=nγ   y 7,0=d γ   . El término de ganancia  f g se

calcula en la respuesta a los impulsos truncada )(nh f  del filtro ( ) ( )d n z A z A γ  γ  ˆˆ

yviene dado por:

( )∑=

=20

1n f  f  nhg   (4.58)

Page 112: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 112/138

 

Implementación del codificador de voz

100

Figura 52.- Respuesta impulsiva truncada del filtro ( ) ( )d n z A z A γ  γ   ˆˆ  

Figura 53.- Postfiltro de corto plazo para la subtrama de estudio

4.3.1.5.3  Compensación de la pendiente

El filtro ( ) z H t  compensa la pendiente en el postfiltrado de corto plazo ( ) z H f  y

viene dado por:

( ) ( )111

1 −′+= zk g

 z H  t t 

t  γ     (4.59) 

donde 1k t  ′γ   es el factor de pendiente, siendo 1k ′ el primer coeficiente de reflexión

calculado a partir de ( )nh f  para:

Page 113: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 113/138

 

Implementación del codificador de voz

101

( )

( )1

21

h

h

r k  −=′   ( ) ( ) ( )∑

=

+=i

 j f  f h i jh jhir 

20

1

  (4.60) 

El término de ganancia 11 k g t t ′−= γ   compensa el efecto decreciente de  f g en

( ) z H f  . Se ha visto además que el filtro producto ( ) ( ) z H  z H  t  f  no suele generarganancia. Dos valores de t γ   se aplican según el signo de 1k ′ . Cuando 1k ′ es

negativo, 9.0=t γ   , cuando 1k ′ es positivo, 2.0=t γ   .

Figura 54.- Filtro de compensación de la pendiente para la subtrama estudiada

4.3.1.5.4  Control de ganancia adaptativo

Se aplica el control de ganancia adaptativo para compensar las diferencias deganancia entre la señal vocal reconstruida )(ˆ ns y la señal postfiltrada sf (n). El factor deescala de ganancia G para la subtrama actual se calcula mediante:

( )

( )∑∑

=

==40

1

40

n

n

nsf 

nsG   (4.61) 

La señal de ganancia postfiltrada a escala )(n f s ′ está dada por:

( ) ( ) 40...,,1)( ==′ nnsf gn f s n   (4.62) 

donde ( )ng se actualiza para cada muestra y su valor está determinado por:

( ) ( ) 40...,,115,085,0 1 =+= − nGgg nn   (4.63) 

Se utiliza el valor inicial de ( ) 0,10

=g . Seguidamente, para cada nueva subtrama,( )0g se iguala a ( )40g de la subtrama anterior.

Page 114: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 114/138

 

Implementación del codificador de voz

102

Veamos el efecto que tiene este postprocesamiento sobre la señal de vozcomparando la señal antes de realizar el postprocesamiento y una vez realizado éste:

Figura 55.- Comparación entre la señal de voz reconstruida en el decodificador antes y despuésdel postprocesamiento

4.3.1.5.5  Filtrado de paso alto y escalamiento ascendente

Se aplica un filtro de paso alto con una frecuencia de corte 100 Hz a la señal devoz postfiltrada reconstruida )(n f s ′ . El filtro viene dado por:

( )21

21

2 93589199,09330735,11

93980581,08795834,193980581,0−−

−−

+−

+−=

 z z

 z z z H h   (4.64) 

Figura 56.- Filtro paso alto

Page 115: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 115/138

 

Implementación del codificador de voz

103

La señal filtrada se multiplica por 2 para restaurar el nivel de la señal de entrada.

Por último, se compara la señal de entrada que se introdujo en el codificador y laseñal de salida obtenida una vez realizada la decodificación.

Figura 57.- Tramo de voz original

Figura 58.- Tramo de voz una vez decodificado

Page 116: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 116/138

 

Implementación del codificador de voz

104

Las dos señales tienen una periodicidad evidente. No debe olvidarse que eltramo de voz elegido pertenece a un sonido vocálico. En la señal de voz original laperiodicidad es más marcada, siendo el tramo que se repite prácticamente igual en cadarepetición. En la señal decodificada también se observa esta periodicidad, si bien eltramo que se repite no es exactamente igual en cada repetición, aunque conserva los

picos de la señal original en las mismas posiciones. Este hecho puede apreciarse conmás detalle si se superponen las dos señales en una misma gráfica, tal y como se hace enla figura 59:

Figura 59.- Comparación tramo de voz original y decodificado

Si se realiza el mismo proceso para la señal en la frecuencia, poniendo en primerlugar el espectro de la señal de voz original, a continuación el de la señal de vozdecodificada y, por último, superponiendo las dos señales en la misma gráfica. Puedeverse cómo el espectro y la envolvente de las dos señales es prácticamente la mismateniendo magnitudes similares para cada frecuencia. Al mismo tiempo se aprecia quelos picos del espectro de la señal decodificada son más finos que los de la señal original,estando situados más o menos en las mismas posiciones, lo cual queda de manifiesto enla figura 62.

Page 117: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 117/138

 

Implementación del codificador de voz

105

Figura 60.- Espectro señal de voz original

Figura 61.- Espectro de la señal reconstruida (salida decodificador)

Page 118: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 118/138

 

Implementación del codificador de voz

106

Figura 62.- Comparación espectros de señal de voz original y señal de voz reconstruida a lasalida del decodificador

Page 119: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 119/138

 

Simulaciones

107

5  Simulaciones

Una buena parte de las simulaciones se ha ido realizando a medida que se ibaimplementando el codificador, verificando en cada punto la evolución de la señal devoz, así como los diferentes filtros y señales que intervienen en cada uno de los puntosdel procesado de la señal de voz.

Para comprobar cómo de bien actúa el codificador que se ha implementado antediferentes hablantes (con diferentes frecuencias de pitch) se tomarán dos frases: laprimera de una voz masculina y la segunda de una femenina, y se estudiarán losresultados obtenidos en el espacio muestral, así como los espectrogramas y el pitch paracada una de ellas. Por último, se ha probado a introducir en el codificador una señal deaudio para ver cómo de bien son codificadas este tipo de señales.

En primer lugar se analizará la frase “Tengo una casa en el campo”, pronunciadapor un hombre. En las siguientes figuras se muestran las representaciones de la señal deentrada al codificador y de salida del decodificador en el espacio muestral.

Puede apreciarse cómo la señal de entrada al codificador (figura 63) y la señal desalida del decodificador (figura 64) son bastante similares, Con lo cual se puede decirque la forma de onda de las señales se ha modelado correctamente. Ahora bien, esto noes demasiado significativo, ya que a veces, aunque las señales no se parezcan en eltiempo, sí tienen las mismas características y, por lo tanto, suenan parecidas.

Para analizar más detenidamente las características de las señales se usará elespectrograma de las mismas, que permitirá conocer si tienen las mismas característicasen la frecuencia. La representación de los espectrogramas de las señales de entrada alcodificador (señal de voz original) y la de salida del decodificador se muestran en lasfiguras 65 y 66. Comparando los dos espectrogramas de las señales puede verse cómo laforma de onda en los dos casos es prácticamente la misma, confirmando lo

Page 120: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 120/138

 

Simulaciones

108

anteriormente avanzado en el análisis muestral de las señales. Con esto, se puedeconcluir que el tracto vocal se ha modelado correctamente.

Figura 63.- Señal de entrada de voz masculina en el espacio muestral

Figura 64.- Señal de salida de voz masculina en el espacio muestral

Page 121: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 121/138

 

Simulaciones

109

Figura 65.- Espectrograma de la señal de voz masculina original

Figura 66.- Espectrograma de la señal de voz masculina a la salida del decodificador

Page 122: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 122/138

 

Simulaciones

110

Figura 67.- Señal de voz masculina de entrada: contorno de pitch, espectrograma yrepresentación temporal

Figura 68.- Señal de voz masculina de salida: contorno de pitch, espectrograma y representacióntemporal

Page 123: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 123/138

 

Simulaciones

111

Si en estas representaciones se estudia el pitch de la señal, se comprueba queéste se aprecia mucho mejor en la señal original, apareciendo de una manera menosclara en la señal decodificada, con lo que no puede asegurarse que sea igual en las dosseñales.

A continuación se realizará un estudio del pitch de la señal para comprobar querealmente la señal obtenida tras la decodificación conserva el mismo pitch que la señaloriginal, es decir, que esta información no se ha perdido en el proceso de codificación ydecodificación. Esto se comprobará utilizando el programa wavesurf v.0.9.5, quepermite analizar el pitch de la señal.

Si se toma la señal de entrada y se analiza mediante el programa mencionado yse representa el contorno del pitch de la señal, su espectrograma y su representacióntemporal se obtienen las gráficas de la figura 67. Realizando el mismo proceso para laseñal de salida se obtienen las representaciones de la figura 68.

Para apreciar mejor las modificaciones que haya podido sufrir el pitch de laseñal tomaremos las representaciones del contorno de pitch de las dos señales y lascompararemos. Observando las figuras 69 y 70 puede verse que, a pesar de que existenpequeñas variaciones en el contorno de pitch de la salida respecto del de la entrada,ambas siguen más o menos la misma trayectoria y con unas frecuencias de pitchsimilares, por lo que se podría decir que el pitch de la señal de entrada se mantiene trasla decodificación, si bien el codificador no consigue extraerlo con total precisión,perdiéndose de vez en cuando.

Figura 69.- Contorno de pitch de la señal de voz masculina de entrada

Figura 70.- Contorno de pitch de la señal de voz femenina de salida

A continuación se realizará el mismo proceso (se representarán las señales devoz original y una vez decodificada en el espacio muestral, sus espectrogramas y seanalizará el pitch mediante el programa wavesurfer v.0.9.5) con otra señal de voz, esta

vez pronunciada por una mujer, para corroborar los datos obtenidos en estassimulaciones. En esta ocasión se utilizará la señal de voz “Mi casa es muy bonita”.

Page 124: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 124/138

 

Simulaciones

112

Figura 71.- Señal de voz femenina de entrada en el espacio muestral

Figura 72.- Señal de voz femenina de salida en el espacio muestral

Page 125: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 125/138

 

Simulaciones

113

Figura 73.- Espectrograma de la señal de voz femenina original

Figura 74.- Espectrograma de la señal de voz femenina a la salida del decodificador

Page 126: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 126/138

 

Simulaciones

114

Figura 75.- Señal de voz femenina de entrada: contorno de pitch, espectrograma yrepresentación temporal

Figura 76.- Señal de voz femenina de salida: contorno de pitch, espectrograma y representacióntemporal

Page 127: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 127/138

 

Simulaciones

115

Se puede observar como para una voz femenina el análisis de los resultadosobtenidos es prácticamente el mismo que para la voz masculina. Al igual que se hizocon esta última se representará el pitch de cada una por separado para poder hacer unamejor comparación.

Figura 77.- Contorno de pitch de la señal de voz femenina de entrada

Figura 78.- Contorno de pitch de la señal de voz femenina de salida

Como ocurría para el caso de una voz masculina, el pitch de la señal de salida seasemeja bastante, salvo ciertas desviaciones, al de la señal original, manteniendoprácticamente niveles de frecuencia similares.

Además, si se comparan los resultados obtenidos para el pitch en los dos casos,se ve que para la voz masculina la frecuencia de pitch ronda los 150 Hz y en lafemenina está más o menos por los 250 Hz, muy por encima de la del hombre, comogeneralmente suele ocurrir.

Por último, vamos a introducir una señal de audio en el codificador para vercómo se comporta el mismo ante este tipo de señales. En las figuras 79 y 80 serepresentan las señales de entrada y salida del sistema en el espacio muestral. En lasfiguras 81 y 82 se hace lo propio con los espectrogramas de las dos señales.

Page 128: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 128/138

 

Simulaciones

116

Figura 79.- Señal de audio de entrada en el espacio muestral

Figura 80.- Señal de audio de salida en el espacio muestral

Page 129: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 129/138

 

Simulaciones

117

Figura 81.- Espectrograma de la señal de audio original

Figura 82.- Espectrograma de la señal de audio a la salida del decodificador

Page 130: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 130/138

 

Simulaciones

118

Puede observarse cómo, al igual que ocurría con las señales de vozanteriormente analizadas, tampoco en las señales de audio se aprecia si se mantiene o noel pitch de la señal original, por lo que es necesario realizar el estudio del contorno depitch para poder asegurar que se mantiene (figuras 83 y 84).

Figura 83.- Contorno de pitch de la señal de audio de entrada

Figura 84.- Contorno de pitch de la señal de voz audio de salida

Prácticamente se puede apreciar lo mismo que para las señales de voz. El pitchde la señal de audio de salida toma valores de frecuencia en el mismo rango que la señalde entrada, existiendo variaciones más notables que para las observadas para las señalesde voz.

Si se escucha la señal a la salida, ésta se encuentra muy distorsionada conrespecto a la original y que, si bien sigue siendo inteligible, tiene mucho ruido einterferencias. Con esto podemos concluir que el codificador implementado estáespecíficamente diseñado para trabajar con señales de voz y aunque puede trabajar conseñales de voz, la calidad obtenida es muy pobre.

Page 131: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 131/138

 

Conclusiones

119

6  Conclusiones

En el apartado 1 se ha realizado una introducción al mundo de la voz, estudiandolas señales de voz y sus características y propiedades más importantes y analizando cadauna de ellas con más detalle. Se ha definido el concepto de codificación, evidenciandola importancia que tiene en las comunicaciones en la vida actual, explicando laevolución que ha experimentado este campo desde la introducción de la codificación

PCM y comentando algunos de los avances que se han ido introduciendo.

Se han visto las propiedades más importantes de los codificadores de voz, queson las que los caracterizarán y los harán mejor ó peor en comparación con los demás.Estas características son la tasa de bit, el retraso, la complejidad y la calidad de la señalde salida. Se han presentado los diferentes tipos de codificadores que existen (de formade onda, vocoders e híbridos), comentando sus particularidades y el funcionamiento delos más destacados dentro de cada tipo. Por último, se han identificado los tipos decodificadores ó estándares empleados en las redes de comunicación existentes en laactualidad, presentando, además, una tabla resumen comparando los más usados.

En el apartado 2 se ha realizado una revisión teórica de los conceptos másrelevantes que se usarán en la implementación del codificador, analizando los conceptosbásicos de la predicción lineal, los coeficientes LSF, la codificación mediante análisispor síntesis y los codificadores CELP.

En primer lugar se estudia la codificación mediante predicción lineal, que es labase de casi todos los estándares de codificación de voz aprobados en los últimos años.En ella la muestra de voz actual se predice a partir de una combinación lineal demuestras anteriores. El método utilizado para su resolución (obtención de loscoeficientes del filtro de predicción lineal) ha sido el de autocorrelación, mediante elalgoritmo de Levinson-Durbin.

Page 132: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 132/138

 

Conclusiones

120

Se introducen los coeficientes LSF (coeficientes espectrales de línea). Son unarepresentación paramétrica alternativa de los coeficientes de predicción lineal, queposeen una serie de características que los hacen muy apropiados para la transmisión deinformación de codificador a decodificador. Las propiedades más importantes de estoscoeficientes son: tener un rango limitado, orden secuencial de los parámetros, simple

revisión de la estabilidad del filtro y una sensibilidad espectral localizada, comprobandocada una de estas propiedades. También se incluye el proceso de conversión decoeficientes de predicción lineal a coeficientes LSF.

La codificación mediante análisis por síntesis usa el mismo filtro de síntesis queen el análisis LPC, pero se optimiza cuidadosamente la señal de excitación. Se sintetizala señal de voz en el codificador, es decir, el decodificador se incluye en el codificador,minimizando el error porcentual ponderado entre la señal de voz original y lasintetizada. Consta de un generador de excitación, un filtro de síntesis (pueden ser 2:uno de corto plazo ó de predicción lineal, que elimina la contribución del tracto vocal yuno de largo plazo ó de pitch, que elimina el pitch ó la redundancia que queda tras la

eliminación de la contribución del tracto vocal) y un minimizador de error que optimizala señal de excitación. Se ha verificado todo esto proceso tomando una señal de voz,pasándola por los diferentes bloques del codificador y comprobando cómo se vaeliminando la información de la señal hasta quedar una señal prácticamente aleatoria.

En los codificadores CELP (“Code Excited Linear Prediction”) las tramas de laseñal de excitación se modelan por un vector gaussiano elegido de una tablaminimizando el error ponderado entre la señal de voz original y la sintetizada.

La ITU es la Unión Internacional de Telecomunicaciones y la ITU-T, la parte dela misma que se ocupa del sector de las telecomunicaciones. Esta entidad establece unaserie de recomendaciones, que son acuerdos entre un segmento de la industria, pero noson de obligado cumplimiento. La recomendación en la que se basa el presente estudioes la G.729 (Codificación de la voz a 8 kbit/s mediante predicción lineal con excitaciónpor código algebraico de estructura conjugada). Se contempla cómo se creó larecomendación, quiénes fueron los artífices de su elaboración, el calendario que sesiguió y los objetivos y requerimientos perseguidos, que eran básicamente obtener uncodificador que trabajase a 8 kbit/s con unas características equivalentes o inclusomejores a las del codificador de la recomendación G.726, que trabaja a 32 kbit/s. Lacalidad obtenida por el mismo es buena, teniendo en cuenta su tasa de bit. En la figura85 puede verse su relación calidad-tasa de bit comparada con la de otros codificadores

del mercado.

La principal innovación de este codificador frente a otros del mismo tipo es lautilización de una estructura de códigos conjugada, lo cual le otorga una mayor robustezfrente a errores en el canal y reduce la memoria necesaria y la complejidad de lasbúsquedas en la tabla. También se incluyen en el apartado las aplicaciones que tiene elcodificador y las modificaciones más importantes introducidas en el mismo en forma deanexos.

Por último se ha implementado en Matlab un codificador basado en el de larecomendación G.729, dejando para posteriores estudios temas como la cuantización y

envío de parámetros del codificador al decodificador

Page 133: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 133/138

 

Conclusiones

121

Figura 85.- Comparación de calidad para diferentes codificadores

Al igual que el codificador de la recomendación el codificador implementadoestá diseñado para trabajar con señales digital, por tanto, hay que efectuar primero unfiltrado con la anchura de la banda telefónica de la señal analógica de entrada, seguidode un muestreo a 8000 Hz y su conversión a una modulación por impulsos codificados(MIC) lineal de 16 bits, para entrar en el codificador. La salida del decodificador sereconvierte a una señal analógica siguiendo un método similar. La señal se divide entramas de 10 ms, que equivale a 80 muestras, y subtramas de 5 ms. Una vez en elcodificador, las señales de voz son pasadas por un filtro paso alta y puestas a escala parasu procesamiento.

En primer lugar se realiza un análisis de predicción lineal sobre las tramas paramodelar el tracto vocal de la señal, de donde se extraen dos juegos de coeficientes LSF,uno para cada una de las subtramas.

El siguiente paso es el análisis de la excitación, que se realiza separadamente

para cada subtrama. En cada una, la excitación se representa como la suma de doscomponentes. La primera es la versión retrasada de la excitación usada hasta esemomento, y la segunda una señal con cuatro impulsos en diferentes posiciones. Alprimer componente se le denomina contribución de la tabla de códigos adaptativos ymodela la periodicidad de la señal de voz. Este retraso es en realidad el retraso de pitchde la señal de voz. La segunda parte de la excitación se conoce como contribución de latabla de códigos fijos, que recoge la secuencia de excitación que queda una vezeliminadas las contribuciones de los términos de corto y largo plazo.

A la vez que se ha ido implementando el codificador se han ido representandolos distintos filtros y señales que intervienen en el proceso, así como las modificaciones

que se van realizando a la señal de voz de entrada para la extracción de los parámetros.

Page 134: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 134/138

 

Conclusiones

122

Para cada subtrama se calcula un número fijo de parámetros: retraso de pitch,ganancia de la tabla de códigos adaptativos, la excitación de la tabla de códigos fijos(consistentes en las posiciones y signos de los impulsos) y la ganancia de la tabla decódigos fijos. Estos parámetros son cuantizados y enviados al decodificador. El modode transmisión de los mismos queda fuera de este estudio. Una vez en el decodificador,

los datos son extraídos y la señal de voz es reconstruida siguiendo los mismos pasos queen el codificador, pero a la inversa.

Se han realizado diversas simulaciones para comprobar la eficiencia delcodificador implementado, probando con voces masculinas y femeninas, estudiando losresultados obtenidos en tiempo y frecuencia, así como sus espectrogramas y contornosde pitch. Al analizar los resultados de las simulaciones, se ha observado lo siguiente:

- El sistema propuesto modela bastante bien el tracto vocal de la señal. Si secontemplan las formas de onda de las señales de entrada y salida en losespectrogramas de las diferentes simulaciones, se puede ver que son muy similares.

Esto es lógico ya que esta parte se modela mediante predicción lineal sin introducirninguna modificación.

- Al realizar un análisis del pitch de las dos señales se ha comprobado que a primeravista no es tan fácil asegurar que el pitch sea igual en las dos, ya que en todos losespectrogramas de los distintos experimentos el pitch de la señal original se apreciacon bastante más nitidez que en el de la señal decodificada, donde simplemente seintuye. Realizando un análisis más detallado (se ha usado el programa wavesurferv.0.9.5, que permite representar el contorno de pitch de las señales), se compruebacómo el pitch de las dos señales es parecido, salvo pequeñas variaciones. Por tanto,si bien la extracción del pitch de la señal no es perfecta, a grandes rasgos se puededecir que se mantiene el pitch de la señal de entrada.

- Si bien al escuchar las dos señales se aprecia una cierta degradación de la señal devoz original, típica en este tipo de codificadores, la señal continúa siendo inteligibley puede identificarse al hablante como el de la señal original.

Por último se ha probado a introducir una señal de audio en el codificador paraprobar cómo de bien trabaja el sistema implementado con otro tipo de señales. Losresultados obtenidos bastantes pobres, escuchándose la señal a la salida muydistorsionada, a pesar de conservar algunas de las características de la señal original.

Esto confirma que el codificador implementado está específicamente diseñado para suuso con señales de voz.

Con todo esto, podemos concluir que el codificador implementado consigue unacalidad de sintetización de la señal de voz aceptable, si bien está por debajo de laobtenida en el codificador de la recomendación G.729

Page 135: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 135/138

 

Líneas futuras de investigación

123

7  Líneas futuras de investigación

Como posibles líneas para futuras investigaciones se proponen las siguientes:

- Implementación del codificador estudiado en un procesador digital de señal(DSP).

- Estudio de la cuantización vectorial y su aplicación a la codificación de lasdiferentes variables que se transmiten desde el codificador al decodificador.

- Inclusión del codificador dentro de un esquema de compresión de silencios,implementando un detector de actividad vocal (VAD) y un generador de ruidocomfort (CNG).

Page 136: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 136/138

 

Líneas futuras de investigación

124

Page 137: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 137/138

 

Bibliografía

125

Bibliografía

- Recomendación G.729: “codificación de la voz a 8 kbit/s mediante predicciónlineal con excitación por código algebraico de estructura conjugada” ITU-T 03/96

- Federico Miraya, “La voz humana”, 2000

- Richard V. Cox and Peter Kroon, “Low bit-rate speech coders for multimediaCommunication”, 1996

- Gene Lew, “VoIP overview for operators”, may 2005

- Boneung Koo, “Speech”, 2002 CRC Press LLC

- Luis Hernando Gómez, Eduardo López Gonzalo, Luis Villarrubia Grande y IsmaelCortázar Mújica, “Reconocimiento de voz en el entorno de las nuevas redes decomunicación UMTS e Internet”, Noviembre 2001

- W T K Wong, R M Mack, B M G Cheetham and X Q Sun, “Low rate speech codingfor communications” BT Technol J Vol 14 No 1 January 1996 (pag 30)

- A.M. Kondoz, “Digital Speech: coding for low bit rate communication systems”,Wiley, 1994

- Itakura F., “Line spectrum representation of linear predictive coefficients of speechsignals” 1975

- “Transactions on speech and audio processing”, vol.4 NO 6, November 1996 of theIEEE

- Akitosi Kataoka, Takehiro Moriya and Shinji Hayashi, “An 8 kb/s ConjugateStructure CELP (CS-CELP) Speech Coder”, 2001

- Fang Zheng, Zhanjiang Song and Ling Li, “The distance measure for line spectrumpairs applied to speech recognition”, 1999

- Design and description of CS-ACELP: a toll quality 8 kb/s speech coder”, publishedin “Transactions on speech and audio processing” of the IEEE, vol.6 NO 2, Marzo1998.

- Climent Nadeu, “Representación de la voz en el reconocimiento del habla”, 2004,http://www.imim.es/quark/num21/021063.htm

- Verkatraman Atti and Andreas Spanias, “On-line simulation modules for teachingspeech and audio compression techniques”. November 2003

- Erwin Janssen and Cornelis H. Slump, “Evaluation of a new design approach fornext generation mobile multi-media terminals”, 2001

- Verkatraman Atti and Andreas Spanias, “A simulation tool for introducing algebraicCELP (ACELP) coding concepts in a DSP course”, 2002

- S. Grassi, L. Besacier, A. Dufaux, M. Ansorge and F. Pellandini, “Influence of gsmspeech coding on the performance of text-independent speaker recognition”, 2000

- Dr. Noor M. Sheikh, “Real time implementation and optimization of ITU-T’s G.729Speech Codec running at 8 kbits/sec using CS-ACELP on Tm-1000 VLIW DSPCPU”, 2001

Page 138: Tesis - Estudio y Simul de Codif G729

5/10/2018 Tesis - Estudio y Simul de Codif G729 - slidepdf.com

http://slidepdf.com/reader/full/tesis-estudio-y-simul-de-codif-g729 138/138

 

Bibliografía

- Haribalaji Kumar and Krishman Sundaresan, “Implementation of the Code ExcitedLinear Predictive (CELP) Codec for VoIP”, 2000

- Ozgu Ozun, Phillip Steurer and Daniel Thell, “Wideband speech coding with linearpredictive coding (LPC)”, 2002

- A.Tripathi, S. Verma and D. Gajski, “G.729E Algorithm Optimization forAMR926EJ-S Processor”, 2003

- Jonathan D.Rosenberg, “G.729 Error recovery for Internet telephony”

- Miguel Ángel Gutiérrez Galindo, Bernabé Rufino Salvador, “Desarrollo de uncompresor LPC de voz de tiempo real”, 2001

- Sami Lemmetty, “Review of Speech Synthesis Technology”, 1999

- A.S. Spanias, “Specch Coding: A tutorial Review”, Proc.IEEE, vol. 82, Oct. 1994

- J.P. Adoul, P. Mabilleau, M. Delprat and S. Morisete, “ Fast CELP coding based onalgebraic codes”, IEEE, Abril 1987