Transmisión de La Voz

7/17/2019 Transmisión de La Voz

http://slidepdf.com/reader/full/transmision-de-la-voz 1/14

Transmisión de la Voz

l sonido humanamente audible consiste en ondas sonoras que producenoscilaciones de la presión del aire, que son convertidas en ondas mecánicas en el

oído humano y percibidas por el cerebro. La propagación del sonido es similar

en los fluidos, donde el sonido toma la forma de fluctuaciones de presión. En los

cuerpos sólidos la propagación del sonido involucra variaciones del estado tensional del

medio.

La propagación del sonido involucra transporte de energía sin transporte de materia, en

forma de ondas mecánicas que se propagan a través de la materia sólida, líquida o

gaseosa. Como las vibraciones se producen en la misma dirección en la que se propaga

el sonido, se trata de una onda longitudinal.

Si la temperatura ambiente es de 15 °C, la velocidad de propagación del sonido es

340 m/s (1224 km/h ). Este valor corresponde a 1 MACH.

Las cualidades o parámetros que permiten diferenciar un sonido de otro son intensidad ,

timbre, duración y tono.

Intensidad : La intensidad del estímulo auditivo se mide en decibelios (dB o dbs). Si

tenemos en cuenta que el «umbral» es el punto a partir del cual una persona empieza a

ser consciente de una sensación, podemos definir el «umbral auditivo» como la

intensidad mínima que necesita una persona para empezar a oír, y el «umbral de dolor»

como la intensidad máxima que es capaz de soportar su oído. Entre estas dos

intensidades se encuentra el umbral de confort, desde donde tendremos la sensación más

cómoda y agradable de estimulación sonora.

Timbre : Esta cualidad nos va a permitir identificar dos fuentes sonoras diferentes.

Duración : Permite diferenciar entre un sonido corto y un sonido largo cuando el resto

de sus cualidades o parámetros son idénticos.

Tono : Permite la distinción entre un sonido grave y otro agudo. Las frecuencias agudas

nos permiten mejorar la discriminación de los fonemas del habla, y las frecuenciasgraves permiten captar los parámetros esenciales del habla como ritmo y entonación.

El oído humano percibe aquellos sonidos cuyas frecuencias se encuentran entre 20 y

20.000 vibraciones por segundo (frecuencias audibles). La frecuencia se mide en ciclos

por segundo y se expresa en hercios (Hz). El rango de frecuencias conversacionales de

la voz humana está entre 250 y 3.000 Hz, si bien algunos fonemas se encuentran

situados entre los 4.000 y los 8.000 Hz.

E



La Voz Humana

La voz masculina tiene un tono fundamental de entre 100 y 200 Hz, mientras que la voz

femenina es más aguda, típicamente está entre 150 y 300 Hz. Las voces infantiles son

aún más agudas. Sin el filtrado por resonancia que produce la cavidad buco nasal

nuestras emisiones sonoras no tendrían la claridad necesaria para ser audibles. Ese

proceso de filtrado es precisamente lo que permite generar los diversos formantes de

cada unidad segmental del habla.

La voz humana está compuesta por ondas acústicas que viajan a través del aire a la

velocidad del sonido, esto es a 1,244 Km/h (o 340 m/s). Pero esta rapidez no significa

que me pueda comunicar fácilmente con puntos distantes pues la voz humana se atenúa

rápidamente, perdiendo energía a medida que viaja. Luego de unos pocos metros ya no

podemos escuchar una conversación.

La voz humana por tanto es de la misma naturaleza que el resto de ondas acústicas y

esto ya se conocía desde antes de la invención del teléfono.

Antes de la invención del teléfono también se conocía que existían otros tipos de ondas

llamadas ondas eléctricas que podían ser transmitidas a través de un conductor metálicocomo un cable de cobre. Este segundo tipo de ondas es de una naturaleza diferente a las

ondas acústicas y viaja a la velocidad de la luz, es decir aproximadamente 300,000

km/s. Es decir, más de lo que podamos imaginar; casi instantáneamente desde un punto

de vista terrenal. Adicionalmente podemos controlar la atenuación de estas ondas y

hacerlas viajar por grandes distancias.

Con estos hechos conocidos ya a mediados del siglo 19 es más fácil comprender que

muchos persiguieran la idea de transformar las ondas acústicas en ondas eléctricas para

así poder transmitirlas luego a grandes distancias a través de conductores metálicos. La

cuestión es que había que inventar un dispositivo para hacer dicha transformación y allí

estaba la clave del asunto. Este dispositivo, conocido como micrófono en nuestros díases una parte importante de cualquier aparato telefónico.

http://elastixtech.com/fundamentos-de-telefonia/transmision-de-la-voz/rango-audible/



Rango de frecuencias de la voz humana

Otra característica importante de la voz humana es que las cuerdas vocales modulan la

voz en un amplio espectro de frecuencias que van de graves a agudos en un rango

aproximado de 20Hz a 20kHz. Todo un abanico de sonidos!

Esto nos hace suponer que un micrófono debe ser capaz de capturar y transmitir todo

este rango de frecuencias. Sin embargo, en la actualidad sabemos que para transmitir

voz “entendible” no es necesario transmitir todas las frecuencias sino un rango mucho

menor y transmitir un rango menor de frecuencias tiene sus ventajas pues facilita la

transmisión como veremos más adelante. Por lo tanto los teléfonos comerciales solo

transmiten un rango aproximado de 400Hz a 4kHz. Esto distorsiona un poquito la voz

pero de todas maneras se puede entender. Es por eso que cuando oímos a alguien por

teléfono su voz suena ligeramente diferente que en la vida real pero aun así podemos

entender la conversación.

Digitalización de la voz

Digitalizacion es: Acción de convertir en digital información analógica. En otras

palabras, es convertir cualquier señal de entrada continua (analógica) en una serie de

valores numéricos.

La información digital es la única información que puede procesar una computadora,

generalmente en el sistema binario, es decir unos (1) y ceros (0).

Mientras que la telefonía tradicional utiliza la voz mediante señales analógicas, la

telefonía IP requiere tenerla codificada en formato digital, es decir en 0’s y 1’s, puestoque es el único lenguaje interpretado por el computador. A este proceso de conversión

se le denomina digitalización de voz.

La señal digital, es la codificación de la señal sonora en términos discretos (por lo

general en dos estados 1, y 0). El principal problema de la señal digital, es que nuestro

oído es analógico con lo que por un lado necesitamos una conversión analógica digital y

posteriormente una conversión digital analógica (para que nuestro oído sea capaz de

percibirla). A este conjunto de procesos se le suele llamar DSP (Digital Signal

Procesing).

En el paso del analógico al digital (ADC) existen dos procesos el muestreo (número de

muestras que cogemos de la señal analógica, a mas muestras, mejor representación de la

http://elastixtech.com/fundamentos-de-telefonia/transmision-de-la-voz/frecuencia-de-la-voz-humana/



señal) y la codificación (el valor que le vamos a dar a todas esas muestras, a mayor

número de bits mayor parecido con la señal analógica. Posteriormente aparece el DAC

(paso de la señal digital a la analógica), para que nuestro oído sea capaz de escucharlo.

La tasa o frecuencia de muestreo es el número de muestras por unidad de tiempo que

se toman de una señal continua para producir una señal discreta, durante el proceso

necesario para convertirla de analógica en digital. Como todas las frecuencias,

generalmente se expresa en hercios (Hz, ciclos por segundo) o múltiplos suyos, como el

kilohercio (kHz), aunque pueden utilizarse otras magnitudes.

En audio, la máxima audiofrecuencia perceptible para el oído humano está en torno a

los 20 kHz, por lo que teóricamente una frecuencia de muestreo de 40 kHz sería

adecuada para digitalizarla; no obstante, el estándar introducido por el CD-Audio (Disco

Compacto), se estableció en 44,1 kHz. La frecuencia de muestreo ligeramente superior

permite compensar los filtros utilizados durante la conversión analógica-digital.

Hay que tener en cuenta que no todas las fuentes sonoras se aproximan a los 20 kHz que

corresponden a esta frecuencia máxima; la mayoría de los sonidos está muy por debajo

de ésta. Por ejemplo, si se va a grabar la voz de una soprano, la máxima frecuencia que

la cantante será capaz de producir estará en torno a los 1046 Hz, con lo que utilizar una

frecuencia de muestreo de 44,1 kHz sería innecesario (se estaría empleando una

capacidad de almacenamiento extra que se podría economizar).

En este caso, siguiendo el Teorema de Nyquist, sería adecuada una frecuencia de

muestreo en torno a los 2100 Hz. En este sentido, la mayoría de software/hardware

están preparados para que el usuario pueda seleccionar la frecuencia de muestreo a

utilizar. El estándar del CD-Audio está fijado en 44,1 kHz, pero esto no significa que

esa sea la frecuencia que utilizan todos los equipos. Los sistemas domésticos de baja

calidad pueden utilizar frecuencias de 22,05 kHz o de 11,025 kHz (produciendo así unaseñal analógica de inferior calidad a la que podría generarse con la información

http://elastixtech.com/fundamentos-de-telefonia/transmision-de-la-voz/audio-digitalizado/

http://elastixtech.com/fundamentos-de-telefonia/transmision-de-la-voz/elastixtech-conversion-analogo-digital-2/



contenida en el disco). Además, las tarjetas de sonido de los equipos informáticos

utilizan frecuencias por encima o por debajo de este estándar, muchas veces

seleccionándolas en función de las necesidades concretas (sobre todo, en aplicaciones

de audio profesional).

En audio profesional, se utilizan frecuencias de muestreo de 48 kHz o superiores. Larazón es que cuando se graban altas frecuencias, cercanas a los 20 kHz, usando los 44,1

kHz, sólo se recogen dos muestras por ciclo, con lo que la señal resultante queda muy

limitada. Ante esto, es evidente que las altas frecuencias se muestrean peor que las

bajas; una tasa de muestreo superior al estándar permite corregir esta disparidad.

Teorema de Nyquist

Según el teorema de muestreo de Nyquist-Shannon, para poder replicar con exactitud

(es decir, siendo matemáticamente reversible en su totalidad) la forma de una onda es

necesario que la frecuencia de muestreo sea superior al doble de la máxima frecuencia amuestrear.

Es un error frecuente y extendido creer que una misma señal muestreada con una tasa

elevada se reconstruye mejor que una muestreada con una tasa inferior. Esto es falso

(siempre que la tasas empleadas cumplan el criterio de Nyquist, naturalmente). El

proceso de muestreo (que no debe ser confundido con el de cuantificación) es, desde el

punto de vista matemático perfectamente reversible, esto es, su reconstrucción es

exacta, no aproximada. Dicho de otro modo, desde el punto de vista matemático al que

se refiere el teorema de muestreo de Nyquist-Shannon, la reconstrucción de una señal de

10 kHz es idéntica tanto si se obtiene de una tasa de muestreo de 25000 muestras por

segundo como de una de 50000 muestras por segundo. No aporta nada incrementar la

tasa de muestreo una vez que ésta cumple el criterio de Nyquist. También son errores

frecuentes y extendidos, relacionados con lo expuesto en este párrafo, creer que los

puntos que resultan del proceso de muestreo se unen en la reconstrucción mediante

rectas formando dientes de sierra o que existe un proceso de cálculo que realiza la

interpolación de manera simulada. En resumen, el teorema de muestreo demuestra que

toda la información de una señal contenida en el intervalo temporal entre dos muestras

cualesquiera está descrita por la serie total de muestras siempre que la señal registrada

sea de naturaleza periódica (como lo es el sonido) y no tenga componentes de

frecuencia igual o superior a la mitad de la tasa de muestreo; no es necesario inventar la

evolución de la señal entre muestras.

En la práctica y dado que no existen los filtros analógicos pasa-bajo ideales, se debe

dejar un margen entre la frecuencia máxima que se desea registrar y la frecuencia de Nyquist (frecuencia crítica) que resulta de la tasa de muestreo elegida (por ejemplo, para

http://elastixtech.com/fundamentos-de-telefonia/transmision-de-la-voz/teorema_de_nyquist/



CD-Audio la frecuencia máxima de los componentes a registrar y reproducir es de 20

kHz y la frecuencia crítica de la tasa de 44100 muestras por segundo empleada es de

22,05 kHz; un margen del 10% aproximadamente para esta aplicación). Pero este

margen es una necesidad que resulta de las limitaciones físicas de un filtro de

reconstrucción (o filtro antialiasing) real, y no una consideración que contemple (o deba

contemplar) el teorema. Con frecuencia en los conversores modernos de CD-Audio, para la reconstrucción de una señal se emplean técnicas de sobremuestreo con objeto de

aumentar este margen y permitir el uso de filtros de fase lineal (retardo de grupo nulo)

en la banda pasante y, en general, más sencillos y económicos con pendientes de

atenuación más suaves.

Los nuevos formatos de audio que recientemente han aparecido (aunque con escaso

éxito comercial) que emplean PCM sin pérdida por compresión con tasas de muestreo

más altas a las empleadas en el CD-Audio, (DVD-Audio, por ejemplo) para registrar y

reproducir señales de idéntico ancho de banda se justifican porque permiten el empleo

de filtros de reconstrucción más benignos, sencillos y económicos sacrificando un

recurso cada vez más económico y de menor trascendencia (la capacidad dealmacenamiento, un recurso crítico en el pasado) y porque, además, satisfacen

simultáneamente las expectativas de un mercado como el audiófilo, caracterizado por

dogmas entre los que se encuentra muy extendida la falsa creencia de que esto

representa una mejora en la calidad de la señal reconstruida (en particular, de sus

componentes de alta frecuencia). Este error es sólo una consecuencia de una clara

incomprensión de las consecuencias del teorema de muestreo y de establecer

comparaciones falaces como, por ejemplo, con la digitalización de imágenes (donde no

se realiza una reconstrucción de una señal periódica), etc.

La alta tasa de muestreo de otro formato de audio de reciente aparición, el SACD o

Super Audio CD, es una consecuencia del uso de una tecnología denominada

modulación Sigma-Delta (Direct Stream Digital). Si bien la tasa de muestreo es 64

veces la del CD-Audio, es necesario tener presente que se trata de una cuantificación de

1 bit (en lugar de los 16 empleados en el CD-Audio) y basado en técnicas de Noise

Shaping (modelado de ruido). No es posible, por tanto, establecer comparaciones

superficiales con el PCM de CD-Audio, ya que en este caso la relación señal-ruido no

es constante respecto de la frecuencia (en CD-Audio el ruido de cuantificación es

independiente de la frecuencia y sólo depende de los intervalos de amplitud empleados

en el proceso de cuantificación, es decir, de unos 98,09 dB constantes para los 16 bits de

este estándar CD-Audio en todo el espectro útil). Un SACD puede registrar y reproducir

señales con componentes de hasta 33 kHz con una relación señal-ruido equivalente al deun CD-Audio (aunque 33 kHz está casi una octava por encima del máximo audible y,

por tanto, una ventaja sobre el CD-Audio de dudosa utilidad) y mantener una relación

señal-ruido de aproximadamente 122 dB para el espectro audible (un potencial, el

equivalente aproximado a 20 bits, también de dudosa utilidad práctica como formato

final de usuario). Entre las ventajas objetivas de estos formatos recientes (DVD-Audio y

SACD) se encuentra el potencial multicanal (registro de más de dos canales) y la

capacidad para el empleo de técnicas de protección de copia (algo de extraordinario

interés para las compañías discográficas). Ninguna prueba doble-ciego realizada en

condiciones controladas ha probado que existan diferencias audibles entre estos

formatos denominados de “alta resolución”.



Conversión analógica digital

La conversión analógica-digital (CAD) consiste en la transcripción de señalesanalógicas en señales digitales, con el propósito de facilitar su procesamiento

(codificación, compresión, etc.) y hacer la señal resultante (la digital) más inmune al

ruido y otras interferencias a las que son más sensibles las señales analógicas.

La digitalización o conversión analógica-digital (conversión A/D) consiste

básicamente en realizar de forma periódica medidas de la amplitud (tensión) de una

señal, redondear sus valores a un conjunto finito de niveles preestablecidos de tensión

(conocidos como niveles de cuantificación) y registrarlos como números enteros en

cualquier tipo de memoria o soporte. La conversión A/D también es conocida por el

acrónimo inglés ADC (analogue to digital converter ).

En esta definición están patentes los cuatro procesos que intervienen en la conversión

analógica-digital:

1. Muestreo: el muestreo (en inglés, sampling ) consiste en tomar muestras

periódicas de la amplitud de onda. La velocidad con que se toma esta muestra, es

decir, el número de muestras por segundo, es lo que se conoce como frecuencia

de muestreo.

2. Retención (en inglés, hold ): las muestras tomadas han de ser retenidas

(retención) por un circuito de retención (hold), el tiempo suficiente para permitir

evaluar su nivel (cuantificación). Desde el punto de vista matemático este

proceso no se contempla, ya que se trata de un recurso técnico debido alimitaciones prácticas, y carece, por tanto, de modelo matemático.

3.

Cuantificación: en el proceso de cuantificación se mide el nivel de voltaje de

cada una de las muestras. Consiste en asignar un margen de valor de una señal

analizada a un único nivel de salida. Incluso en su versión ideal, añade, como

resultado, una señal indeseada a la señal de entrada: el ruido de cuantificación.

4. Codificación: la codificación consiste en traducir los valores obtenidos durante

la cuantificación al código binario. Hay que tener presente que el código binario

es el más utilizado, pero también existen otros tipos de códigos que también son

utilizados.

http://elastixtech.com/fundamentos-de-telefonia/transmision-de-la-voz/conversor_ad/



Durante el muestreo y la retención, la señal aún es analógica, puesto que aún puede

tomar cualquier valor. No obstante, a partir de la cuantificación, cuando la señal ya

toma valores finitos, la señal ya es digital.

Los cuatro procesos tienen lugar en un conversor analógico-digital.

Un computador o cualquier sistema de control basado en un microprocesador no puede

interpretar señales analógicas, ya que sólo utiliza señales digitales. Es necesario

traducir, o transformar en señales binarias, lo que se denomina proceso de digitalización

o conversión de señales analógicas a digitales.

El proceso de digitalización utiliza el muestreado o sampleado, cada cierto tiempo se lee

el valor de la señal analógica y toma una muestra:

1.

Si el valor de la señal en ese instante está por debajo de un determinado umbral,

la señal digital toma un valor mínimo (0).

2. Cuando la señal analógica se encuentra por encima del valor umbral, la señal

digital toma un valor máximo (1).

http://elastixtech.com/fundamentos-de-telefonia/transmision-de-la-voz/cuantificacion_digital/



El momento en que se realiza cada lectura es ordenado por un sistema de sincronización

que emite una señal de reloj con un período constante.

La modulación por impulsos codificados (MIC o PCM por sus siglas inglesas de

Pulse Code Modulation) es un procedimiento de modulación utilizado para transformar

una señal analógica en una secuencia de bits (señal digital), este método fue inventado por Alec Reeves en 1937. Una trama o stream PCM es una representación digital de una

señal analógica en donde la magnitud de la onda analógica es tomada en intervalos

uniformes (muestras), cada muestra puede tomar un conjunto finito de valores, los

cuales se encuentran codificados.

En la figura observamos que una onda senoidal está siendo muestreada y cuantificada

en PCM. Se toman las muestras a intervalos de tiempo regulares. De cada muestra

existen una serie de posibles valores. A través del proceso de muestreo la onda se

transforma en código binario, el cual puede ser fácilmente manipulado y almacenado.

http://elastixtech.com/fundamentos-de-telefonia/transmision-de-la-voz/elastixtech-conversion-analogo-digital-3/



Recuperación de la señal analógica

En la recuperación se realiza un proceso inverso, con lo que la señal que se recompone

se parecerá mucho a las originales (a), (b) y (c), si bien durante el proceso de

cuantificación, debido al redondeo de las muestras a los valores cuánticos, se produce

una distorsión conocida como ruido de cuantificación. En los sistemas normalizados,

los intervalos de cuantificación han sido elegidos de tal forma que se minimiza almáximo esta distorsión, con lo que las señales recuperadas son una imagen casi exacta

de las originales. Dentro de la recuperación de la señal, ya no se asignan intervalos de

cuantificación en lugar de ello son niveles, equivalentes al punto medio del intervalo IC

en el que se encuentra la muestra normalizada.

Ventajas de la señal digital

1.

Cuando una señal digital es atenuada o experimenta perturbaciones leves, puede

ser reconstruida y amplificada mediante sistemas de regeneración de señales.

2.

Cuenta con sistemas de detección y corrección de errores, que se utilizan cuandola señal llega al receptor; entonces comprueban (uso de redundancia) la señal,

primero para detectar algún error, y, algunos sistemas, pueden luego corregir

alguno o todos los errores detectados previamente.

3. Facilidad para el procesamiento de la señal. Cualquier operación es fácilmente

realizable a través de cualquier software de edición o procesamiento de señal.

4. La señal digital permite la multigeneración infinita sin pérdidas de calidad.

5. Es posible aplicar técnicas de compresión de datos sin pérdidas o técnicas de

compresión con pérdidas basados en la codificación perceptual mucho más

eficientes que con señales analógicas.

Desventajas de la señal digital

http://elastixtech.com/fundamentos-de-telefonia/transmision-de-la-voz/proceso_digitalizacion/



1. Se necesita una conversión analógica-digital previa y una decodificación

posterior, en el momento de la recepción.

2. Si no se emplean un número suficientes de niveles de cuantificación en el

proceso de digitalización, la relación señal a ruido resultante se reducirá con

relación a la de la señal analógica original que se cuantificó. Esto es una

consecuencia de que la señal conocida como error de cuantificación queintroduce siempre el proceso de cuantificación sea más potente que la del ruido

de la señal analógica original, en cuyo caso, además, se requiere la adición de un

ruido conocido como “dither” más potente aún con objeto de asegurar que dicho

error sea siempre un ruido blanco y no una distorsión. En los casos donde se

emplean suficientes niveles de cuantificación, la relación señal a ruido de la

señal original se conservará esencialmente porque el error de cuantificación

quedará por debajo del nivel del ruido de la señal que se cuantificó. Esto,

naturalmente, es lo normal.

3. Se hace necesario emplear siempre un filtro activo analógico pasa bajo sobre la

señal a muestrear con objeto de evitar el fenómeno conocido como aliasing, que

podría hacer que componentes de frecuencia fuera de la banda de interésquedaran registrados como componentes falsos de frecuencia dentro de la banda

de interés. Asimismo, durante la reconstrucción de la señal en la posterior

conversión D/A, se hace también necesario aplicar un filtro activo analógico del

mismo tipo (pasa bajo) conocido como filtro de reconstrucción. Para que dicho

filtro sea de fase lineal en la banda de interés, siempre se debe dejar un margen

práctico desde la frecuencia de Nyquist (la mitad de la tasa de muestreo) y el

límite de la banda de interés (por ejemplo, este margen en los CD es del 10%, ya

que el límite de Nyquist es en este caso 44,1 kHz / 2 = 22,05 kHz y su banda de

interés se limita a los 20 kHz).

Procesamiento digital de señales

Un procesador digital de señales o DSP (sigla en inglés de digital signal processor ) es

un sistema basado en un procesador o microprocesador que posee un juego de

instrucciones, un hardware y un software optimizados para aplicaciones que requieran

operaciones numéricas a muy alta velocidad. Debido a esto es especialmente útil para el

procesado y representación de señales analógicas en tiempo real: en un sistema que

trabaje de esta forma (tiempo real) se reciben muestras (samples en inglés),

normalmente provenientes de un conversor analógico/digital (ADC).

http://elastixtech.com/fundamentos-de-telefonia/transmision-de-la-voz/dsp/



Se ha dicho que puede trabajar con señales analógicas, pero es un sistema digital, por lo

tanto necesitará un conversor analógico/digital a su entrada y digital/analógico en la

salida. Como todo sistema basado en procesador programable necesita una memoria

donde almacenar los datos con los que trabajará y el programa que ejecuta.

Se puede procesar una señal para obtener una disminución del nivel de ruido, para

mejorar la presencia de determinados matices, como los graves o los agudos y se realiza

combinando los valores de la señal para generar otros nuevos.

Eventualmente cuándo el DSP ha terminado su trabajo, los datos digitales pueden

volverse atrás como señales analógicas, con calidad mejorada. Por ejemplo: un DSP puede filtrar ruido de una señal, remover interferencias, amplificar y/o suprimir

frecuencias, encriptar información, ó analizar una corriente compleja en sus

componentes esenciales.

Este proceso deberá ser realizado en TIEMPO REAL, lo cuál es muy rápido,

necesitando así que el DSP realice miles de millones de operaciones por segundo.

En su núcleo, un DSP es altamente numérico y repetitivo. A la vez que cada dato llega,

éste debe ser multiplicado, sumado y además de eso transformado de acuerdo a

fórmulas complejas. Lo que permite realizar todo ello es la velocidad del dispositivo.

Los sistemas basados en DSP’s deben trabajar en tiempo real, capturando y procesando

información a la vez que ocurre. Los conversores análogo – digital deben adquirir la

información lo suficientemente seguido como para captar todas las fluctuaciones

relevantes de las señales. Si el ADC es muy lento se perderá información. El DSP

también debe trabajar rápido para no perder información que le llega desde el ADC y

además cumplir con el adecuado procesamiento de las señales.

Digitalización y Compresión

http://elastixtech.com/fundamentos-de-telefonia/transmision-de-la-voz/digitalizacion-y-comprension-de-la-voz/



La digitalización es una tecnología que se ha desarrollado con éxito para la transmisión

de voz y video. La telefonía fija y la celular manejan esta tecnología pero cada uno tiene

sus propios codificadores. Como sabemos la mejor calidad de audio la tiene todavía la

comunicación telefónica, la celular es buena pero como todos hemos notado nuestro

cerebro necesita hacer un mayor esfuerzo para entender una conversación por un

teléfono celular, de ahí que no se debe conducir y hablar por el celular a la vez. Lascentrales IP utilizan codificadores diferentes para poder transmitir por la web, ya que

estos deben de utilizar el menor ancho de banda posible. Como sabemos el primer paso

para cada conexión de VoIP es la digitalización, convirtiendo las señales analógicas en

paquetes digitales. Esto se puede hacer en varias maneras; La forma más fácil es tomar

un muestreo de frecuencias con una proporción fija que sea lo suficientemente alta para

captar todas las frecuencias necesarias, luego dividimos la fuerza de la señal en varios

niveles. Por ejemplo, 8000 Hz y 256 niveles de muestreo es una configuración fija muy

común. De esta manera, la señal se escaneada y digitaliza por medio de un convertidor

de analógico a digital o ADC la cual muestrea la data en la frecuencia fija con una

profundidad de 8 bits. Los datos son enviados sin comprimir, la otra parte los decodifica

con un convertidor de digital a analógico o DAC. La combinación de 8 kilohercios y la profundidad de muestreo de 8 bits es buena para sustituir a las conversaciones normales

de telefonía. Las comunicaciones en telefonía se llevan a cabo en frecuencias entre

aprox. 500 Hz y 3.500 Hz a 256 niveles diferentes por lo cual es suficiente para

proporcionar una buena calidad. Pero, la calidad tiene un precio en VoIP. El muestreo

de datos sin comprimir a esta proporción genera un flujo continuo de datos de 8

kbytes/seg. Esto no es gran cosa para los anchos de banda de países desarrollados, pero

puede ser demasiado para conexiones de Internet más lentas, o peor aún a través de una

conexión de internet móvil. Por lo tanto se han hecho varios intentos de reducir el

número de kilobytes por segundo necesarios para lograr una calidad de voz aceptable.

Esto puede en principio, lograrse de varias maneras. Usted puede reducir la frecuencia

de muestreo un poco, pero esto tiene un efecto negativo debido a que las frecuencias

más altas se filtran. De acuerdo con el Teorema de muestreo de Nyquist-Shannon, que

se remonta a 1928, mucho antes de que hubiera VoIP o incluso en Internet, no es

posible digitalizar las señales en una frecuencia de muestreo inferior a 2 veces la

frecuencia más alta en el espectro. La reducción de la tasa de muestreo de 4000 Hz, por

ejemplo, reduciría el máximo permitido de frecuencia en la señal analógica a 2000 Hz,

que es muy por debajo de las frecuencias que son comunes en el habla, de mujeres y

niños. Por lo tanto la reducción de la frecuencia de muestreo puede ayudar un poco en la

reducción de la asignación de ancho de banda de la aplicación de VoIP, pero en una

pequeña proporción. Otro enfoque es, por tanto, reducir el número de bits necesarios

para almacenar una muestra de datos. Como se mencionó anteriormente, 8 bits decodificación dará una calidad razonablemente alta para una señal en una conversación.

La reducción del número a 4 reduciría el ancho de banda utilizado en un 50%.

Lamentablemente, esta reducción también tiene un precio. Con 8 bits, hay 256 niveles

de señal posible. La decodificación de la señal nuevamente a analógica origina una leve

señal donde el paso de un nivel a otro es menor del 0,5% del valor de la señal de pico a

pico. A pesar de ser una distorsión del 0,5% puede ser audible, el discurso seguirá

siendo comprensible y la mayoría de las personas que no son meticulosas no lo

detectaran.

Con una profundidad de 4 bits, la codificación de la señal sólo tendrá 16 niveles

diferentes disponibles. Esto no es mucho. Cada paso en la conversión de digital aanalógica será de un 7%, que es linealmente dividido entre el máximo pico de



intensidad de señal posible. Imaginen que alguien está hablando en voz baja en su

teléfono donde su fuerza de señal no será más del 25% del pico, en este caso la

codificación digital es casi binaria, generando un sonido enlatado del lado para el

receptor. La reducción de la profundidad de muestreo con un 50%, de 8-4 bits da una

degradación de la calidad de un factor de 16. Esto tampoco es lo que queremos.

Una solución para combatir el problema de la mala calidad de voz con un volumen bajo

de señal es no dividir el gráfico de intensidad de la señal en 16 niveles de igualdad, sino

tener más niveles en torno a la línea cero y menos cerca de los niveles de volumen

máximo. Un enfoque común consiste en utilizar una escala logarítmica en lugar de una

escala lineal. Las escalas logarítmicas no son extrañas en esta aplicación, ya que

nuestros oídos raramente escuchan diferencias de volumen en una escala logarítmica.

Diez veces más volumen en términos de energía se escuchan como cerca de dos veces

más alto para el oído humano. Otra solución es usar algoritmos de adaptación que

dividen la señal linealmente, pero no entre los valores máximos posibles de la señal de

pico a pico, sino entre los valores reales de la señal. Si alguien está hablando a un

volumen bajo, estos algoritmos de forma automática aumentar la señal y el error decuantificación de la señal nunca es mucho más de 7% a 4 bits de profundidad de

muestreo. A veces se puede escuchar este tipo de acondicionamiento de señales en las

líneas con ruido, donde los niveles de ruido aumenta en medio de palabras o frases. Esto

es porque el algoritmo de muestreo amplificar las señales de bajo volumen, incluso si no

hay presencia de señal real. La amplificación del ruido en la línea se escuchara en el

extremo del receptor.

Ahora la mejor manera de reducir las necesidades de ancho de banda para una

aplicación de VoIP esta en el uso de un protocolo propietario de baja pérdida de

compresión (low-loss). Todos sabemos que es una compresión ya que lo vemos en

nuestros PCs. Las aplicaciones como ZIP reducen el tamaño de los archivos mediante el

análisis de patrones de bits y el cálculo de patrones de bits alternativos y tablas de

conversión que ocupan menos espacio que el archivo original, estas técnicas de

compresión que se utiliza en la compresión ZIP se llaman (no-loss) no-pérdida, ya que

es posible extraer los archivos originales de la versión comprimida sin pérdida de

información. Otras técnicas son de baja pérdida y aceptan algunas pérdidas de

información en el aumento de la compresión. La compresion low-loss de baja pérdida se

utiliza a menudo en la compresión de imágenes como la del formato JPG. La versión sin

comprimir se parece a la original, pero en estrecha observación pueden ver los

artefactos causados por el algoritmo de compresión. Este tipo de algoritmo funciona

mejor si se desarrolla con conocimiento de los datos a comprimir. Han desarrolladoalgoritmos de compresión específicos para la compresión de voz que cuentan con baja

pérdida combinada con una asignación de ancho de banda muy reducido. La

compresión en los teléfonos móviles es un ejemplo de ello.

Transmisión de La Voz

Documents

Transcript of Transmisión de La Voz