Post on 18-Nov-2015
description
COMPRESIN DE VIDEO
COMPRESIN DE VIDEO
COMPRESION DE VIDEO
UCH : Ing. Luis Degregori C.
Almacenamiento eficiente de videos (para archivo y transporte)
Reducir con eficacia el ancho de banda requerido para transmitir vdeo a travs de emisin terrestre, a travs de televisin por cable, a travs de servicios de televisin por satlite.
1. OBJETIVO
13/03/2015 2
Conceptos Preliminares
Percepcin de las seales audiovisuales
Sistema Visual Humano (HVS)
Qu percibe nuestra vista, figuras y colores
visibles, intensidad de luz?
Cmo interpreta nuestro cerebro los estmulos
visuales?
Sistema Visual Humano (HVS)
La luz, el espectro visible. Fenmeno de la Visin El ojo humano Mezcla aditiva espacial. Agudeza Visual Mezcla aditiva temporal. Memoria Visual
Conceptos Preliminares
Sistema Visual Humano Respuesta del Ojo
Sensacin de luz: Valoraciones empricas/perceptuales Funcin de la frecuencia de la luz Funcin de la cantidad de luz Dos tipos de receptores en el ojo (bastones y conos) Visin Fotpica Conos (luz suficiente, en TV) Visin Escotpica Bastones (poca luz)
Bastones
Conos
Sistema Visual Humano El Fenmeno de la Visin
Fuentes primarias o emisivas (aditivas)
[illuminating]
Emisores de luz (e.g., sol, bombilla,
monitos TV)
El color percibido depende de la
frecuencia de la
luz emitida
Siguen ley aditiva
R+G+B = White (Blanco)
Suma de luces generadas
Fuentes secundarias o reflectivas
(substractivas) [reflecting]
Reflejan una luz incidente (e.g., pintura, tejido
teido, papel impreso)
El color percibido depende de la frecuencia de la
luz reflejada
Frecuencias emitidas frecuencias absorbidas
Siguen ley substractiva
R+G+B = Black (Negro)
Resta de luces absorbidas = Suma de luces reflejadas
La descripcin RGB (del ingls Red, Green, Blue;
"rojo, verde, azul") de un color hace referencia a la
composicin del color en trminos de la intensidad
de los colores primarios con que se forma: el rojo,
el verde y el azul.
Es un modelo de color basado en la sntesis
aditiva, con el que es posible representar un color
mediante la mezcla por adicin de los tres colores luz primarios.
http://es.wikipedia.org/wiki/Colorhttp://es.wikipedia.org/wiki/Colores_primarioshttp://es.wikipedia.org/wiki/S%C3%ADntesis_aditiva_de_colorhttp://es.wikipedia.org/wiki/S%C3%ADntesis_aditiva_de_color
El rojo se obtiene con (255,0,0), el verde con (0,255,0) y el azul con (0,0,255),
Una imagen se digitaliza con en conversor A/D; asi
un A/D de 1 bit, slo podra asignar dos valores: 0
1, presencia de luz o ausencia de ella.
Con un A/D de 8 bits generamos valores de 8
cifras, por lo que combinando ceros y unos
podemos obtener un total de 256 resultados que
equivalen a la cantidad de grises que el ojo
humano podra distinguir.
Con imagenes en color, los
dispositivos digitales vienen
equipados con conversores
de, por lo menos, 24 bits, esto
es, 8 bits para cada canal.
Con esta combinacin de 24
nmeros entre unos y ceros,
el resultado es de algo ms de
16 millones de posibilidades
(colores) que nuestra visin
sera capaz de reconocer.
La crominancia es el componente de la seal
de vdeo que contiene las informaciones del color.
Por otra parte, la luminancia es el componente de
la seal de vdeo que contiene las informaciones de la luz o brillo.
http://es.wikipedia.org/wiki/V%C3%ADdeo
La reduccin de informacin (compresin) se basa en eliminar informacin redundante o irrelevante aprovechando tcnicas de codificacin: Intra-frame (redundancia espacial) y Inter-frame (redundancia temporal) en imgenes.
2.CONCEPTOS PREVIOS
13/03/2015 15
Qu es el Video?
El video es la representacin de la visin. El video es la captura de una secuencia de imgenes de tal forma que al ser proyectadas bajo ciertas condiciones al sistema visual de un ser humano, se produzca la sensacin de movimiento. El video se basa en las caractersticas de nuestro sistema visual.
3. EL VIDEO
Qu es el Video?
La Persistencia de la Visin Es un principio establecido por el fsico Joseph Plateau que consiste en una "imperfeccin" del ojo que provoca que la imagen se grabe en la retina durante una fraccin de segundo despus de que fue vista. Por ejemplo cuando alguien nos toma una foto, segundos despus seguimos viendo el puntito blanco del flash. Cuando la luz es intensa el proceso es mayor, por eso las salas de cine estn a oscuras, la retina se adapta a la oscuridad y la luminosidad de la pantalla hace que la persistencia aumente.
3. EL VIDEO
Qu es el Video?
La persistencia de la visin es una propiedad por la cual una imagen es retenida en nuestra retina por un intervalo pequeo de tiempo antes de que otra imagen sea tomada. Nuestro sistema visual puede captar 24 imgenes diferentes en 1 segundo. Si proyectamos algo a ms de 24 imgenes por segundo nuestro cerebro captar eso como una secuencia de movimiento continuo.
Mientras mayor sea la cantidad de imgenes mayor ser la sensacin de
movimiento.
A ms de 24 imgenes por segundo no logramos distinguir las imgenes
individuales y percibimos un movimiento continuo.
3. EL VIDEO
Con imagenes en color, los
dispositivos digitales vienen
equipados con conversores
de, por lo menos, 24 bits, esto
es, 8 bits para cada canal.
Con esta combinacin de 24
nmeros entre unos y ceros,
el resultado es de algo ms de
16 millones de posibilidades
(colores) que nuestra visin
sera capaz de reconocer.
20
Si codificamos
cada una de las
componentes
RGB, las tres
deberan
codificarse con
mucha calidad
21
Se codifican otras tres seales relacionadas con ellas (luminancia y crominancia).
22
23
24
25
26
De todos los pxeles se obtienen
muestras de luminancia.
De crominancia solo de la mitad
de ellos.
27
28
29
30
31
4. DCT (Discrete Cosine Transform)
13/03/2015 32
Muestra el espectro de frecuencia
contenido en una imagen fija. Una
imagen fija es independiente del
tiempo.
La DCT muestra el espectro
espacial de frecuencias.
Pixel : es una muestra de una seal con un valor de amplitud
y contenido de frecuencia implcita (referido al cambio de valor)
en un tiempo finito y breve.
Los valores de seal de cada pixel se ordenan en una MATRIZ
13/03/2015 33
Por convencin se aplica la DCT a bloques de 8 x 8 pxeles, sucesivamente. Origina COEFICIENTES en otra matriz de 8 x 8 (componentes de frecuencia de cada pixel).
Una matriz conduce a un proceso de clculos de operacin muy grande. La DCT permiten la aplicacin por separado a sub matrices.
La alta compresin lograda por la DCT es del tipo Lossy (con prdidas) y consiste en una nueva operacin sobre la matriz para reducir a cero los coeficientes prximos a cero. Los coeficientes de la matriz transformada son los datos que representan la imagen. La transmisin de estos datos se hace uno a uno en una secuencia.
4.1 Transformacin DCT (Compresion Espacial)
13/03/2015 34
Bajas frecuencias Altas frecuencias
DCT Coeficientes mas significativos
Coeficientes 0
Explota la redundancia espacial que existe en una imagen mediante un anlisis frecuencial de la misma.
Se efecta con la informacin que contiene la imagen actual que se esta procesando y no en relacin con cualquier otra imagen de la secuencia de vdeo.
Procesos involucrados
-Transformacin (DCT).
-Promediado: tablas de cuantizacin.
-Escaneo.
-Codificacin entrpica.
5. INTRA-FRAME
13/03/2015 35
36
DCT 8x8
Cada coeficiente representa la contribucin de una frecuencias horizontales y verticales a la imagen
5.1 Transformacin
13/03/2015 37
5.2 Promediado: tablas de cuantizacin
13/03/2015 38
Los coeficientes transformados de cada pxel del macrobloque, se pueden promediar, o no, mediante tablas de cuantizacin (Q) cuyos valores resultan de estudios psicovisuales. Su uso supondr una degradacin de la calidad de la imagen ya que se perdern los coeficientes transformados del bloque de menor valor (energa).
5.3 Escaneo
13/03/2015 39
Leer los coeficientes transformados que sern transmitidos y ordenarlos. Tpicamente se utiliza el escaneo "Zigzag" que lee los coeficientes siguiendo un patrn determinado en forma de zig-zag.
5.4 Codificacin entrpica
13/03/2015 40
Existirn muchos valores a 0 para transmitir, por este motivo se utilizar codificacin de longitud fija (RLC) para transmitir el nmero de ceros en vez de cada cero uno a uno. Enviar un palabra cdigo nica en vez de una cadena de ceros.
5.5 Esquema del Intraframe
13/03/2015 41
En resumen vemos que el intraframe consta de los siguientes procesos basados en DCT.
DESCOMPOSICION EN BLOQUES
CODIFICACION DE LOS MENSAJES
TRANSFORMADA COSENO
CUANTIFICADOR
Imagen
Original
Imagen
Comprimida
6. INTER-FRAME prediction.
13/03/2015 42
Explota la correlacin temporal entre cuadros consecutivos para poder codificar con el mnimo nmero de bits posibles. Para codificar, se debe predecir un frame a partir de frames anteriores y/o futuros, aplicando sobre stos un movimiento dictado por unos vectores de movimiento. Esta tcnica se utiliza en estandares como el MPEG-2.
43
Prediccin Inter Frame
Se Intenta predecir la imagen siguiente a partir de las anteriores explotando la redundancia temporal.
Es muy probable que los bloques sean muy parecidos en imgenes sucesivas
Se puede utilizar esquemas de prediccin tan sencillos como tomar la imagen anterior a modo de prediccin y transmitir el error cometido
13/03/2015 44
Se divide en bloques, luego el codificador trata de encontrar un bloque similar al que se codifico previamente. Este proceso se realiza mediante el algoritmo Block matching. Comprime a partir de similitudes entre los fotogramas. Este mtodo tiene menor calidad.
6. INTER-FRAME
13/03/2015 45
Se la secuencia de imgenes (GOP) esta formada por 03 tipos de cuadros. SECUENCIA = I B B P B B P B B P B B P B B.
Solo Compresin Espacial.
Compresin: Espacial y Temporal
Compresin: Espacial y Temporal
B: Bidireccional P: Predictivo I: Intraframe
6. INTER-FRAME
13/03/2015 46
Se la secuencia de imgenes (GOP) esta formada por 03 tipos de cuadros. SECUENCIA = I B B P B B P B B P B B P B B.
Solo Compresin Espacial.
Compresin: Espacial y Temporal
Compresin: Espacial y Temporal
B: Bidireccional P: Predictivo I: Intraframe
47
48
49
Imagen Predicha
Ojo!!
(VLC)
50
51
Es un esquema mas avanzado de prediccin de imagen.
Explota el hecho de que a lo largo del tiempo los pxeles se desplazan en la pantalla
Por lo tanto slo transmito el macrobloque de referencia (mediante el vector de desplazamiento) y el error cometido
Evidentemente, siempre puedo transmitir el macrobloque completo, en caso de no encontrar ninguno que se le parezca
52
Normalmente la compensacin de movimiento se basa en macrobloques 16x16, mientras que la redundancia espacial se basa en bloques de 8x8.
Sin embargo la precisin es a nivel de pxel (el macrobloque referencia puede estar situado en cualquier localizacin)
53
La carga computacional de buscar el macrobloque que mas se parezca es muy alta
Limitamos la bsqueda a una zona determinada
Hierarchical block matching
54
Compromiso entre Tamao Macrobloque y Bit Rate Vectores de Desplazamiento Macrobloque Grande => Menos informacin vectores
Macrobloque Pequeo => Mayor precisin estimacin
Utilizamos una combinacin de dos tcnicas para reducir el ancho de banda ocupado por los vectores Codificacin diferencial a partir de vectores anteriores
VCL sobre prediccin de error de codificacin diferencial
7. Mtodos de compresin vdeo digital
13/03/2015 55
Veamos algunos metodos conocidos de compresion:
7.1.1 MPEG2 (Norma ISO 13818).
13/03/2015 56
Formato de compresin MPEG2 aparece en 1994.
Ofrece imgenes de calidad, alcanza velocidades
en la Tx. Dx. de 3 a 15 Mbps (Con HDTV).
Usado para codificar audio y vdeo en seales de
transmisin, que incluyen TDT, por satlite o cable.
Admite flujos de vdeo escaneado de manera tanto
progresiva como entrelazada.
Fue usado por los discos SVCD, DVD y ahora Blue
Ray para grabar pelculas.
Este formato ofrece la transmisin de ficheros de
vdeo digital a pantalla completa.
7.1.1 MPEG2
13/03/2015 57
Esquema del sistema de compresion MPEG2
Fuente de A/V
Y Datos.
Sincronismo
Codific. Compresion
Video
Codific. Compresion
Audio
Codific. Compresion
Datos
Flujo Empaquetado Primario (PES)
Flujo Empaquetado Primario (PES)
Flujo Empaquetado Primario (PES)
TS
H PAYLOAD
4 bytes 184 bytes
Trama tipica
de un PES
Transporte
Streaming: TS
7.1.2 MPEG3
13/03/2015 58
El MPEG3, se desarroll para la televisin digital
de alta calidad aunque el formato MPEG2
tambin cumpla perfectamente esta funcin.
Diseado para tratar seales HDTV entre 20 a 40
Mbits/s.
MPEG-3 no debe confundirse con MPEG-1 Audio
Layer 3, que suele conocerse como MP3.
Como el MPEG3 consumia mayor ancho de
banda que el MPEG2, el mercado abandon el
MPEG3.
7.1.3 MPEG4 (Norma H.264)
13/03/2015 59
Toma muchas de las caractersticas de MPEG-1 y
MPEG-2, aparece en 1999.
Es un formato de muy buena calidad, ideal para
aplicaciones multimediales interactivas.
Factor de compresin mucho ms elevado que
otros formatos, ideal para aplicaciones en
internet.
Los usos principales del MPEG-4 son los flujos de
medios audiovisuales, la distribucin en DVD, la
transmisin bidireccional por videconferencia y
emisin de televisin SDTV y HDTV (Con tasas de
solo 9Mbps).
7.1.3 MPEG4 (Norma H.264)
13/03/2015 60
MPEG-4 es un standard dinamico y con los aos
van mejorando sus caracteristicas.
7.1.4 MPEG7
13/03/2015 61
Es una representacin estndar de la informacin
audiovisual que permite la descripcin de
contenidos.
Puede describir informacin audiovisual, de manera
que sea posible desarrollar sistemas capaces de
indexar grandes bases de material multimedia .
Este formato codificar adems de la imagen, datos
en lenguaje XML de metadatos, en un intento de
favorecer la interoperabilidad y la creacin de
aplicaciones.
Sera de gran ayuda para el avance de la nueva
televisin interactiva con introduccin de buscadores
de contenidos, bsquedas de audiovisuales etc.
Es un grupo de algoritmos de compresin que pertenecen a la compaa Microsoft, y que fue desarrollado por la empresa para que fuera parte integrante del framework denominado Windows Media.
Debido a esto, no es de extraar que la mayora de las veces un archivo audiovisual con extensin .wmv combine en su interior sonido cuyo formato tambin pertenece a la suite, es decir Windows Media Audio.
8. Windows Media Video (WMV)
13/03/2015 62
De todas formas, es importante destacar que en realidad cuando hablamos de WMV nos estamos refiriendo puntualmente al video, de la mismas manera que si hablamos de WMA es solamente sonido.
Por ello, el video WMV puede estar dentro de algn contenedor y de esta manera unido a su respectivo audio en WMA. Por lo general este contenedor es el llamado ASF, que incluye audio y video.
13/03/2015 63
8. Windows Media Video (WMV)
Es un cdec de vdeo libre que est siendo desarrollado por la Fundacin Xiph.org, como parte de su proyecto Ogg.
Basado en el cdec VP3 donado por On2 Technologies, Xiph.org lo ha refinado y extendido dndole el mismo alcance futuro para mejoras en el codificador como el que posee el cdec de audio Vorbis.
Google en 2010 empez a financiar parte del proyecto de Ogg Theora.
9. Theora
13/03/2015 64
Theora es un mtodo de compresin de vdeo con prdidas.
El vdeo comprimido puede ser almacenado en cualquier contenedor multimedia conveniente (ej Matroska), pero generalmente se encuentra en el formato contenedor Ogg que es el recomendado por Xiph.org y es frecuentemente usado con el formato de audio Vorbis.
Theora I es un cdec de transformacin basado-en-bloque y compensacin de movimiento basada-en-bloque. Esto lo coloca en la misma clase de cdecs que MPEG-1, MPEG-2, MPEG-4
13/03/2015 65
9. Theora
http://es.wikipedia.org/wiki/Vorbis
Caractersticas:
Compensacin de movimiento basada-en-bloque
Bit rate variable de forma-libre (VBR)
Tamao de bloque mnimo de 8x8
Codificacin flexible de la entropa
Formatos de submuestreo de croma 4:2:0, 4:2:2, y 4:4:4
8 bits por pxel por color de canal
Mltiples cuadros (frames) de referencia
Cuadros intra (I-frames en MPEG), cuadros inter (P-frames en MPEG), pero no B-frames (en MPEG4 ASP, AVC)
Tecnologas ya usadas por Vorbis
Permite transcodificacin desde VP3 sin prdidas
13/03/2015 66
9. Theora
Antes XviD es el nombre de un popular cdec desarrollado como un proyecto de software libre, despus de que el proyecto OpenDivX fuera cerrado en julio de 2001.
Xvid est basado en el estndar MPEG-4 ASP.
El formato fue creado como una alternativa libre a otros cdecs comerciales de vdeo.
Su calidad y eficiencia lo han convertido en uno de los cdecs ms populares.
La reproduccin de pelculas Xvid est soportada en los reproductores de DVD ms modernos.
10. Xvid
13/03/2015 67
Puede comprimir una pelcula completa con una calidad cercana a la de la fuente original para que ocupe tan solo 700 MB (en ocasiones 1400 MB, dependiendo de la duracin y otros factores).
Las pelculas codificadas en Xvid ofrecen vdeos de alta calidad en archivos de tamao reducido, adems de llevar menos tiempo su compresin que en MPEG-2 debido a un algoritmo de compresin ms avanzado.
El vdeo usualmente se combina con audio MP3, o AC3 para tener audio y vdeo de alta calidad.
Estos factores y el hecho de que el cdec se distribuya de forma libre han contribuido al xito de este formato
13/03/2015 68
10. Xvid
Caractersticas Uso de B-frames, o fotogramas bidireccionales, que almacenan entre
dos fotogramas, uno anterior y otro posterior.
Quarter pixel (Q-pel), se trabaja con una precisin doble en los vectores de movimiento de los bloques en la compensacin del movimiento, es ms til en resoluciones bajas.
Global motion compensation (GMC) o compensacin global de movimiento, que entra en juego en giros de cmara y zoom, consiste en almacenar los vectores de movimiento de forma global (en relacin a unos pocos) y consiguiendo hacer que muchos valgan 0, reduciendo su tamao.
Entrelazado, ideal para imgenes entrelazadas como la televisin, ya que mejora mucho la compresin y el resultado final en estos casos.
Cuantizacin adaptativa, es una innovacin psicovisual de Xvid, en ella se emplean diferentes matrices de cuantizacin por cada macrobloque, comprimiendo ms fuerte aqullos que son muy claros o muy oscuros, ya que son menos notables por el ojo que en los de tonalidad media.
13/03/2015 69
10. Xvid
Es un formato contenedor, desarrollado por la Fundacin Xiph.org y es el formato nativo para los cdecs multimedia que tambin desarrolla Xiph.org.
El formato es libre de patentes y abierto al igual que toda la tecnologa de Xiph.org, diseado para dar un alto grado de eficiencia en el streaming" y la compresin de archivos. Como con la mayora de formatos contenedores, Ogg encapsula datos no comprimidos y permite la interpolacin de los datos de audio y de vdeo dentro de un solo formato conveniente. Otros ejemplos de formatos contenedores son AVI y Matroska.
11. Ogg
13/03/2015 70
Incluye un nmero de cdecs separados e independientes de vdeo y audio, ambos desarrollados en cdigo abierto.
Los archivos terminados en la extensin ".ogg" pueden ser de cualquier tipo de archivo Ogg, audio o vdeo, aunque existe la recomendacin de renombrarlos con la extensin ".oga" para audio y ".ogv" para video.
Ogg es un contenedor orientado a stream, lo que significa que puede ser escrito y ledo en un solo paso, hacindolo adecuado para streaming en internet.
Esta orientacin a stream es la mayor diferencia en diseo sobre otros formatos contenedores basados-en-archivo.
13/03/2015 71
11. Ogg
Es un formato contenedor propietario usado
para transmitir video por Internet
usando Adobe FlashPlayer.
Entre los sitios ms conocidos que utilizan el
formato FLV se encuentranYouTube, Google
Video, Yahoo! Video y MySpace.
13/03/2015 72
11. FLV (FLASH VIDEO)