Reconocimiento de acciones humanas en video
Transcript of Reconocimiento de acciones humanas en video
![Page 1: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/1.jpg)
Reconocimiento de Acciones Humanas en Video
Analí Alfaro AlfaroGRIMA – Machine Intelligence Group
![Page 2: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/2.jpg)
Agenda
1. Motivación2. Propuesta
i. Problemaii. Hipótesisiii. Consideraciones y Problemasiv. Desarrollo del Método propuesto
3. Experimentos y Resultados4. Conclusiones5. Trabajos Futuros
![Page 3: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/3.jpg)
Motivación
![Page 4: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/4.jpg)
1.- Motivación
En la actualidad la información multimedia genera grandes volúmenes de datos.
Las cámaras de video producen datos en vivo y grabados de diversos ambientes, la cual inicialmente era útil para brindar seguridad.
Ejemplo : el subterráneo de Londres y el aeropuerto Heathrow cuenta en la actualidad con más de 5000 cámaras cada uno .
![Page 5: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/5.jpg)
1.1. Aplicaciones del Reconocimiento en video
![Page 6: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/6.jpg)
1.- Motivación
![Page 7: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/7.jpg)
Propuesta
![Page 8: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/8.jpg)
2.-Propuesta Problema:
Reconocer acciones humanas en video usando información de múltiples cámaras
Hipótesis: Es posible reconocer acciones humanas usando
información de movimiento y apariencia codificada en el video.
![Page 9: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/9.jpg)
2.- Propuesta
Existen poses que modelan una actividad pues los seres humanosson capaces de reconocer una actividad observando sólo un
conjunto de poses.
![Page 10: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/10.jpg)
2.- PropuestaDificultades Visuales:
![Page 11: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/11.jpg)
2.Propuesta
![Page 12: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/12.jpg)
2.Propuesta del Sistema :
Poses Representativas
![Page 13: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/13.jpg)
A. Poses Representativas Sea un video V de n frames, acerca de una
actividad. Describir los frames de video usando
PHOG(Pyramidal Histogram of Oriented Gradient).
Clusterizar los frames descritos usando 5-means . Seleccionar los frames más cercanos a los 5 centroides Los frames seleccionados contienen poses
representativas de la actividad.
Ordenar los frames recuperados por tiempo.
![Page 14: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/14.jpg)
A. Poses Representativas
Fig. Poses discriminativas de la acción Levantar la mano
![Page 15: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/15.jpg)
B. Modelo de Apariencia El modelo de apariencia está dado por los 5
frames conteniendo poses representativas. Cada frame es representado por un descriptor PHOG (168 –dim).
Fig. Muestra las poses representativas de las actividades en la fila de arriba Levantar la mano y en la parte inferior voltear hacia atrás.
![Page 16: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/16.jpg)
C. Modelo de Movimiento Busca describir el movimiento de una persona al
realizar una actividad. Usaremos el Flujo óptico para obtener la información del movimiento.
![Page 17: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/17.jpg)
C. Modelo de Movimiento Como se observa en la imagen anterior los
canales son patrones que pueden ser
descritos de manera más sucinta. Para describirlos usaremos el filtro de Gabor.
Por cada componente calculamos su filtro de Gabor a diferentes escalas(S) y orientaciones (O). Así, cada componente genera SxO imágenes filtradas.
![Page 18: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/18.jpg)
D. Clasificación Problemas:
Las poses representativas pueden repetirse entre clases diferentes…
Un enfoque de clasificación convencional puede producir confusión en el clasificador.
Una mejor solución puede ser emplear un enfoque de aprendizaje basado en Múltiples Instancias (MIL).
![Page 19: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/19.jpg)
D. Clasificación Multiple Instance Learning (MIL):
MIL es un esquema de clasificación binaria. Una bolsa es positiva si al menos una instancia es
positiva y negativa si todas las instancias son negativas.
Usaremos los 5- frames representativos como instancias agrupados en una bolsa.
![Page 20: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/20.jpg)
Experimentos y Resultados
![Page 21: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/21.jpg)
3.- Experimentos y Resultados
Configuración de parámetros usados:
K= 5 , valor de frames de poses representativas. Para el modelo de apariencia usando PHOG , se
empleó 8 bins, 0-180 o y 3 escalas. Para el calculo de Gabor se usaron O= 4
orientaciones y S= 6 escalas.
![Page 22: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/22.jpg)
3.- Experimentos y Resultados Configuración de MILBoost
Usamos varios clasificadores binarios en un ensamble.
Mayoría de Votos
MIL (1)
MIL (2)
MIL (3)
Acción
![Page 23: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/23.jpg)
3.- Experimentos y Resultados Experimento 1
Base de Datos ClassRoom Usando un MilBoost independiente por cámara
![Page 24: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/24.jpg)
3.- Experimentos y Resultados
Experimento 2: usando ensamble deMilBoost Base de Datos ClassRoom
![Page 25: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/25.jpg)
3.- Experimentos y Resultados
Experimento 3: Base de datos KTH. Usando un clasificador multi-clase basado en
MilBoost binarios El desempeño alcanzado fue de 92.30 % usando
K=5
![Page 26: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/26.jpg)
3.- Experimentos y Resultados
Base de datos KTH
![Page 27: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/27.jpg)
Conclusiones
![Page 28: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/28.jpg)
4.- Conclusiones
El problema de reconocer actividades es complicado. La combinación de apariencia y movimiento resulta
favorable y complementaria al reconocer actividades.
El enfoque MIL es útil para discriminar actividades que pueden ser muy similares (poses discriminativas).
Emplear información de varias cámaras puede beneficiar la robustez del sistema.
El flujo óptico es sensible a los procesos de codificación de los videos. Por eso resulta en detección de flujos que no existen.
![Page 29: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/29.jpg)
Trabajos Futuros
![Page 30: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/30.jpg)
4.- Trabajos Futuros
Experimentar más ampliamente con bases de datos estándares de múltiples cámaras.
Experimentar nuevas formas de obtener las poses representativas.
![Page 31: Reconocimiento de acciones humanas en video](https://reader036.fdocuments.es/reader036/viewer/2022062514/55b1a565bb61eb822c8b4588/html5/thumbnails/31.jpg)
GRACIAS !!!
Preguntas ???