Micrófonos de contacto: una alternativa para sensado ...

8
Micrófonos de contacto: una alternativa para sensado tactil en robots sociales Juan José Gamboa University Carlos III of Madrid [email protected] Fernando Alonso-Martín University Carlos III of Madrid [email protected] José Carlos Castillo University Carlos III of Madrid [email protected] Sara Marqués Villaroya University Carlos III of Madrid [email protected] Marcos Maroto University Carlos III of Madrid [email protected] Miguel Ángel Salichs University Carlos III of Madrid [email protected] Resumen En la interacción humano-máquina, especialmente en la robótica social, el contacto directo entre el humano y el robot, y todo lo que permite al robot reaccionar y obtener información de este contac- to, tiene una gran relevancia. Entre la información que el robot obtiene se encuentra aquella relacio- nada con la parte del cuerpo del robot que se está tocando y qué gesto se pretende transmitir con di- cho toque. A través de este artículo, se pretenden evaluar, en primer lugar, las actuales tecnologías que envuelven la interacción táctil aplicada a la ro- bótica. Por otro lado, se busca aportar un enfoque nuevo a la interacción táctil en la robótica social, presentando aplicaciones y sistemas que emplean el sonido como fuente de información principal. Este trabajo propone un sistema de detección de gestos táctiles en un robot social empleando tec- nologías de adquisición sonora. Keywords— percepción acústica, interacción táctil, interacción humano-máquina, robótica so- cial 1. Introducción A través del tacto los seres humanos somos ca- paces de transmitir una gran cantidad de infor- mación. Desde un cálido apretón de manos a un abrazo, hemos desarrollado lenguajes complejos y expresiones emocionales a través del contacto físi- co [1]. Se pretende dotar, del mismo modo, a un robot social de estas habilidades, ya que multipli- can el número de posibilidades por las cuales se podría interactuar con él [2], añadiendo una fuen- te de información que, como se ha indicado antes, posee una gran cantidad de matices. El problema que surge en la actualidad es que los sistemas que se encuentran disponibles requieren cubrir prácti- camente la totalidad de la carcasa del robot con sensores [3]. Un robot social necesitaría de un modo que permi- ta percibir los estados emocionales del usuario, o simplemente poder comprender de una mejor ma- nera la intención comunicativa del usuario con res- pecto al robot. El tacto es un tipo de interacción que permite la transmisión de esta información. El problema a la hora de implementar este tipo de sis- temas es elegir el tipo de tecnología más adecuado. En este caso se propone el sonido cómo vehiculo para ésta transmisión de datos. La acción de tocar una superficie sólida genera un contacto que pue- de ser percibido por distintos tipos de tecnologías, pero además un sonido se genera. Éste puede ser detectado, procesado y reconocido empleando téc- nicas de análisis de audio y micrófonos, obteniendo además información con una gran cantidad de ma- tices, ya que es una señal que posee características en varios dominios, como son el del tiempo el de la frecuencia y el del tiempo-frecuencia. Esta pertur- bación se esparce fácilmente por los sólidos, pero no tanto en el aire. Esto implica que colocando el sensor adecuado sobre una superficie se podrá ob- tener esta señal con una gran precisión, buscando además ignorar los ruidos que se propaguen por el aire, como la voz o cualquier sonido ambiental. Estos dispositivos se conocen como micrófonos de contacto. A lo largo de este trabajo se exploran las principa- les tecnologías que en la actualidad, en el campo de la interacción humano-máquina, se han desarrolla- do con el objetivo de identificar distintos tipos de contacto a través de varias clases de sensores, apli- cando además aprendizaje automático. También se presentan diversas aplicaciones que, en otros campos, emplean tecnología relacionada con el so- nido para reconocer gestos táctiles. Este trabajo propone, a través de la revisión de sistemas que implementan interacción táctil en róbotica y de interfaces táctiles basadas en el análisis de una se- ñal de audio, un sistema que emplee micrófonos de contacto para detectar gestos táctiles en un robot. Este sistema se complementará con diversos algo- ritmos de aprendizaje automático, con el objetivo de caracterizar e identificar el gesto detectado. 2. Tecnologías actuales En la siguiente sección se presentan las tecnolo- gías actuales relacionadas con la interacción táctil a través de dos perspectivas. En primer lugar se introducen distintas tecnologías relacionadas con la interacción humano-máquina táctil, tecnologías XXXVIII Jornadas de Automática 724 https://doi.org/10.17979/spudc.9788497497749.0724

Transcript of Micrófonos de contacto: una alternativa para sensado ...

Page 1: Micrófonos de contacto: una alternativa para sensado ...

Micrófonos de contacto: una alternativa para sensado tactil enrobots sociales

Juan José GamboaUniversity Carlos III of Madrid

[email protected]

Fernando Alonso-MartínUniversity Carlos III of Madrid

[email protected]

José Carlos CastilloUniversity Carlos III of Madrid

[email protected] Marqués Villaroya

University Carlos III of [email protected]

Marcos MarotoUniversity Carlos III of Madrid

[email protected]

Miguel Ángel SalichsUniversity Carlos III of Madrid

[email protected]

Resumen

En la interacción humano-máquina, especialmenteen la robótica social, el contacto directo entre elhumano y el robot, y todo lo que permite al robotreaccionar y obtener información de este contac-to, tiene una gran relevancia. Entre la informaciónque el robot obtiene se encuentra aquella relacio-nada con la parte del cuerpo del robot que se estátocando y qué gesto se pretende transmitir con di-cho toque. A través de este artículo, se pretendenevaluar, en primer lugar, las actuales tecnologíasque envuelven la interacción táctil aplicada a la ro-bótica. Por otro lado, se busca aportar un enfoquenuevo a la interacción táctil en la robótica social,presentando aplicaciones y sistemas que empleanel sonido como fuente de información principal.Este trabajo propone un sistema de detección degestos táctiles en un robot social empleando tec-nologías de adquisición sonora.

Keywords— percepción acústica, interaccióntáctil, interacción humano-máquina, robótica so-cial

1. Introducción

A través del tacto los seres humanos somos ca-paces de transmitir una gran cantidad de infor-mación. Desde un cálido apretón de manos a unabrazo, hemos desarrollado lenguajes complejos yexpresiones emocionales a través del contacto físi-co [1]. Se pretende dotar, del mismo modo, a unrobot social de estas habilidades, ya que multipli-can el número de posibilidades por las cuales sepodría interactuar con él [2], añadiendo una fuen-te de información que, como se ha indicado antes,posee una gran cantidad de matices. El problemaque surge en la actualidad es que los sistemas quese encuentran disponibles requieren cubrir prácti-camente la totalidad de la carcasa del robot consensores [3].

Un robot social necesitaría de un modo que permi-ta percibir los estados emocionales del usuario, osimplemente poder comprender de una mejor ma-nera la intención comunicativa del usuario con res-pecto al robot. El tacto es un tipo de interacción

que permite la transmisión de esta información. Elproblema a la hora de implementar este tipo de sis-temas es elegir el tipo de tecnología más adecuado.En este caso se propone el sonido cómo vehiculopara ésta transmisión de datos. La acción de tocaruna superficie sólida genera un contacto que pue-de ser percibido por distintos tipos de tecnologías,pero además un sonido se genera. Éste puede serdetectado, procesado y reconocido empleando téc-nicas de análisis de audio y micrófonos, obteniendoademás información con una gran cantidad de ma-tices, ya que es una señal que posee característicasen varios dominios, como son el del tiempo el de lafrecuencia y el del tiempo-frecuencia. Esta pertur-bación se esparce fácilmente por los sólidos, perono tanto en el aire. Esto implica que colocando elsensor adecuado sobre una superficie se podrá ob-tener esta señal con una gran precisión, buscandoademás ignorar los ruidos que se propaguen porel aire, como la voz o cualquier sonido ambiental.Estos dispositivos se conocen como micrófonos decontacto.

A lo largo de este trabajo se exploran las principa-les tecnologías que en la actualidad, en el campo dela interacción humano-máquina, se han desarrolla-do con el objetivo de identificar distintos tipos decontacto a través de varias clases de sensores, apli-cando además aprendizaje automático. Tambiénse presentan diversas aplicaciones que, en otroscampos, emplean tecnología relacionada con el so-nido para reconocer gestos táctiles. Este trabajopropone, a través de la revisión de sistemas queimplementan interacción táctil en róbotica y deinterfaces táctiles basadas en el análisis de una se-ñal de audio, un sistema que emplee micrófonos decontacto para detectar gestos táctiles en un robot.Este sistema se complementará con diversos algo-ritmos de aprendizaje automático, con el objetivode caracterizar e identificar el gesto detectado.

2. Tecnologías actuales

En la siguiente sección se presentan las tecnolo-gías actuales relacionadas con la interacción táctila través de dos perspectivas. En primer lugar seintroducen distintas tecnologías relacionadas conla interacción humano-máquina táctil, tecnologías

XXXVIII Jornadas de Automática

724

https://doi.org/10.17979/spudc.9788497497749.0724

Page 2: Micrófonos de contacto: una alternativa para sensado ...

que involucran el uso de sensores de fuerza, de vi-sión o incluso de temperatura, además de apren-dizaje automático, para encontrar patrones en lainformación que estos sensores perciben, de formaque se pueda identificar el contacto que se estárealizando.

La otra perspectiva que se plantea es la de dife-rentes interfaces táctiles que involucran sonido. Eneste caso no se enfocan en la interacción humano-máquina en sí, sino que son aplicaciones con pro-pósitos más diversos, como la comunicación conun servicio contestador automático o el control deun dispositivo de audio.

2.1. Interacción humano-máquina táctil

En el trabajo de Argall [3] encontramos un estudiocompleto acerca de las habilidades táctiles aplica-das a la robótica social que compara distintos ro-bots con materiales diferentes en sus carcasas . Enel caso de robots con superficies duras, los senso-res que se suelen emplear son los siguientes: fuer-za/torque, Resistencias Sensibles a Fuerza (FSR),acelerómetros y sensores de deformación. Por otrolado, en los robots de “piel blanda”, se suelen incor-porar: potenciómentros (información kinestética),FSR’s, sensores de capacitancia, sensores de tem-peratura (termistores), sensores de campo eléctri-co, y fotoreflectores. Argall no menciona el uso demicrófonos como base para habilidades de tacto.En general, los sensores que se suelen usar en HRItienen las siguientes deficiencias: requieren prácti-camente contacto directo y su alcance para detec-tar contacto esta limitado a unos pocos centíme-tros, por tanto es necesario equipar al robot conuna gran cantidad de sensores para cubrir prácti-camente por completo la carcasa del mismo (en lamayoría de los casos son más de 40 sensores porrobot). Por ejemplo, el robot “abrazable” presen-tado por Stiehl integra más de 1000 sensores defuerza, 400 sensores de temperatura, y 9 sensoresde campo eléctrico [4].

En posteriores trabajos, Silvera lleva a cabo múl-tiples experimentos [5, 6] empleando un sistemacompuesto por un brazo artificial cubierto por unapiel sensitiva basada en tecnología de impedancíaeléctrica tomográfica que es capaz de diferenciarentre múltiples tipos de tacto. Para ello, los auto-res incluyeron un algoritmo de aprendizaje auto-mático denominado LogicBoost [7] con el que selogra reconocer seis tipos de contacto. Con estaconfiguración, Silvera afirma que obtiene el 80%de precisión, similar a la que poseen los seres hu-manos.

Siguiendo la misma línea, Cooney presenta un tra-bajo que intenta diferenciar distintos contactosafectivos sobre el robot humanoide Kirin [8]. Pa-

ra clasificar los toques, construye un clasificadorSVM (Support Vector Machine en inglés) y un cla-sificador k-NN (k vecinos más cercanos). El traba-jo descrito está basado en en técnicas de visión consensores Kinect, y 14 sensores KINOTEX1 mo-dificados [9] y distribuidos sobre la superficie delcuerpo del robot. Mezclando los resultados de losclasificadores, afirma obtener un 90.5% de preci-sión.

2.2. Interfaces táctiles basadas en elanálisis de sonido

Hasta este punto, se ha analizado el estado del ar-te en el campo de la interacción humano-máquinaasociada a la robótica. Esta sección está dedicadaal análisis de las interfaces que incorporan tecno-logía de audio para detectar y/o clasificar toquesdentro de diversas áreas tecnológicas no relacio-nadas con la interacción humano-máquina (HRI,por sus siglas en inglés), debido a que hasta ahorano hay abundantes aplicaciones en el campo de lainteracción humano-máquina.

Paradiso [10] describe un sistema para localizarde un modo brusco la posición de golpes y toquessobre una superficie de cristal de un tamaño deun metro cuadrado. Paradiso emplea cuatro re-ceptores piezoeléctricos (conocidos también comomicrófonos de contacto) colocados en las cuatroesquinas del cristal. Específicamente usa el mo-delo Panasonic EFV-RT series. Paradiso afirmaen el informe obtener grandes resultados, con unaprecisión de entre 2 y 4 centímetros.

Harrison [11] perfiló un sistema que permite, através del análisis de audio, reconocer toques so-bre distintos materiales, especialmente escritoriosy muros. Afirma que este sistema puede diferen-ciar entre seis tipos de toques con una precisiónalrededor del 90%. Para ello, emplea un estetosco-pio modificado que es capaz de amplificar la señalrecibida. En este trabajo, el autor no intenta loca-lizar la fuente del sonido, se centra principalmenteen reconocer el tipo de toque realizado.

Murray-Smith [12] introduce Stane, un dispositi-vo electrónico controlado por interacción táctil ba-sada en micrófonos. Específicamente, Stane pue-de reconocer esos gestos: stroke (caricia), scratch(arañazo), rub (frote) y tap (toque con un dedo).Para ello, usa una combinación de sensores: ca-

1consisten en un diodo emisor de luz, un fotodetec-tor, espuma de uretano, y cables de fibra óptica. Loscables se usan para irradiar a la espuma con un rayode luz fino, y para recoger la luz esparcida por le es-puma. El principio de funcionamiento de los sensoresKINOTEX es medir a través del fotodetector cambiosen la intensidad de la luz al final del cable de fibraóptica

XXXVIII Jornadas de Automática

725

Page 3: Micrófonos de contacto: una alternativa para sensado ...

pacitivos, inerciales, y micrófonos de contacto. Laaplicación real de Stane es controlar un reproduc-tor musical. Murray-Smith argumenta que el usode micrófonos de contacto o piezo-micrófonos esperfectamente adecuado para recibir las vibracio-nes generadas por ese tipo de contactos sobre su-perficies sólidas. Para la tarea de clasificación, em-plea una red neuronal entrenada con 26880 ejem-plos. Sus resultados experimentales muestran unatasa de acierto en torno al 75% para los cinco ti-pos de contacto indicados anteriormente.

Lopes [13] muestra un sistema que intenta exten-der los sistemas multi-toque tradicionales. Mez-cla dos tecnologías distintas, sensores capacitivospara detectar la posición del toque, y percepciónacústica para reconocer diferentes gestos táctilescomo: dedos, nudillos, uñas de los dedos y puños.Aunque Lopes muestra una interacción bastanteprecisa, la publicación no indica específicamenteresultados sobre la tasa de acierto.

2.3. Análisis de las tecnologías y trabajosestudiados

Como se mostraba en el análisis de Argall, la intro-ducción de sensores para realizar tareas de interac-ción táctil implica costosas redes sensoriales (másde mil sensores en el sistema que presenta). Sil-vera corrobora esto pero planteando una serie degestos táctiles de gran interés. Por último Cooneyintroduce el uso de algoritmos como máquinas desoporte vectorial (SVM, por sus siglas en inglés)y los k vecinos más cercanos (k-NN).

En cuanto a la aplicación de tecnología acústica,en la mayor parte de casos es empleada para lo-calización directa del origen, procesando la señalobtenida por los micrófonos. En el caso de Sta-ne, Murray-Smith aplica clasificación (redes neu-ronales) para detectar gestos. Lopes presenta untrabajo similar, pero sin dar detalles de la fase declasificación.

A partir de las ideas que se muestran en estos dosenfoques, en este trabajo se plantea un sistemaque, aplicado a la interacción humano-máquina,combine conceptos de las dos tecnoñogías que seacaban de analizar. En cuanto a los sensores que sedeciden emplear, se han seleccionado los micrófo-nos de contacto, siendo uno de los objetivos que elsistema evite emplear una gran cantidad de sen-sores. Gracias a las ideas de Murray-Smith, conconjunto con las de Silvera, se muestra un atisbode lo que sería dirigir la robótica y los micrófonosde contacto hacia la detección de gestos táctiles.Por último, la mayor parte de los trabajos insertanun bloque de clasificación que permita sacar con-clusiones de la información obtenida, destacando

clasificadores como SVM, k-NN y redes neurona-les.

3. Sensado táctil en un robot social

La implementación de un sistema que use micrófo-nos de contacto para detección de toques consisteen 4 fases que se van a desglosar a lo largo de estecapítulo: Instalación de los micrófonos de contac-to, detección de la actividad táctil, extracción delas características de la señal obtenida durante laactividad y por último, la clasificación.

3.1. Instalación de los micrófonos

La selección de micrófonos de contacto está basa-da en la calidad de la señal captada y la sensibili-dad que poseen en superficies lisas y rígidas. Otrade las características es que aísla de manera na-tural ruidos que se propaguen por el aire, lo quehace que los ruidos externos más corrientes, comola voz human no sean recogidos por el sensor. Ladesventaja principal que se observa en un primermomento es que, precisamente esa fidelidad en laextracción de las vibraciones que se propagan porlos sólidos, causa que los ruidos internos dentrodel robot provocados por los servomotores pue-dan causar falsos positivos. En cualquier caso esosería un problema abordable tanto desde el puntode vista del hardware, introduciendo aislamientofísico, como desde el software, a través de filtros enel extractor de características o en el clasificador.

De entre los posibles tipos de micrófonos nos de-cantamos por uno de precio asequible (35 euros) yde una calidad bastante contrastada por profesio-nales del mundo de la música. El modelo elegidoha sido el Oyster Schaller 723 mostrado en la fi-gura 1.

Figura 1: Micrófono de contacto Oyster Shaller723 S/S

El robot social que ha servido como plataformade investigación, y por lo tanto, como base pararealizar los experimentos realizados, es el robotMaggie, del Robotics Lab de la Universidad CarlosIII de Madrid[14].

XXXVIII Jornadas de Automática

726

Page 4: Micrófonos de contacto: una alternativa para sensado ...

Figura 2: Micrófono instalado en el interior de lacabeza de Maggie

En la primera versión se decide instalar un totalde tres micrófonos en las zonas que se consideranque se va a establecer con más probabilidad uncontacto. Estas partes son la cabeza, y el pecho(izquierda y derecha). Para fijar los micrófonos enel interior de la carcasa, que es rugosa y cóncavase ha empleado arcilla para modelar y adhesivo dedos componentes. Gracias a las propiedades mol-deables pero rígidas al secarse de ambos, se puedefijar la totalidad de la superficie sensible del mi-crófono al interior del robot, como se muestra en laFig. 2. Los micrófonos serán conectados en Mag-gie de la siguiente manera. La salida Minijack esconectada a unas tarjetas de sonido USB Sound-Blaster2 de alta fidelidad.

3.2. Detección de actividad táctil

A nivel de software se ha empleado ChucK [15], unlenguaje de programación diseñado para proveera los usuarios de una plataforma para síntesis yanálisis precisa de audio.

Para la detección como la extracción de caracterís-ticas de la señal sonora se ha empleado una versiónmodificada para esta tarea de GEVA (Gender andEmotion Voice Analysis) [16], un programa crea-do para detectar tanto el género como la emociónque transmite un interlocutor al hablar. GEVA esun sistema de análisis de sonido diseñado y desa-rrollado en ChucK que combina varios elementospertenecientes a tres dominios diferentes: tiempo,frecuencia y tiempo-frecuencia. La principal fun-cionalidad del programa es que calcula las caracte-rísticas pertenecientes a cada uno de los dominiosen tiempo real, analizando directamente la señalsonora capturada.

GEVA presenta una serie de umbrales ajustablesreferentes a la señal que permiten diferenciar cuan-do parte del sonido recibido, ya que los micrófo-

2Diseñadas por Creative Labs. Modelo SB1300.

nos se encuentran escuchando continuamente, noes ruido ambiental o un tipo específico de sonidoque se quiera aislar, y marca el principio de ungesto. Uno de estos umbrales, y el que se empleaprincipalmente es el Signal-to-Noise Ratio, que seexplicará más adelante.

3.3. Extracción de características

Una vez que el sistema considera que el gesto hacomenzado, GEVA mide distintas características,englobadas en tres dominios diferentes, pero rela-cionadas entre sí mediante transformadas.

Las características que se encuentran en el do-minio del tiempo se obtienen directamente delmuestreo de la señal analógica que provienedel micrófono.

En el caso de las características que están enel dominio de la frecuencia se aplica la trans-formada rápida de Fourier (FFT) sobre la se-ñal en el dominio del tiempo.

Por último, para obtener las característi-cas pertenecientes al dominio del tiempo-frecuencia se aplica la transformada discretade Haar (Discrete Haar Wavelet Transform).

Las características que se obtienen de la señal sonlos siguientes.

1. Pitch : Es una propiedad de los sonidos quepermite su ordenación en una escala relativa ala frecuencia [17]. Cuantitativamente, las esti-maciones del pitch son medidas del periodo deoscilación y se pueden realizar en los tres do-minios mencionados anteriormente. En cadadominio se encuentran implementados distin-tos algoritmos de detección de pitch (PDA opitch detection algorithms):

a) El método para detectar el primer míni-mo en la autocorrelación de la señal deentrada en el dominio del tiempo. Estoimplica que el pitch se corresponde al mí-nimo en la relación de cruce entre la señalsonora consigo misma [18, 19].

b) El segundo método aplica la transforma-da rápida de Fourier. Este algoritmo con-sidera la distancia entre los picos en el es-pectro de la señal para calcular el pitch.

c) El último método para obtener el pitchse desarrolla en el dominio del tiempo-frecuencia, y usa la transformada discre-ta de Haar para ondas. Este calculo sebasa en el trabajo de Larson [20].

XXXVIII Jornadas de Automática

727

Page 5: Micrófonos de contacto: una alternativa para sensado ...

2. Flujo: El flujo indica si hay grandes varia-ciones en el dominio de la frecuencia. Cuandotoma valores cercanos al cero implica que losvalores de amplitud obtenidos en todos losrangos de frecuencia son muy similares.

3. Rolloff-95 : Se corresponde con el valor defrecuencia que contiene el 95% de la energíade la señal.

4. Centroide : Representa la mediana del espec-tro de la señal. Esto es la frecuencia a la que laperturbación se aproxima en mayor medida.Se usa frecuentemente para calcular el tonode un sonido o la voz (timbre).

5. Zero-crossing rate (ZCR): Indica el nu-mero de veces que la señal cruza el cero (en eleje x). Normalmente, el sonido de fondo cru-za con mucha más frecuencia el eje x que lossonidos verbales.

6. Signal-to-noise ratio (SNR): Permite re-lacionar el sonido que genera el gesto con res-pecto al volumen del ruido de fondo.

7. Root Mean Square (RMS): relativo a laamplitud del volumen de la señal.

8. Duración : hace referencia a duración del so-nido.

Cuando finaliza el contacto, el programa emite losvalores máximos, mínimos, valores medios y la di-ferencia entre máximo y mínimo de las caracterís-ticas descritas.

3.4. Clasificación automática

Entre las librerías disponibles para realizar tareasrelacionadas con el aprendizaje automático, se haseleccionado Weka por su versatilidad. Weka so-porta varias tareas estándar de minería de datos,especialmente, preprocesamiento de datos, cluste-ring, clasificación, regresión, visualización, y selec-ción. Todas las técnicas de Weka se fundamentanen la asunción de que los datos están disponiblesen un fichero plano (flat file) o una relación, enla que cada registro de datos está descrito por unnúmero fijo de atributos (normalmente numéricoso nominales, aunque también se soportan otros ti-pos).

Weka integra una amplia familia de clasificadores3pero entre ellos destacan los que han sido emplea-dos en trabajos como el de Cooney o el de Murray-Smith y los árboles de decisión:

3http://weka.sourceforge.net/doc.stable/weka/classifiers/package-frame.html

Random Forest. Familia de algoritmos pre-dictivos que emplean la técnica de bagging oempaquetado para combinar diferentes arbo-les de decisión, donde cada árbol es construi-do con observaciones y variables aleatorias[21]. El algoritmo funciona como se explicaa continuación.

En primer lugar, selecciona individuos al azar(usando muestreo con reemplazo) para creardiferentes set de datos. Posteriormente creaun árbol de decisión con cada set de datos,obteniendo diferentes arboles, ya que cada setcontiene diferentes individuos y diferentes va-riables. Al crear los arboles se eligen variablesal azar en cada nodo del arbol, dejando cre-cer el árbol en profundidad (sin podar). Ypor último, predice los nuevos datos usandoel “voto mayoritario”, donde clasificará como“positivo” si la mayoría de los arboles predi-cen la observación como positiva.

k-NN . Este es un método de clasificación noparamétrico, que estima el valor de la funciónde densidad de probabilidad o directamente laprobabilidad a posteriori de que un elementox pertenezca a la clase Cj a partir de la in-formación proporcionada por el conjunto demodelos [22]. En el proceso de aprendizaje nose hace ninguna suposición acerca de la distri-bución de las variables a predecir. En el reco-nocimiento de patrones, el algoritmo es usa-do como método de clasificación de objetos(elementos) basado en un entrenamiento me-diante ejemplos cercanos en el espacio de loselementos. k-NN es un tipo de Lazy Learning,donde la función se aproxima solo localmentey todo el conjunto de cálculos es aplaza hastala clasificación.

SVM . Weka internamente implementa la op-timización secuencial mínima o SMO, un al-goritmo para resolver el problema de progra-mación cuadrática que surge durante el en-trenamiento de support vector machines [23].SMO es una algoritmo iterativo para resol-ver este problema de optimización. Divide elproblema principal en una serie de subproble-mas lo más pequeño posible, que son resueltosanalíticamente.

Perceptrón Multicapa . Un clasificador ba-sado en una red neuronal que utiliza backpro-pagation para clasificar instancias. La red sepuede construir a mano, crearse a través de unalgoritmo o de ambas formas. Ésta tambiénpuede ser monitorizada y modificada duran-te el tiempo de entrenamiento. Los nodos deesta red son todos sigmoides (excepto cuandola clase es numérica, en cuyo caso los nodos

XXXVIII Jornadas de Automática

728

Page 6: Micrófonos de contacto: una alternativa para sensado ...

Área decontacto Intensidad Duración Intención Ejemplo

Caricia media-grande baja media-larga empatía,compasión

Cosquillas media media media-larga diversión,alegría

Toque pequeña baja corta llamada, aviso

Cachete pequeña-media alta corta disciplina,

castigo

Tabla 1: Caracterización de los gestos empleados para las pruebas. La última columna muestra un ejemplode cómo realizar dicho gesto.

de salida se convierten en unidades linealesno desalineadas).

Esta parte comprende la creación de un conjuntode instancias preclasificadas que se irán creandoen experimentos con usuarios. Cuando el conjuntode instancias sea lo suficiente grande se integraráen el sistema para poder entrenar a los clasifica-dores. De este modo, los clasificadores podrán irclasificando de modo online las nuevas instanciasdesconocidas que vayan recibiendo.

3.5. Resultados preliminares

Para evaluar el funcionamiento del sistema pro-puesto se realizó una serie de pruebas para medirla tasa de acierto. En primer lugar se han defi-nido una serie de gestos mostrados en la tabla 1,inspirados por los experimentos de Silvera, pre-viamente explicados. Tras esto, se ha procedidoa obtener muestras de entrenamiento. El conjuntode muestras posee las siguientes características. Sehan recogido un total de 747 interacciones con elrobot, realizadas por un total de 10 usuarios. Delos cuales 215 son caricias, 48 son cosquillas, 260son toques, y 224 son cachetes.

Las interacciones entre el robot y los usuarios sehan realizado de la siguiente forma. El supervisorpide al usuario que toque al robot en la cabezausando los cuatro posibles gestos a reconocer. Ca-da uno de estos tipos de toques los puede repetirun número indeterminado de veces. Cada uno delos sonidos producidos en cada interacción quedaregistrado por el sistema y es etiquetado con elnombre del gesto realizado por el usuario.

Clasificador F -scoreRandom Forest 1

Perceptrón Multicapa 0.93SVM 0.80k-NN 0.78

Tabla 2: F-Score de los clasificadores empleandovalidación cruzada.

Clasificador F -scoreRandom Forest 0.79

Perceptrón Multicapa 0.75SVM 0.72k-NN 0.66

Tabla 3: F-Score de los clasificadores empleandoun conjunto de prueba.

En la fase de entrenamiento, los datos se almace-nan en un fichero que posteriormente serán usa-dos tanto para entrenamiento como para valida-ción. En la fase de validación se han empleado dostécnicas: Validación cruzada, que se ha hecho consubgrupos de los datos de entrenamiento de 10instancias cada uno. Adicionalmente, se recogie-ron nuevos datos de 15 usuarios diferentes a los 10que realizaron las muestras previas. En los tablas2 y 3 se muestra el F-Score resultante para cadaalgoritmo expuesto previamente. Se trata de unindicador del grado de acierto de un determinadoclasificador en base a 1, que representa el aciertoen todas las muestras.

XXXVIII Jornadas de Automática

729

Page 7: Micrófonos de contacto: una alternativa para sensado ...

4. Conclusiones

El sonido es un tipo de señal de la que se pue-den obtener una gran cantidad de características,lo que provee a la información transmitida de mu-chos matices. Esto facilita que la implementaciónde algoritmos de clasificación aporte muy buenosresultados. Los micrófonos de contacto son un tipode receptor de audio que demuestra baja distor-sión y ruido, percibiendo las vibraciones con unagran precisión. Estos micrófonos son capaces deaislar los ruidos ambientales que se propagan porel aire, que suelen ser los más corrientes (voces,etc). Debido a las propiedades de transmisión delsonido de las superficies sólidas, los ruidos internosse propagan con facilidad y puedan ser recibidos,creando falsos positivos. Como se muestra en elmontaje, los micrófonos de contacto tienen comolimitación física las superficies rugosas e irregula-res y las blandas.

En el trabajo se ha aplicado el aprendizaje comouna herramienta capaz de aprovechar la gran ri-queza que se obtiene de una señal sonora. Perodentro de este campo hay protocolos y herramien-tas que permiten mejorar y profundizar en estafase del sistema (p. ej. meta-clasificadores), lo quepermitiría un margen de mejora muy amplio. Ade-más, con una gran cantidad de información de en-trenamiento se pueden aplicar técnicas más com-plejas pero con mayor tasa de acierto.

Actualmente la tecnología de adquisición de soni-do engloba dispositivos que son capaces de obte-ner una gran cantidad de información de una señalque, como en este caso, se propaga por los sólidos(superficie de un robot). Esto, junto al gran impul-so que en la actualidad está viviendo el aprendiza-je automático y la creciente capacidad de procesa-miento de las computadoras, provoca que la tec-nología que se presenta en este trabajo constituyauna importante vía para distintos sistemas senso-riales aplicados a la interacción humano-máquina.

Agradecimientos

La investigación desarollada ha recibido financia-ción de dos proyectos: “Development of social ro-bots to help seniors with cognitive impairment”(ROBSEN), financiado por el Ministerio de Eco-nomia y Competitividad; y “RoboCity2030-III-CM”, financiado por la Comunidad de Madrid ycofinanciado por los Fondos Estructurales de laUnión Europea.

Referencias

[1] F. H. Wilhelm, A. S. Kochar, W. T. Roth,and J. J. Gross, “Social anxiety and res-ponse to touch: incongruence between self-

evaluative and physiological reactions,” Bio-logical Psychology, vol. 58, no. 3, pp. 181 –202, 2001.

[2] K. Altun and K. E. MacLean, “Recognizingaffect in human touch of a robot,” PatternRecognition Letters, vol. 66, pp. 31–40, nov2015.

[3] B. D. Argall and A. G. Billard, “A surveyof tactile human-robot interactions,” Roboticsand Autonomous Systems, vol. 58, pp. 1159–1176, October 2010.

[4] W. D. Stiehl, J. Lieberman, C. Breazeal,L. Basel, L. Lalla, and M. Wolf, “Design of atherapeutic robotic companion for relational,affective touch,” in ROMAN 2005. IEEE In-ternational Workshop on Robot and HumanInteractive Communication, 2005., pp. 408–415, Aug 2005.

[5] D. Silvera-Tawil, D. Rye, and M. Velonaki,“Interpretation of social touch on an artifi-cial arm covered with an EIT-based sensitiveskin,” International Journal of Social Robo-tics, vol. 6, no. 4, pp. 489–505, 2014.

[6] D. Silvera Tawil, D. Rye, and M. Velonaki,“Touch modality interpretation for an EIT-based sensitive skin,” in 2011 IEEE Interna-tional Conference on Robotics and Automa-tion, pp. 3770–3776, IEEE, may 2011.

[7] J. Friedman, T. Hastie, and R. Tibshirani,“Additive logistic regression: a statistical viewof boosting,” tech. rep., Stanford University,1998.

[8] M. D. Cooney, S. Nishio, and H. Ishiguro,“Recognizing affection for a touch-based in-teraction with a humanoid robot,” in 2012IEEE/RSJ International Conference on In-telligent Robots and Systems, pp. 1420–1427,IEEE, oct 2012.

[9] Y. Ohmura, Y. Kuniyoshi, and A. Nagaku-bo, “Conformable and scalable tactile sen-sor skin for curved surfaces,” in Proceedings2006 IEEE International Conference on Ro-botics and Automation, 2006. ICRA 2006.,pp. 1348–1353, IEEE, 2006.

[10] J. Paradiso and N. Checka, “Passive acousticsensing for tracking knocks atop large inter-active displays,” in Proceedings of IEEE Sen-sors, vol. 1, pp. 521–527, IEEE, 2002.

[11] C. Harrison and S. E. Hudson, “Scratch input:creating large, inexpensive, unpowered andmobile finger input surfaces,” in Proceedingsof the 21st annual ACM symposium on User

XXXVIII Jornadas de Automática

730

Page 8: Micrófonos de contacto: una alternativa para sensado ...

interface software and technology - UIST ’08,(New York, New York, USA), p. 205, ACMPress, October 2008.

[12] R. Murray-Smith, J. Williamson, S. Hughes,and T. Quaade, “Stane: synthesized surfacesfor tactile input,” in Proceeding of the twenty-sixth annual CHI conference on Human fac-tors in computing systems - CHI ’08, (NewYork, New York, USA), p. 1299, ACM Press,apr 2008.

[13] P. Lopes, R. Jota, and J. A. Jorge, “Augmen-ting touch interaction through acoustic sen-sing,” in Proceedings of the ACM Internatio-nal Conference on Interactive Tabletops andSurfaces - ITS ’11, (New York, New York,USA), p. 53, ACM Press, nov 2011.

[14] M. A. Salichs, R. Barber, A. M. Khamis,M. Malfaz, J. F. Gorostiza, R. Pacheco, R. Ri-vas, A. Corrales, E. Delgado, and D. Garcia,“Maggie: A robotic platform for human-robotsocial interaction,” in 2006 IEEE Conferenceon Robotics, Automation and Mechatronics,pp. 1–7, June 2006.

[15] G. Wang, P. R. Cook, and S. Salazar, “Chuck:A strongly-timed computer music langua-ge,” Computer Music Journal, vol. 39, no. 4,pp. 10–29, 2015.

[16] F. Alonso-Martin, M. Malfaz, J. Sequeira,J. Gorostiza, and M. A. Salichs, “A Mul-timodal Emotion Detection System duringHuman-Robot Interaction,” Sensors, vol. 13,no. 11, pp. 15549–15581, 2013.

[17] A. Klapuri, Introduction to Music Transcrip-tion, p. 8. Springer.

[18] A. Cheveign and H. Kawahara, “Yin, afundamental frequency estimator for speechand music,” J. Acoust. Soc. Am., vol. 111,pp. 1917–1930, 2002.

[19] P. McLeod and G. Wyvill, “A smarter wayto find pitch,” in Proceedings of InternationalComputer Music Conference (ICMC), (Bar-celona, Spain), September 2005.

[20] E. Larson and R. Maddox, “Real-time time-domain pitch tracking using wavelets,” inProceedings of the University of Illinois atUrbana Champaign Research Experience forUndergraduates Program, (Champaign, IL,USA), August 2005.

[21] T. K. Ho, “Random decision forest,” in Pro-ceedings of the 3rd International Conferen-ce on Document Analysis and Recognition,pp. 278–282, August 1995.

[22] D. Aha and D. Kibler, “Instance-based lear-ning algorithms,” Machine Learning, vol. 6,pp. 37–66, 1991.

[23] J. Platt, “Sequential minimal optimization: Afast algorithm for training support vector ma-chines,” tech. rep., Microsoft Research, April1998.

XXXVIII Jornadas de Automática

731