Tecnicas de busqueda por similitud de patrones

2
ecnicas de B´ usqueda por similitud Universidad Nacional de Trujillo Ingenier´ ıa inform´ atica Orlando Salazar Campos Daniel Cam Urquizo [email protected] Palabras claves distancia, mala palabra, b´ usqueda, similitud, t´ ecnica, dimensi´ on, operaciones 1 Concepto Proporcionar soporte de indexaci´ on para b´ usquedas similitud es un ´ area importante donde a´ un queda mu- cho trabajo por hacer. Algunas de las l´ ıneas de inves- tigaci´ on m´ as prometedores se encuentran en el desar- rollo de t´ ecnicas para identificar las caracter´ ısticas importantes en las aplicaciones de manera que la dimensi´ on del dominio del problema puede ser re- ducido. Una alternativa es encontrar una inmersi´ on de la funci´ on de distancia en un espacio vectorial lo que nos permite utilizar adecuadamente la amplia gama de indexaci´ on existentes y las t´ ecnicas de ve- cinos m´ as cercanos. 2 ecnicas de b´ usqueda 2.1 ecnica Dimension de Palabras malas Una soluci´ on aparentemente sencilla de encontrar el vecino m´ as cercano es calcular un diagrama de Voronoi para los puntos de datos ( una partici´ on del espacio en regiones en las que todas puntos de la regi´ on est´ an m´ as cerca de los datos asociados de la regi´ on punto que a cualquier otro punto de datos ) y, a continuaci´ on, busque la regi´ on de Voronoi cor- respondiente al punto de consulta. Crece de forma exponencial con su dimensi´ on k de modo que para N puntos, el tiempo para construir y los requisitos de espacio puede crecer tan r´ apidamente como θ(Nk/2). Esto hace que su discutible la aplicabilidad. Lo anterior es t´ ıpico de los problemas que debemos enfrentar cuando se trata de datos de grandes dimen- siones. En t´ erminos generales, las consultas multidi- mensionales se vuelven cada vez m´ as dif´ ıcil a medida que aumenta dimensionalidad. El problema se carac- teriza como la dimensionalidad de la mala palabra de la . Este t´ ermino se utiliza para indicar que el n´ umero de muestras necesarias para estimar una funci´ on arbi- traria con un nivel dado de precisi´ on crece exponen- cialmente con el n´ umero de variables (dimensiones) que lo componen. Para la b´ usqueda de similitud (la usqueda de los vecinos m´ as cercanos), esto significa que el n´ umero de objetos (puntos) en el conjunto de datos que necesitan ser examinados en la derivaci´ on de la estimaci´ on crece exponencialmente con la di- mensi´ on subyacente. La dimensionalidad de la mala palabra tiene una influencia directa en la b´ usqueda de similitud en las dimensiones elevadas, ya que plantea la cuesti´ on de si es o no la b´ usqueda del vecino m´ as cercano es a´ un significativa, de tal dominio. En par- ticular, dejando d denota una funci´ on de distancia, que no tiene que ser necesariamente un indicador de que los vecinos m´ as pr´ oximos, la b´ usqueda no es sig- nificativa cuando la relaci´ on de la varianza de la dis- tancia entre dos puntos al azar p y q, dibujado partir de los datos y la distribuci´ on de la consulta, y la es- perada distancia entre ellos converge a cero como la dimensi´ on k tiende a infinito - es decir, lim x0 V ariance|d(p, q)| Expected|d(p, q)| =0 2.2 Indexaci´onMultidimensional Suponiendo que la dimensionalidad de la mala pal- abra no entran en juego, las respuestas de consultas se ven facilitadas por la clasificaci´ on de los objetos so- bre la base de algunos de sus valores de caracter´ ısticas y la construcci´ on de los ´ ındices adecuados. La alta funci´ on del espacio dimensional se indexa utilizando una estructura de datos multidimensional ( denomi- nado indexaci´ on multidimensional) con las modifica- ciones apropiadas para ajustarse al entorno del prob- lema de alta dimensi´ on. Similitud de b´ usqueda que encuentra objetos similares a un objeto de destino se puede realizar con un rango de b´ usqueda o una usqueda del vecino m´ as cercano en la estructura de datos multidimensional . Sin embargo, a diferencia de las aplicaciones de bases de datos espaciales que la funci´ on de la distancia entre dos objetos es general- mente euclidiana, esto no es necesariamente el caso 1

Transcript of Tecnicas de busqueda por similitud de patrones

Page 1: Tecnicas de busqueda por similitud de patrones

Tecnicas de Busqueda por similitud

Universidad Nacional de TrujilloIngenierıa informatica

Orlando Salazar Campos

Daniel Cam [email protected]

Palabras claves

distancia, mala palabra, busqueda, similitud, tecnica, dimension, operaciones1 Concepto

Proporcionar soporte de indexacion para busquedassimilitud es un area importante donde aun queda mu-cho trabajo por hacer. Algunas de las lıneas de inves-tigacion mas prometedores se encuentran en el desar-rollo de tecnicas para identificar las caracterısticasimportantes en las aplicaciones de manera que ladimension del dominio del problema puede ser re-ducido. Una alternativa es encontrar una inmersionde la funcion de distancia en un espacio vectorial loque nos permite utilizar adecuadamente la ampliagama de indexacion existentes y las tecnicas de ve-cinos mas cercanos.

2 Tecnicas de busqueda

2.1 Tecnica Dimension de Palabrasmalas

Una solucion aparentemente sencilla de encontrarel vecino mas cercano es calcular un diagrama deVoronoi para los puntos de datos ( una particiondel espacio en regiones en las que todas puntos dela region estan mas cerca de los datos asociados dela region punto que a cualquier otro punto de datos) y, a continuacion, busque la region de Voronoi cor-respondiente al punto de consulta. Crece de formaexponencial con su dimension k de modo que para Npuntos, el tiempo para construir y los requisitos deespacio puede crecer tan rapidamente como θ(Nk/2).Esto hace que su discutible la aplicabilidad.

Lo anterior es tıpico de los problemas que debemosenfrentar cuando se trata de datos de grandes dimen-siones. En terminos generales, las consultas multidi-mensionales se vuelven cada vez mas difıcil a medidaque aumenta dimensionalidad. El problema se carac-teriza como la dimensionalidad de la mala palabra dela . Este termino se utiliza para indicar que el numerode muestras necesarias para estimar una funcion arbi-traria con un nivel dado de precision crece exponen-

cialmente con el numero de variables (dimensiones)que lo componen. Para la busqueda de similitud (labusqueda de los vecinos mas cercanos), esto significaque el numero de objetos (puntos) en el conjunto dedatos que necesitan ser examinados en la derivacionde la estimacion crece exponencialmente con la di-mension subyacente. La dimensionalidad de la malapalabra tiene una influencia directa en la busqueda desimilitud en las dimensiones elevadas, ya que planteala cuestion de si es o no la busqueda del vecino mascercano es aun significativa, de tal dominio. En par-ticular, dejando d denota una funcion de distancia,que no tiene que ser necesariamente un indicador deque los vecinos mas proximos, la busqueda no es sig-nificativa cuando la relacion de la varianza de la dis-tancia entre dos puntos al azar p y q, dibujado partirde los datos y la distribucion de la consulta, y la es-perada distancia entre ellos converge a cero como ladimension k tiende a infinito - es decir,

limx→0

V ariance|d(p, q)|Expected|d(p, q)|

= 0

2.2 Indexacion Multidimensional

Suponiendo que la dimensionalidad de la mala pal-abra no entran en juego, las respuestas de consultasse ven facilitadas por la clasificacion de los objetos so-bre la base de algunos de sus valores de caracterısticasy la construccion de los ındices adecuados. La altafuncion del espacio dimensional se indexa utilizandouna estructura de datos multidimensional ( denomi-nado indexacion multidimensional) con las modifica-ciones apropiadas para ajustarse al entorno del prob-lema de alta dimension. Similitud de busqueda queencuentra objetos similares a un objeto de destinose puede realizar con un rango de busqueda o unabusqueda del vecino mas cercano en la estructura dedatos multidimensional . Sin embargo, a diferenciade las aplicaciones de bases de datos espaciales quela funcion de la distancia entre dos objetos es general-mente euclidiana, esto no es necesariamente el caso

1

Page 2: Tecnicas de busqueda por similitud de patrones

de la funcion de espacio de alta dimension, donde lafuncion de distancia puede incluso variar de consultapara consultar en la misma funcion. Buscar en es-pacios de alta dimension es mucho tiempo. Realizarbusquedas por rangos de dimensiones altas es muchomas facil, desde el punto de vista de la complejidadcomputacional, de la realizacion de consultas de simil-itud como consultas de rango no implican el calculode la distancia. En particular, busca a traves de unespacio indexado por lo general implican pruebas decomparacion relativamente simples. Sin embargo, sitenemos que examinar todos los nodos de ındice, elproceso es mas lento. Por el contrario, la similitudde computacion en terminos de busqueda del vecinomas cercano hace uso de la distancia y el procesode calculo de la distancia puede ser computacional-mente complejo. Por ejemplo, el calculo de la dis-tancia euclidiana entre dos puntos en un espacio dealta dimension, por ejemplo d, requiere operacionesde multiplicacion y d − 1 operaciones de adicion, asıcomo una operacion de raız cuadrada (que puede seromitido). Tenga en cuenta tambien que la similitudde computacion requiere la definicion de lo que sig-nifica que dos objetos sean similares, que no siemprees tan obvio.

2.3 Indexacion basado en distancias

A menudo, la unica informacion que tenemosdisponible es una funcion de distancia que indica elgrado de similitud ( o des - similitud ) entre todoslos pares de los N objetos. en general la funcion dedistancia d es necesaria para obedecer la desigualdadtriangular, ser no negativo, y ser simetrica, en cuyocaso se conoce como una metrica y tambien se conocecomo una distancia metrica. Sin embargo, a veces, lafuncion de distancia no es un metrica. A menudo, elgrado de similitud es expresado usando una matriz desimilitud que contiene los valores de distancia entrelos objetos , para todos los pares posibles de los Nobjetos. Dada una funcion de distancia, por lo gen-eral el ındice de objetos con respecto a su distanciade unos pocos objetos seleccionados. Utilizamos eltermino de indexacion basada en la distancia de de-scribir tales metodos. Hay dos esquemas basicos departicion: particion bola y la particion bola hiper-plano generalizada. En particion bola, el conjuntode datos se divide en base a distancias de un objetodistinguido, a veces llamado un punto de vista, en elsubconjunto que esta dentro y el subconjunto que estafuera de una bola alrededor del objeto en la particionhiperplano generalizada, dos objetos distinguidos p1y p2 son elegida y el conjunto de datos se divide so-bre la base de cual de los dos objetos distinguidoses el mas cercano, es decir, todos los objetos de unsubconjunto estan mas cerca de p1 a p2 que, mien-tras que los objetos en el subgrupo B estan mas cercade p2. La asimetrıa de la particion de bola es una

desventaja potencial de este metodo que el exteriorshell tiende a ser muy estrecha para espacios metricosutilizados normalmente en la busqueda de similitudEn contraste, la particion de hiperplano generalizadaes mas simetrica , en la que ambas particiones formanuna ”bola ” alrededor de un objeto. La ventaja delos metodos de indexacion basados en la distancia esque calculos de distancia se utilizan para generar elındice, pero una vez el ındice ha sido construido, lasconsultas de similitud a menudo se pueden realizarcon un numero significativamente menor de calculosde distancia de una exploracion secuencial de todo elconjunto de datos. Por supuesto, en situaciones enlas que es posible que desee aplicar varias diferentesmedidas de distancia, entonces el inconveniente de lastecnicas de indexacion basados en la distancia es querequieren que el ındice sera reconstruido para cadadiferente distancia metrica, que puede ser no triv-ial. Este no es el caso de los metodos de indexacionmultidimensionales que tienen la ventaja de sopor-tar distancia metrica arbitrarias ( sin embargo, estacomparacion no es del todo justo, ya que el supuesto,cuando se utiliza basado en la distancia indexacion, esque a menudo no tenemos valores de funciones comopor ejemplo, en secuencias de ADN).

3 Conclusiones

proporcionar soporte de indexacion para la busquedade similitud es una area importante donde aun quedamucho trabajo por hacer. Algunos de las lıneas de in-vestigacion mas prometedoras se encuentran en el de-sarrollo de tecnicas para identificar las caracterısticasimportantes de la aplicaciones de manera que la di-mension del dominio del problema pueden ser re-ducido. Una alternativa es encontrar una inmersionpara la disfuncion de distancia en un espacio vec-torial,lo que nos permite utilizar adecuadamente laamplia gama de indexacion existentes y tecnicas devecinos mas cercanos.

4 Referencia

4.1 webgrafıa

• Benjamin Bustos, Busqueda por Simil-itud de Modelos,2011. Disponible en:urlhttp://noticias.terra.cl/tecnologia/bits-ciencia-sociedad/blog/2012/05/22/busqueda-por-similitud-de-modelos-3d/

• Pavel Zezula, Similarity Search - The Met-ric Space Approach, 2012. Disponible en:urlhttp://www.nmis.isti.cnr.it/amato/similarity-search-book/

2