IBM y la analitica del dato no estructurado enfoque y soluciones

17
Analítica del dato no estructurado: Enfoque y Soluciones Francisco J. Izquierdo Técnico especialista en gestión de analítica de la información, IBM @fjizquie

description

Content Analytics (Text Analytics + Mining) se refiere al proceso de análisis de texto además de la capacidad para identificar visualmente y explorar las tendencias, patrones, y los hechos estadísticamente relevantes encontrados en distintos tipos de difusión de contenidos a través de fuentes de contenido internas y externas. Además, las tecnologías de clasificación que sólo se basan en reglas no son suficientemente precisas para la mayoría de los casos. Hay que añadir el contexto para poder clasificarlo adecuadamente.

Transcript of IBM y la analitica del dato no estructurado enfoque y soluciones

Page 1: IBM y la analitica del dato no estructurado enfoque y soluciones

Analítica del dato no estructurado: Enfoque y Soluciones

Francisco J. Izquierdo

Técnico especialista en gestión de analítica de la información, IBM

@fjizquie

Page 2: IBM y la analitica del dato no estructurado enfoque y soluciones

2

¿Guardar toda la documentación es la solución?

Tenemos poca visibilidad sobre qué información

guardar, dónde y por qué

Cuesta mucho conseguir información crítica en

escenarios de requisitos legales y en fechas

límite

Los costes de almacenamiento en espacio, energía e infraestructuras se

disparan

La información válida está enterrada con mucha otra innecesaria

(obsoleta, irrelevante, duplicada)

El modelo de “Guardar todo eternamente”

ya no es válido

Page 3: IBM y la analitica del dato no estructurado enfoque y soluciones

Web Pages

Text Messages

Emails

Documents

* AIIM website, accepted industry percentage

El Imperativo del Análisis TextualEl concepto de Análisis de Información está cambiando desde datos

transaccionales y estructurados hacia información interactiva y no

estructurada

Más del 80% de la información almacenada es no estructurada

3

Page 4: IBM y la analitica del dato no estructurado enfoque y soluciones

Electronic Document Reference Model

4

Page 5: IBM y la analitica del dato no estructurado enfoque y soluciones

Electronic Document Reference Model

IBM Content Collector

5

Page 6: IBM y la analitica del dato no estructurado enfoque y soluciones

Electronic Document Reference Model• La metodología IBM Content Assessment cubre cada una de las fases del

modelo EDRM

IBM Classification Module

&

IBM Content Analytics:

Analytics Collection

6

Page 7: IBM y la analitica del dato no estructurado enfoque y soluciones

7

El papel del Análisis de Texto

Page 8: IBM y la analitica del dato no estructurado enfoque y soluciones

8

¿Qué es él Análisis de Texto?

Text Analytics (NLP) describe un

conjunto de técnicas

estadísticas lingüísticas, y de

aprendizaje automático que

permiten que el texto a analizar

y la extracción de información

sea clave para la integración de

negocios.Qué es Content Analytics?

Content Analytics (Text Analytics + Mining)

se refiere al proceso de análisis de texto

además de la capacidad para identificar

visualmente y explorar las tendencias,

patrones, y los hechos estadísticamente

relevantes encontrados en distintos tipos

de difusión de contenidos a través de

fuentes de contenido internas y externas

Definiciones

Page 9: IBM y la analitica del dato no estructurado enfoque y soluciones

El Análisis de Contenidos facilita su correcta eliminación

11

Contenido en origen

Sistemas sobrecargados con un almacenamiento poco eficiente

Informaciónnecesaria

Informacióninnecesaria

La eliminación de contenidos

favorece el control sobre

los mismos, eliminando

aquella información

que ya no es necesariaUn cliente encontró en sus unidades de red 1200

copias de un mismo documento, incluyendo 5

versiones diferentes.

Page 10: IBM y la analitica del dato no estructurado enfoque y soluciones

12

IBM Content ClassificationClasificación avanzada que aprovecha el contexto de los contenidos

Las tecnologías de clasificación que sólo se basan en reglas no son suficientemente precisas para la mayoría de los casos.

Hay que añadir el contexto

Page 11: IBM y la analitica del dato no estructurado enfoque y soluciones

Clasificación Automática: opciones

Bajo Alto

Alto

Bajo

Ahorro de Costes

Productividad

Precisión

Clasificación

Manual

Plantillas

de Creación

Clasificaxión

Basada en Reglas

Clasificación

Basada en Contexto

Reglas

Simples

Políticas

Complejas

Métodos

Múltiples

Page 12: IBM y la analitica del dato no estructurado enfoque y soluciones

Classification Workbench

14

Una “Knowledge Base” (KB) es

un índice estadístico que permite

clasificar documentos según una

taxonomía

Se entrena mediante una lista de

categorías con ejemplos, y a

partir de ese momento se puede

utilizar para proponer categorías

Un “Decision Plan” es una

secuencoia de reglas, que pueden

utilizar una KB para clasificar los

nuevos documentos que lleguen

Page 13: IBM y la analitica del dato no estructurado enfoque y soluciones

Planes de Decisión

Page 14: IBM y la analitica del dato no estructurado enfoque y soluciones

Ruta de Captura

Page 15: IBM y la analitica del dato no estructurado enfoque y soluciones

Taxonomy Proposer

Page 16: IBM y la analitica del dato no estructurado enfoque y soluciones

Ventana de Búsquedas

Page 17: IBM y la analitica del dato no estructurado enfoque y soluciones

GRACIAS

www.ibm.com/software/es/ecm

@fjizquie