An Introduction to Textalytics API - Redradix Weekend

63
Tecnología para Publicación Semántica Textalytics by Daedalus César de Pablo - @zdepablo [email protected] Daedalus 1 de marzo de 2014 La manera más sencilla de incorporar procesamiento semántico a tus aplicaciones

description

Introduction to NLP and the Core API in Textalytics. Core API functionalities include Language Identification, Text Classification, Parsing , Topics and Entity Extraction, Sentment Analysis, Text Proofreading and even Speech Recognition. The presentation introduces Natural Language Processing tasks and how they help to build a semantic representation of texts. Linked Open Data (LOD) is also introduced as Topics Extraction API includes link to the most popular LOD repoositories as well as Wikipedia

Transcript of An Introduction to Textalytics API - Redradix Weekend

Page 1: An Introduction to Textalytics API - Redradix Weekend

Tecnología para Publicación Semántica

Textalyticsby Daedalus

César de Pablo - @[email protected]

Daedalus1 de marzo de 2014

La manera más sencillade incorporar

procesamiento semántico a tus aplicaciones

Page 2: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Agenda

Introducción a Textalytics (1h)

1. Daedalus - ¿Quienes somos?

2. Textalytics: Análisis de lenguaje y text mining

3. Paseo por las Core API

4. API verticales – Media Analysis – Semantic Publishing

Hacking (1h)

Page 3: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Daedalus

Variedad Trata contenidos de

cualquier canal: noticias, redes sociales, blogs, etc.

Puede procesar texto, voz, video

Capacidades multiidioma (incl. español)

Velocidad Realiza análisis

sofisticados en tiempo real

Permite gestionar “por excepción”

Volumen Tecnología multiproceso

escalable Disponible en la nube

Empresa española especializada en el procesamiento de contenido no

estructurado, procesamiento de lenguaje natural y minería de texto.

Daedalus resuelve las “3 Vs” en análisis de contenido no estructurado

Page 4: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Medios

Servicios de información

Telecomunicación

Administración Pública

Defensa, Energía

Algunos clientes

Page 5: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Demo

Page 6: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Machine Learning

… la dificultad está en combinarlas de manera óptima para cada aplicación

Ontologías

Procesamiento de Lenguaje Natural

Una variedad de tecnologías

Page 7: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Nuestras nuevas APIs Semánticas

No es la típica API Lingüística

APIs Semánticas de alto nivel, optimizadas para escenarios de aplicación

Core API: funcionalidades individuales

TopicsTopics

SentimentSentiment

Classif.Classif.

Linked DataLinked Data

POSPOS

Configuración yRecursos

Lingüísticos

Configuración yRecursos

Lingüísticos

Configuración yRecursos

Lingüísticos

Configuración yRecursos

Lingüísticos

Configuración yRecursos

Lingüísticos

Configuración yRecursos

Lingüísticos

API Análisis Medios

API Publicación Semántica

API Voz del Cliente (may)

Page 8: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Nuestras nuevas APIs Semánticas

No es la típica API Lingüística

APIs Semánticas de alto nivel, optimizadas para escenarios de aplicación

Core API: funcionalidades individuales

TopicsTopics

SentimentSentiment

Classif.Classif.

Linked DataLinked Data

POSPOS

Configuración yRecursos

Lingüísticos

Configuración yRecursos

Lingüísticos

Configuración yRecursos

Lingüísticos

Configuración yRecursos

Lingüísticos

Configuración yRecursos

Lingüísticos

Configuración yRecursos

Lingüísticos

API Análisis Medios

API Publicación Semántica

API Voz del Cliente (may)

Page 9: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

● Natural Language Processing and Semantics API ● Multilingüe: EN, ES (FR,IT,PT,CA)● Servicios REST: JSON and XML● Developer SDK● Integración con herramientas de búsqueda: Solr,

ElasticSearch● Integracion con plataformas de procesamiento de contenido:

GATE, UIMa● Herramientas de productividad (Excel) + CMS

Características

Page 10: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Page 11: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Análisis de lenguaje

El Iphone me pero el teclado es incómodome gusta .

Page 12: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Análisis de lenguaje

El Iphone me pero el teclado es incómodome gustaTokenización .

Page 13: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Análisis de lenguaje

El Iphone me pero el teclado es incómodome

incómodosertecladoelperoyoIphoneEl

gusta

gustarLematización

Tokenización

.

.

Page 14: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Análisis de lenguaje

El Iphone me pero el teclado es incómodome

incómodosertecladoelperoyoIphoneEl

gusta

gustarLematización

Tokenización

.

.

Morfologia N N AV VCPT T 1

Page 15: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Análisis de lenguaje

El Iphone me pero el teclado es incómodome

incómodosertecladoelperoyoIphoneEl

gusta

gustarLematización

Tokenización

.

.

.Morfologia N N AV VCPT T 1

Morfologiadetallada

VI-S3PSAIL-N3

categoria: Verbomodo: Indicativogénero: -número: Singularpersona: 3ºtiempo: Presenteaspecto: simplevoz: Activatransitividad: Intransitivo

Page 16: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Análisis de lenguaje

El Iphone me pero el teclado es incómodome

incómodosertecladoelperoyoIphoneEl

gusta

gustarLematización

Tokenización

.

.

.Morfologia N N AV VCPT T 1

Sintaxis superf SN V SN SVSN SV C SA

Page 17: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Análisis de lenguaje

El Iphone me pero el teclado es incómodome

incómodosertecladoelperoyoIphoneEl

gusta

gustarLematización

Tokenización

.

.

.Morfologia N N AV VCPT T 1

Sintaxis superf SN V SN SVSN SV C

SintaxisGNSV SVSV

O OCO

SA

Page 18: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Análisis de lenguaje

El Iphone me pero el teclado es incómodome

incómodosertecladoelperoyoIphoneEl

gusta

gustarLematización

Tokenización

.

.

.Morfologia N N AV VCPT T 1

Sintaxis superf SN V SN SVSN SV C

SintaxisGNSV SVSV

O OC

Semántica

O

SA

Page 19: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Análisis de lenguaje

El Iphone me pero el teclado es incómodome

incómodosertecladoelperoyoIphoneEl

gusta

gustarLematización

Tokenización

.

.

.Morfologia N N AV VCPT T 1

Sintaxis superf SN V SN SVSN SV C

SintaxisGNSV SVSV

O OC

Semántica

O

SA

Page 20: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Análisis de lenguaje

El Iphone me pero el teclado es incómodome

incómodosertecladoelperoyoIphoneEl

gusta

gustarLematización

Tokenización

.

.

.Morfologia N N AV VCPT T 1

Sintaxis superf SN V SN SVSN SV C

SintaxisGNSV SVSV

O OC

Semántica

O

SA

Page 21: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Análisis de lenguaje

El Iphone me pero el teclado es incómodome gusta

Semántica

Page 22: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Análisis de lenguaje

El Iphone me pero el teclado es incómodome gusta

Semántica

Conocimiento

fabricado por

Page 23: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Análisis de lenguaje

El Iphone me pero el teclado es incómodome gusta

Semántica

Conocimiento

fabricado por

http://dbpedia.org/page/IPhone

http://dbpedia.org/page/Apple_Inc.

fabricado por

Page 24: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Análisis de lenguaje

El Iphone me pero el teclado es incómodome gusta

Semántica

Conocimiento

fabricado por

http://dbpedia.org/page/IPhone

http://dbpedia.org/page/Apple_Inc.

fabricado por

Page 25: An Introduction to Textalytics API - Redradix Weekend
Page 26: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Core API

Page 27: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Language Identification API

● Identifica el idioma de un documento de texto

– proporciona una lista de idiomas

– idealmente un solo idioma● Elige entre 62 idiomas

● Usa “firmas” de n-gramas

Page 28: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Page 29: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Text Classification API

● Clasifica un documento respecto a su temática

– multiples etiquetas

– jerarquia temática (taxonomía)

– relevancia

● modelos predefinidos – IPTC, EUROVOC, Businnes Reputation

● construye tus propios modelos (SemPub API)

Page 30: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Text Classification API

Page 31: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Page 32: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Lemmatization, POS and Parser API

● Lematización – raiz de las palabras

● Part of Speech – Análisis morfológico detallado

● Reconocimiento de oraciones

● Parsing – analisis sintáctico de constituyentes

● Correferencia

Page 33: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Lemmatization, POS and Parser API

Fila 1 Fila 2 Fila 3 Fila 40

2

4

6

8

10

12

Columna 1

Columna 2

Columna 3

Page 34: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Page 35: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Topics Extraction API

● Extracción del “ADN” del significado

● Entidades – RedRadix, IPhone

● Conceptos – empresa, teléfono, desarrollo de software

● Datos relevantes

– Expresiones temporales

– Cantidades económicas

– Direcciones electrónicas

– Teléfonos

Page 36: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Topics Extraction API

● 9 tipos principales

● + de 200 tipos (ontología)

● Instances – BBVA

● Classes – bank

● fictional/historic

person

location

organization

product

event

living thing

id

unit

other entity

Page 37: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Social TV – organizando la conversación en tiempo real

Page 38: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Caso cliente: WhoGotFunded

Eventos de financiación Empresa/start-up País Sector Cantidad Inversor/es

Regístrate gratis en http://www.whogotfunded.com

Caso cliente: WhoGotFunded

Page 39: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Page 40: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Inserción de conocimiento

● Reconocer: Apple

● Clasificar:– Top>Organization>Company>

TechnologyCompany>SoftwareCompany

● Agrupar:

– Apple, Apple Inc

● Desambiguar:

– apple vs Apple Inc.

Page 41: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Linked Open Data

“best practice for exposing, sharing and connecting pieces of data, information and knowledge using URIs and RDF”

Page 42: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Linked Open Data

“best practice for exposing, sharing and connecting pieces of data, information and knowledge using URIs and RDF”

Web for Humans Web for Machines

Page 43: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Linked Open Data

1. Usar URI para denotar cosas

2. Usar HTTP URI para que se puedan resolver por personas y “user agents”

3. Proporciona información util usando estándares como RDF y SPARQL

4. Incluye enlaces a otras cosas relacionadas usando sus URI

Page 44: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

http://dbpedia.org/page/Apple http://dbpedia.org/page/Apple_Inc.

Page 45: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

http://www.freebase.com/m/0k8z

Page 46: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Page 47: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Semantic Linked Data Viewer API

● Facilita el acceso a la nube de Linked Data

● recuperar “hechos” más importantes en un idioma concreto

● Conectado a la ontología de Daedalus

Page 48: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Second Screen – enlazado

Page 49: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Sentiment Analysis API

● Extracción de sentimiento a nivel de documento

– Sentimiento: Positivo, Negativo, Neutro

– Subjetivo/Objetivo

● Extracción de opiniones para:

– Entidades

– Conceptos

● Adaptado a textos cortos (micropost) y UGC

– RT, @, hashtags, emoticons, spelling errors, disfluence

Page 50: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Social TV – monitorizando el sentimiento de un programa

Page 51: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Page 52: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

User Demographics API

● Perfilado de los usuarios según perfil de redes sociales (Twitter)

– Tipo: Persona, Organización

– Sexo: masculino, femenino

– Edad

Page 53: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Demostrador Buying Signals

Page 54: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Demostrador Buying Signals

Page 55: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Spell, Grammar and Style Proofreading API

● Correción de textos

– Ortográfica

– Gramátical

– Estilo

● Guías de estilo: EL PAIS, RAE, Fundeu

● Sugerencias, correción interactiva, varios diccionarios temáticos y variedades lingüísticas

Page 56: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Speech Recognition and Speaker Diarization API

● Bulk API

● Reconocimiento de habla continua

– contenido multimedia: transcripción de video y audio

– no interactivo

– vocabulario independiente de dominio – alta precisión

● Reconocimiento de locutor

– Identificación de cada hablante y características (sexo)

Page 57: An Introduction to Textalytics API - Redradix Weekend
Page 58: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Media Analysis API

Media Analysis API

Para quién Agencias y departamentos de marketing/comunicación/ seguimiento de medios, depart. reputación corporativa

Qué necesidad cubre

Entender lo que se dice en medios sociales y tradicionales en volumen, velocidad, variedad

Cómo lo hace Servicios personalizables para monitorización de marcas, organizaciones, personas, temas, análisis de sentimiento

Beneficios Información más completa, precisa y “actuable” de todo tipo de medios, en tiempo real y sin importar volumen

Aplicaciones Seguimiento de medios, análisis competitivo, social TV, publicidad enfocada (intención)

Disponibilidad YA

Page 59: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Semantic Publishing API

Semantic Publishing API

Para quién Medios de comunicación (prensa, radio, TV), editoriales, publicadores de contenidos

Qué necesidad cubre

Producir contenidos más valiosos, más rápidamente y con menor coste, monetizarlos mejor

Cómo lo hace Servicios personalizables de etiquetado, enriquecimiento, revisión

Beneficios Mayores posibilidades de caracterizar, descubrir, encontrar, reutilizar, modularizar, relacionar, combinar, personalizar… contenidos

Aplicaciones Publicación semántica dinámica, productos a medida, gestión de archivo/activos digitales, publicidad enfocada (contexto)

Disponibilidad Ya

Page 60: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Page 61: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Precios

Crédito: unidad de consumo para todas las API El usuario puede gastar sus créditos en las API que desee Las API consumen créditos a diferente velocidad

500.000 créditos/mes GRATIS

1 crédito = 1 palabra procesada

con una API de alto nivel

Page 62: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

Roadmap (sujeto a cambios)

Semantic Publishing API• Etiquetado y enriquecimiento• Corrección y estandarización

Funcionalidad transversal• Diccionarios y modelos

personalizados

Voice of Customer API• Moderación de contenidos• Buying signals• Reputación corporativa• Modelos de clasificación

orientados a CRM

Funcionalidad transversal• Ayudas a la integración y

fomento del ecosistema• plug-ins CMS• integración ofimática• plataforma aps. móviles• integración buscadores• integración entornos PLN

FAQs API• Consulta en lenguaje natural

Funcionalidad transversal• Detección de relaciones

dependientes de la aplicación

• Perfilado avanzado de usuarios

• Clasificación de emociones

Febrero 2014 Mayo 2014 Septiembre 2014

Page 63: An Introduction to Textalytics API - Redradix Weekend

Textalytics API – Meaning as a Service

¡Gracias por vuestra atención!

Preguntas, sugerencias, etc.

Antonio MatarranzDirector [email protected]

Daedalus, S.A.Tel: +34 [email protected]://www.daedalus.es@daedalus_sa