AppMetrics - Análisis y datos sobre el mercado de aplicaciones móviles

28
App metrics MBIT – Master Executive Big Data Science 25 Junio 2016 Miguel Póliz Ferran Arroyo Daniel García Carlos Ruiz m A Presentación Final

Transcript of AppMetrics - Análisis y datos sobre el mercado de aplicaciones móviles

Appmetrics

MBIT – Master Executive Big Data Science 25 Junio 2016 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

mA

Presentación Final

AGENDA

1 El Proyecto

2 Infraestructura

3 Analítica

4 Conclusiones

5 Modelo de negocio

6 QA

MBIT – Master Executive Big Data Science 2 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

EL PROYECTO

Optimización de precios

Análisis de competencia

MERCADO OBJETIVO• Desarrolladores de aplicaciones• App Stores

MBIT – Master Executive Big Data Science 3 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

RIESGOS Y LIMITACIONES

MBIT – Master Executive Big Data Science 4 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

Riesgos y limitaciones Plan de mitigación

Muestra estratificada:• Aplicaciones más relevantes (mayor

número de comentarios por categoría)

Dependencia de las fuentes• Recopilación periódica de datos para

análisis históricos.• Evaluación de fuentes alternativas

Disponibilidad de los datos

Alcance limitado debido a:• Imposibilidad de recuperar información

sobre permisos por aplicación• Necesidad de aplicar a todo el universo.

Volumen de datos

Detección de fraude

EQUIPO EQUILIBRADO

Experience

ComputerScience

Analytics

BusinessKnowledge

Daniel GarcíaBI IT Administrator & Data Science

Experience

ComputerScience

Analytics

BusinessKnowledge

Miguel PólizBI Project Manager & Data Science

Experience

ComputerScience

Analytics

BusinessKnowledge

Carlos RuizBI SW Architect & Data Science

Experience

ComputerScience

Analytics

BusinessKnowledge

Ferran ArroyoBI Data Architect & Data Science

MBIT – Master Executive Big Data Science 5 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

MERCADO ACTUAL

MBIT – Master Executive Big Data Science 6 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

* https://en.wikipedia.org/wiki/List_of_mobile_software_distribution_platforms

Google Play iTunes Store

450000

800000

1200000

1400000

2012 2013 2014 2015

Número de aplicaciones Descargas

100 billion

50 billion

+150 billones de descargas

desde 2008

Usuarios

+ 850 descargas por segundo

+ 120 aplicaciones descargadas por usuario

MERCADO ACTUAL - Competencia

MBIT – Master Executive Big Data Science 7 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

AppAnie AppMonsta AppLyzer Appmetrics

Análisis de

optimización de

precio

Centrado en sistemas de

incremento de ingresos,

pero sin un análisis de

optimización concreto

Ofrece datos en bruto.

Múltiples indicadores

respectos al mercado,

basados en precio y

beneficios.

Múltiples indicadores

respecto al mercado

Análisis de

competencia

Ranking análisis basado

en descargas, palabras

clave, puntuaciones y

App Store top ranking

Ofrece datos en bruto.

Combina información de

redes sociales.

Ranking análisis basado

en descargas, palabras

clave, puntuaciones y

App Store top ranking

Comparativa entre

aplicaciones de segmentos

similares (clusterización)

Evolución de las

aplicaciones en el

tiempo

Evolución del ranking de

descargas e ingresos.Ofrece datos en bruto.

Datos históricos de los

rankings basados en las

App Stores.

Análisis semanal de la

relación entre ratings,

ranking Alexa y número de

comentarios

Análisis de

comentarios

Análisis demográfico de

uso de aplicaciones sin

análisis de sentimientos

Análisis de sentimiento.Impacto de palabras

clave.

Análisis de sentimiento y

evolución del mismo en el

tiempo.

AGENDA

1 El Proyecto

2 Infraestructura

3 Analítica

4 Conclusiones

5 Modelo de negocio

6 QA

MBIT – Master Executive Big Data Science 8 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

APPLE STORE – INFRAESTRUCTURA AZURE

MBIT – Master Executive Big Data Science 9 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

1. DataSources

2. Data Acquisition

3. Data Storage

4. Data Processing

3. Data Analysis

4. Reporting & Visualization

iTunes Store Website

iTunes Store RSS

ETL Data LakeBI

Analysis /Prediction

ETL

Azure Blob Storage

Programas personalizados

Azure SQL

APPLE STORE - OBTENCIÓN Y PROCESAMIENTO DE DATOS

MBIT – Master Executive Big Data Science 10 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

Semana N Semana N+1

Web Scrapping Lee IDs de aplicaciones

PASOS:1. iTunes Store API (información básica)2. iTunes Web scrapping (Aplicaciones relacionadas, fecha

de actualización…)3. Lector RSS Reader (cometarios para text mining)

Almacenamiento permanente para mantener datos históricos

RECOLECCIÓN DE DATOS (SEMANA N)

PROCESAMIENTO DE DATOS

(SEMANA N-1)

APPLE STORE - OBTENCIÓN Y PROCESAMIENTO DE DATOS

MBIT – Master Executive Big Data Science 11 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

Semana N Semana N+1

RECOLECCIÓN DE DATOS

(SEMANA N+1)

.

API

RSSWEB

PROCESAMIENTO DE DATOS (SEMANA N)

Read App Data

Extract

Transform

Load

Creación automática del clúster

Azure SQL

Obtención de Ranking Alexa

GOOGLE PLAY – INFRAESTRUCTURA GOOGLE CLOUD

MBIT – Master Executive Big Data Science 12 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

1. DataSources

2. Data Acquisition

3. Data Storage

4. Data Processing

3. Data Analysis

4. Reporting & Visualization

ETL Data Lake ETL

Scrapy web crawler Computer Engine

BIAnalysis /Prediction

GOOGLE PLAY - OBTENCIÓN Y PROCESAMIENTO DE DATOS

MBIT – Master Executive Big Data Science 13 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

Semana N

Web Scrapping. Recopilación de la información de todas las aplicaciones existentes

Almacenamiento permanente para mantener datos históricos

RECOLECCIÓN DE DATOS PROCESAMIENTO DE DATOS

Read App Data

Extract

Transform

Load

Creación del clúster

AGENDA

1 El Proyecto

2 Infraestructura

3 Analítica

4 Conclusiones

5 Modelo de negocio

6 QA

MBIT – Master Executive Big Data Science 14 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

IMP

OSS

IBLE

CA

SES

PO

SSIB

LE C

ASE

S

TEXT ANALYTICS – Universo de casos posibles

MBIT – Master Executive Big Data Science 15 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

TEXT ANALYTICS

LIKE / NO LIKE / UNCLASSIFIED

STANDARD CLASSIFICATION

ERROR / POWERFUL

SPECIAL CLASSIFICATION

Like Errors

Powerful

Not Like Errors

Powerful

Like Powerful

Like Errors

Not Like Errors

Not Like Powerful

Like

Not Like

Unclassified

TEXT ANALYTICS – Ejemplos de opiniones clasificadas

MBIT – Master Executive Big Data Science 16 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

TEXT ANALYTICS

LIKE / NO LIKE / UNCLASSIFIED

STANDARD CLASSIFICATION

ERROR / POWERFUL

SPECIAL CLASSIFICATION

TEXT ANALYTICS – CREACION DEL MODELO DE CLASIFICACIÓN

MBIT – Master Executive Big Data Science 17 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

Naïve Bayes

Otros algoritmos

• El algoritmo solo clasifica una de las clases posibles.

• Accuracy bajo

• MAXENTROPY_LABEL detecta todas las clases• FOREST_LABEL únicamente detecta una clase• Accuracy bajo en general• Objetivo: 75-80%

TEXT ANALYTICS – ANALISIS DESCRIPTIVO. VISUALIZACIÓN DE LOS DATOS.

MBIT – Master Executive Big Data Science 18 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

Mix de sentimientos

Nube de tags

ESTIMACIÓN DE DESCARGAS – ANALISIS INICIAL DE LOS DATOS

MBIT – Master Executive Big Data Science 19 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

Unificación de categorías Variables del modelo

Correlación entre las variables

• Correlación positiva alta entre descargas y número de reviews.• Correlación prácticamente inexistente entre rating_value y

filesize y el número de descargas. • No existe multicolinealidad entre las variables independientes

ESTIMACIÓN DE DESCARGAS – ANALISIS DE OUTLIERS

MBIT – Master Executive Big Data Science 20 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

• 31 apps eliminadas quitando categorías 16 y 17.• 206 apps eliminadas quitando outliers cat 12-14

ESTIMACIÓN DE DESCARGAS – RESULTADOS DEL MODELO

MBIT – Master Executive Big Data Science 21 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

• La variable review_number es significativa individualmente y en su conjunto

• El coeficiente sobre el número de reviews, toma el valor 65.77. Esta es la aproximación que utilizaremos para estimar el número de descargas de la App Store.

• Los géneros que mejor se ajustan con este modelo son Games, Entertainment, Music y Photo&Video.

• Los géneros que peor se ajustan son Books y Health&Fitness

AGENDA

1 El Proyecto

2 Infraestructura

3 Analítica

4 Conclusiones

5 Modelo de negocio

6 QA

MBIT – Master Executive Big Data Science 22 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

DEMO

MBIT – Master Executive Big Data Science 23 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

Demo

AGENDA

1 El Proyecto

2 Infraestructura

3 Analítica

4 Conclusiones

5 Modelo de negocio

6 QA

MBIT – Master Executive Big Data Science 24 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

MODELO DE NEGOCIO

MBIT – Master Executive Big Data Science 25 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

SOCIOS PRINCIPALES ACTIVIDADES PROPUESTA DE VALOR RELACIONES CON CLIENTES SEGMENTOS DE CLIENTES

• App Stores (iTunes/Google Play)

• Alexa API• Redes sociales

(Facebook, Twitter)

• Optimización de precios• Análisis de competencia• Detección de fraude

• Análisis descriptivos• Análisis predictivos• Análisis de sentimientos• Clusterización

• Asistencia personalizada.• Petición de informes ad-

hoc• Automatización de

reportes• Desarrolladores de

Aplicaciones• Empresas de marketing• Data scientists• App stores

RECURSOS PRINCIPALES CANALES

• Infraestructuras cloud• Azure Machine Learning• Herramientas de reporting

• Website• E-mail• Aplicación móvil• Redes sociales

ESTRUCTURAS DE COSTES FUENTES DE INGRESOS

• Costes fijos:• Mantenimiento básico de infraestructuras (escalables)• Mantenimiento del Website• Factores humanos

• Costes variables:• Costes de desarrollo• Campañas de marketing

• Analítica como servicio (AaaS) • Venta de datos RAW• Modelos de subscripción• Reportes personalizados

AGENDA

1 El Proyecto

2 Infraestructura

3 Analítica

4 Conclusiones

5 Modelo de negocio

6 QA

MBIT – Master Executive Big Data Science 26 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

MBIT – Master Executive Big Data Science 27 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz

THANKYOU

MBIT – Master Executive Big Data Science 29 Miguel Póliz ● Ferran Arroyo ● Daniel García ● Carlos Ruiz