Prediction of Cellphone Losses in Sell-Points of Telecom...

Prediction of Cellphone Losses in Sell-Points of Telecom Companies Using Logistic Regression Model and Random Forest

Technique

Sherly Tarazona Tocto, Carlos Chero Cajusol, Luis Quintana Bonifacio.

Escuela Profesional de Ingeniería Estadística

Facultad de Ingeniería Económica, Estadística y CC.SS

Universidad Nacional de Ingeniería

Asignatura: Métodos Econométricos I

RESUMEN El presente estudio parte del problema: ¿Cuáles son los puntos de venta de celulares con mayor propensión a la fuga de terminales? Para responder ello, se escogió el modelo más adecuado entre la Regresión Logística con estimación bootstrap y la técnica de Random Forest. El modelo con el que se trabajó fue Random forest, que tras arrojar un Índice de Gini de 99.16% superaba en ajuste y capacidad de predicción al modelo de regresión logística. Asimismo, nos permitió conocer que las variables Riesgo de subvención, Tipo de equipo y Margen equipo son las variables que más influyen para la fuga de terminales. PALABRAS CLAVE: Modelo de regresión Logística, Random Forest, Especificidad, Sensibilidad, Índice de GinI.

INTRODUCCIÓN

La fuga de terminales de celulares es uno de los problemas que mayor pérdida ocasiona a las empresas de telefonía móvil, y Unitel no es la excepción. Por tal motivo, para Unitel es de interés identificar las características de los celulares con mayor propensión a la fuga para tomar medidas que permitan disminuir este número.

A partir del problema mencionado, el objetivo del estudio es Identificar a los puntos de venta con mayor propensión a la fuga de terminales. Para conseguir tal objetivo se compararon los resultados de dos modelos: Modelo de Regresión Logística (logit) y Random Forest (algorithmo de clasificación de datos). El primero es una técnica estadística conocida, de fácil uso y creada en el año 1944

por Joseph Berkson ; el segundo, fue desarrollada

por Leo Breiman en 1996 y siendo mejorada en los

últimos años.

Para escoger la técnica que cumpla con los objetivos fue en base a las comparaciones de los indicadores de desempeño como el índie de Gini, la curva ROC, la sensibilidad y el lift.

En el presente informe se mostrará de manera detallada La presentación del problema, Los objetivos, Descripción de la solución, Resultados, Conclusiones, Bibliografía y Anexos del proyecto.

PRESENTACIÓN DEL PROBLEMA

Unitel es una empresa de telecomunicaciones en el mercado peruano, que en los últimos meses evidenció un aumento en la tasa de fuga de terminales; encontró que a nivel nacional el 28% de todos los celulares adquiridos con el plan prepago fueron identificados como fuga; es decir, celulares que no registran ninguna señal de uso, en cuyo caso, se podría generalizar a una fuga de clientes. Unitel, como la mayoría de empresas del sector de telecomunicaciones, subvenciona el equipo móvil, esperando que con el uso de los celulares, a través de las recargas, pueda recuperar lo invertido, generar ganancias y fidelizar clientes posteriormente.

Gráfico Nº1 Gráfico de Fuga de terminales

Fuente: Elaboración propia – Dic 2015

https://es.wikipedia.org/wiki/Joseph_Berkson

https://es.wikipedia.org/w/index.php?title=Leo_Breiman&action=edit&redlink=1

OBJETIVOS Objetivo general:

Identificar a los puntos de venta con mayor propensión a la fuga de terminales, mediante la elección del modelo más adecuado entre modelo de Regresión Logística y la técnica de Random Forest.

Objetivos específicos:

Determinar el modelo más adecuado entre el modelo de regresión Logística y la técnica de Random Forest.

Determinar las variables más influyentes en la fuga de terminales.

DESCRIPCIÓN DE LA SOLUCIÓN

Para dar solución al problema y cumplir con los objetivos de la investigación, se adoptó la metodología CRISP-DM, que implica desarrollar las siguientes etapas:

1- Comprensión de negocio:

Para Unitel, el identificar los puntos de venta con

mayor riesgo de fuga de terminales es de vital

importancia, ya que le brindaría un criterio para

plantear campañas de promociones a puntos de

venta específicos. Asimismo, el identificar las

características de los equipos con mayor

propensión a ser fugados contribuiría a re-evaluar

la subvención que Unitel realiza por equipo.

2.- Comprensión de los datos:

2.1 Recolección de los datos iniciales:

Unitel recolectó los datos de todos los puntos de venta a nivel nacional. Cada vendedor rellena una ficha con información del equipo vendido. Unitel proporcionó una base de datos de 4434 registros, con un total de 28 variables

2.2 Descripción de los datos:

A continuación se describirán cada una de las variables que se encuentran en nuestra base de datos.

Variable dependiente (target):

Fuga de clientes: Determina si el cliente dejó de usar o no el equipo celular (categorías: SI NO).

Variables independientes:

V. I. de tipo continua:

Precio de venta, Costo Equipo, Margen equipo, Ingresos, Riesgo de subvención.

V. I. de tipo Nominal:

Tipo de equipo, Tecnología, Segmento del equipo, Gama, Marca, Geografía, Región, Zonal.

3.- Preparación de los datos:

3.1 Selección de la muestra:

Se dispuso de una base de datos de 4433 registros, los cuales se dividieron en muestras de construcción y validación, y para la selección de ambas muestras se crearon escenarios que permitieron determinar la mejor partición, los resultados fueron:

Se observa que la partición con mayor valor del índice de Gini y menor diferencia de sensibilidad se obtiene con la participación de 70-30, por lo que la muestra queda determinada de la siguiente manera:

3.2 Limpieza de datos:

En la etapa de limpieza de datos se realizó lo siguiente:

Eliminación de variables redundantes

Se eliminaron registros duplicados, además de variables redundantes como:

TCCCLI, TCSERA: código de imei – chip, TCNFOL, que al ser valores únicos, no aportan al modelo.

Asimismo, no se tomó en cuenta la variable: Zonal, Distrito, pues representan el lugar de compra cada una.

Eliminación de registros duplicados.

Selección de variables.

Para la selección de variables se utilizó el criterio

del índice de Gini, tomando como criterio la

selección de variables independientes cuyo valor

de Gini sea mayor al 13%.

Las variables que entraron al modelo son Tipo de

equipo, Riesgo_subvención, Precio de venta del

equipo, Ingreso del vendedor por cada equipo

vendido, Margen_equipo, Region de venta,

Geografía, Costo real del equipo, Departamento,

Segmento_equipo y Gamma.

4.- Modelado:

Para el modelamiento de nuestros datos, se utilizó dos modelos predictivos, un modelo tradicional: Modelo de Regresión Logística comparado con una técnica de modelamiento moderno: Random Forest.

Modelo de Regresión Logística:

La regresión logística es un caso particular de los Modelos Lineales Generalizados (McCullagh y Nelder, 1989; Zuur et al., 2009). Los modelos de regresión logística binaria es uno de los más simples modelos de clasificación. Estos resultan los de mayor interés ya que la mayor parte de las circunstancias analizadas en cualquier campo responden a la presencia o no de un fenómeno, éxito o fracaso, etc.

La relación entre el valor medio de (𝒀𝒊) y las

covariables considerado para este modelo es el

logit, y por lo tanto, el modelo es definido por:

Tabla Nº 1 Tabla de escenarios de muestras de

construcción y validación

Fuente: Software SPSS – Dic 2015

Tabla Nº 2 Tabla selección de variables


Donde 𝒙𝒊 son las covariables del modelo y 𝛽 son los coeficientes que se estiman por máxima verosimilitud.

RANDOM FOREST

Bosques aleatorios, es una herramienta de clasificación o regresión que se ha desarrollado recientemente (Breiman, 2001). Es una combinación de predictores de árboles de tal manera que cada árbol está construido de forma independiente de los demás. El método es fácil de entender y ha demostrado su eficacia como una herramienta no lineal. Breiman propone dos maneras de construir los bosques aleatorios, ambas con el mismo objetivo, que es conseguir clasificadores básicos, precisos y que, simultáneamente, estén lo menos relacionados entre sí que se pueda. La primera opción, construye los bosques aleatorios mediante la selección aleatoria de las variables de entrada, y la segunda, mediante combinaciones lineales aleatorias de estas variables.

El elemento común en todos estos procedimientos es que para el árbol k-ésimo, se genera un vector aleatorio θk , independiente de los vectores aleatorios utilizados para construir los árboles previos θ1, ..., θk−1 pero con la misma distribución; por tanto, el árbol k-ésimo se construye utilizando el conjunto de entrenamiento θk , obteniéndose un clasificador h(x, θk ), donde x es un vector de entrada. Convergencia de los bosques aleatorios: Dado un conjunto de clasificadores h1 (x), h2 (x),….,hk(x), y con el conjunto de entrenamiento se extraerá al azar la distribución del vector aleatorio Y, X. Se define la función de margen como:

El concepto de margen proviene de la teoría de aprendizaje estadístico y está relacionado con la dimensión VC (Vapnik-Chervonenkis) la cual proporciona un límite superior en la precisión de los modelos de clasificación. Intuitivamente el margen de una observación está relacionada con la certeza o confianza de su clasificación. Las observaciones para las que la clase asignada es correcta, tendrán márgenes positivos y grandes, en caso contrario tendrán márgenes negativos y pequeños. El error de generalización está dada por

Muestran la tendencia de que márgenes positivos y grandes llevan a límites superiores más pequeños en el error de test. Para un gran número de árboles, se desprende de la Ley fuerte de los grandes números, esto se explica por qué los bosques al azar no se sobre ajustan a medida que se agregan más árboles, pero producen un valor límite del error de generalización. La técnica de Random Forest es evaluada según fuerza y correlación. Fuerza 𝒔 = 𝑬𝒙,𝒚 𝒎𝒓(𝒙,𝒚),

Donde 𝑚𝑟(𝑥,𝑦) es la función de margen e indica la diferencia entre la proporción de árboles que aciertan y los que no, este varía entre -1 y 1 y se busca que la fuerza mayor. Correlación 𝝆 = 𝑬𝜽,𝜽′ 𝝆(𝒄(. ,𝜽), 𝒄(. ,𝜽′)) ,

Donde 𝜌 corresponde al coeficiente de correlación entre dos variables aleatorias la cual se busca que sea mínima.

Gráfico Nº 2 Esquema de trabajo de la

técnica de Random Forest

Fuente: El autor: Breiman

RESULTADOS 1. Modelo de Regresión Logística (Logit) 1.1 Análisis del poder de discriminación del modelo

Tabla de clasificación del modelo

Se observó que la sensibilidad (capacidad del modelo de clasificar la respuesta de éxito de la variable dependiente) en la muestra de validación resultó 71.8% y en la de construcción 74.5%; y al ser la diferencia de las sensibilidades menor al 5%, empíricamente se dice que el modelo es adecuado.

Curva ROC del modelo

Se observó que el área de la curva ROC es de 0.884 lo que nos generaría un índice de Gini de 76.8%, lo cual me indica que el ajuste del modelo es adecuado, es decir, el modelo presenta un alto poder discriminante.

2. Modelo de Random Forest

2.1 Número óptimo de árboles y variables

Luego de haber obtenido la mejor partición en la regresión logística, se determinó el número óptimo de árboles en el bosque aleatorio teniendo por defecto 3 variables (raíz cuadrada de las variables predictores) como número de variables aleatorias en cada árbol. En los bosques al azar, no hay necesidad de realizar validación cruzada, se estima internamente, durante la corrida del modelo, esto es a través del ratio OOB. Según este valor la cantidad óptima de árboles en el modelo resulto 600, dado que a partir de esa cantidad de árboles el error OOD es mínimo y se estabiliza.

Ahora determinamos el número de variables óptimas en cada árbol, usando el OOB ERROR se obtiene que 3 es el número óptimo de variables para cada árbol.

2.2 Importancia de variables

Se realizó la corrida del modelo para 600 árboles y cada uno de ellos de 3 variables, se obtuvo la matriz de confusión (matriz de clasificación), con un 79.82% de sensibilidad y un porcentaje global de 86.28%.

Tabla Nº 3, Tabla de clasificación de la muestra

de construcción de un modelo Logit


de validación de un modelo Logit


Fuente: Software SPSS – Dic 2015 Tabla Nº 5, Tabla del número óptimo de

variables

Fuente: Resultados del software R

Tabla Nº 6, Tabla del número óptimo de

variables


Para el análisis de las variables de importancia se utilizó los indicadores MDG (Mean Decrease Gini) que mide la contribución de cada variable en la construcción del modelo y el MDA (Mean Decrease in Accuracy), que mide el peso que tiene cada variable a la hora de hacer una predicción. De acuerdo a la tabla Nº 7, tenemos como variables de importancia para ambos indicadores a: Riesgo de subvención. Tipo de equipo y Margen equipo. 2.3 Análisis del poder de discriminación del modelo En la siguiente tabla se tiene las sensibilidades de las muestra de construcción y validación que muestra la precisión con la cual se estimaron a los casos de fuga de terminales móviles.

Curva ROC del modelo de FR

De acuerdo a la curva ROC, se observa que la técnica de Random Forest genera un buen modelo predictor. Tenemos un área bajo la curva de 0.99, la cual indica que el modelo del Random forest nos ofrece una buena predicción indicando que se obtiene un ajuste adecuado del modelo. El modelo de Random Forest resuló adecuado ya que presenta unAUC favorables al clasificar. 3. COMPARACIÓN DE RESULTADOS

En la tabla Nº 9 se compraron los indicadores de ambos modelos, se observó que la sensibilidad, y el índice de Gini del modelo de Random Forest es muy superior a los indicadores del modelo de Regresión Logística; con respecto a la Sensibilidad, el modelo de RF es 16% mayor y en cuanto a l Gini es 29% mayor. Tabla Nº 10 Cuadro semáforo del índice de Gini

De la tabla Nº 10 se observó que El modelo de Random Forest es clasificado como un modelo que tiene una capacidad predictiva de “muy bueno” y tiene un alto poder de discriminación.

Tabla Nº 9 Tabla de comparación de

indicadores de desempeño


de validación del modelo de Random Forest


de construcción del modelo de Random Forest

Fuente: Software SPSS

Fuente: SoftwareSPSS

Gráfico Nº 3, Tabla de importancia de las

variables



Fuente: Elaboración propia


Comparación de la capacidad discriminativa Con el Modelo de Regresión Logística (RL) se obtuvo un ROC del 0.884 ( 95%; 0,859 – 0,910) y con el modelo de Random Forest(RF) un ROC del 0.998. Estos resultados sugerirían que la técnica del RF discrimina de mejor manera que la RL. Sin embargo, para poder afirmar (y no sugerir) que existe una diferencia significativa entre el AUC de RF y de la RL es necesario comparar estadísticamente ambas áreas bajo la curva ROC. Para ello se utilizó el Test de DeLong. DeLong indicó (4) que la covarianza entre dos AUC correlacionada puede estimarse a partir de sus componentes de la matriz de covarianza de la varianza. Para realizar dicho test, la hipótesis nula planteada fue Ho: (AUC.RF-AUC.RL) = 0. Se obtuvo como resultado: D = 15.932, df = 1261, p-value < 2.2e-16; por lo tanto Como el p-value fue menor al 0.05, podemos concluir que se rechaza la hipótesis nula, por lo que podemos afirmar que existe una diferencia significativa entre los AUC de losmodelos.

En base a estos indicadores, el modelo con el que se trabajó y nos permitió conseguir los objetivos del estudio, fue el modelo de Random Forest. Tabla Nº 11 Análisis de la distribución de éxito por

Deciles(RF)

Al ser el lift un indicador estadístico que se calcula a través del cociente entre el porcentaje de concentración de elementos o hechos en una determinada clase, frente a la concentración que presenta la población en su conjunto; indica cuantas veces es mejor el modelo, en la captación del hecho objetivo, que la aleatoriedad. Para este estudio, con el 1er decil (D1) se obtuvo un lift de 3.6 cuyo valor indica que el modelo ayuda a identificar en 3,6 veces más casos de fuga de terminales, que si no hubiéramos realizado ningún modelo.

Gráfico Nº 4 Gráfico de la Distribución de éxito

acumulado

Del gráfico Nº 4, se observó que solo con el 30% de la población con mayor propensión a la fuga, se logró identificar al 91% de casos de fuga de terminales y que con el 40% de la población con mayor propensión a la fuga se logró identificar al 100% de casos de fuga registrados.

Gráfico Nº 5 Departamentos según su propensión a

la fuga de terminales

El gráfico Nº 5 se obtuvo escogiendo el 10% de la población de terminales móviles con mayor propensión a la fuga; del cual se observó que los puntos de venta ubicados en los departamentos de Cuzo, Arequipa y Puno son los que presentan mayor incidencia de casos de fuga de terminales.




CONCLUSIONES

Los puntos de venta con mayor propensión a

la fuga de terminales móviles son los puntos de

venta Nº 1 ubicados en los departamentos de

Cuzco, Arequipa y Puno, los cuales se

identificaron en base a las probabilidades de

fuga, obtenidas del modelo de Radom Forest.













BIBLIOGRAFÍA

[1] A. Agresti, An Introduction to Categorical Data Analysis, Ed. Wiley & Sons, 1996. [2] Y. Wonsuk Y, A. Ference, Comparison of Logistic Regression, Logic Regression, Classification Tree, and Random Forests to Identify Effective Gene-Gene and Gene-Environmental Inter. 2012 [3] H. Karimollah, Receiver Operating Characteristic (ROC) Curve Analysis for Medical Diagnostic Test Evaluation, Babol University of Medical Sciences, 2013.http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3755824/ [4] J. Cerda y L. Cifuentes, Uso de curvas ROC en investigación clínica. Aspectos teórico-prácticos, Pontificia Universidad Católica de Chile, Santiago, 2012.

ANEXO

Códigos de programación en R para la construcción del modelo de RL y RF.

##paso1: obteniendo la data d<-read.delim("clipboard") da <- d str(da) summary(da) ##paso 2: elaboracion de training y testing para este caso es 70/30 elimina<-sample(nrow(da),(nrow(da)*.7)) training<-da[elimina,] testing<-da[-elimina,] head(training, 10) head(testing, 10) ##Paquetes a usar para el modelo install.packages("pROC") library(pROC) install.packages("randomForest") library(randomForest) ##Para determinar el número óptimo de árboles en el bosque teniendo por defecto 4(raiz cuadrada de las predictoras) como número de variables aleatorias en cada árbol set.seed(71) ###se prueba ntree(100,200,.....1000) y se observa el oob error rf <-randomForest(riesgo_neto_imei~.,data=training,ntree=1000) print(rf) ##Del número de variables optimas en cada árbol mtry<-tuneRF(training[-1],training $riesgo_neto_imei,ntreeTry=600,stepFactor=0.5,improve=0.01,trace=TRUE,plot=TRUE) best.m<-mtry[mtry[,2]==min(mtry[,2]),1] print(mtry) print(best.m) ##DETERMINADO LOS mtree y mtry optimos realizar el RF set.seed(71) rf <- randomForest(riesgo_neto_imei~.,data=training,mtry=3,importance=TRUE,ntree=600) print(rf) ##MATRIZ DE CONFUSION O DE CLASIFICACION DE LA MUESTRA DE ENTRENAMIENTO rf$confusion ##CALCULA LA IMPORTANCIA DE LAS VARIABLES importancia=data.frame(importance(rf)) importancia install.packages("reshape") library(reshape) importancia<-sort_df(importancia,vars='MeanDecreaseGini') importancia varImpPlot(rf,main="IMPORTANCIA DE VARIABLES")

http://www.ncbi.nlm.nih.gov/pubmed/?term=Yoo%20W%5Bauth%5D

http://www.ncbi.nlm.nih.gov/pubmed/?term=Ference%20BA%5Bauth%5D

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3755824/

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3755824/

#### PROBABILIDADES para la muestra de validacion pred1=predict(rf,type="prob",testing) asd <-cbind(testing,pred1) install.packages('WriteXLS') library(WriteXLS) write.table(asd,'asd.txt',sep='\t') #####MATRIZ DE CONFUSION DE LA MUESTRA DE VALIDACION prediccion<-data.frame(predict(rf,testing)) #adiciona la variable prediccion a a tabla testing testing<-cbind(testing,predict=prediccion) #matriz error - confusion MC<-table(testing$riesgo_neto_imei,testing$predict.rf..testing.) MC #####Porcentaje de error y de buena clasificación errorL=sum(testing$predict.rf..testing. != testing$riesgo_neto_imei)/nrow(testing) errorL aciertoL = (1 - errorL) * 100 aciertoL

# calculamos Precision P PL <- sum(diag(MC))/sum(MC)*100 PL # calculamos Precision Positiva PPL <- MC[2, 2]/sum(MC[2, ]) PPL # calculamos Precision Negativa rPNL <- MC[1, 1]/sum(MC[1, ]) PNL # calculamos Falsos Positivos FPL <- MC[1, 2]/sum(MC[1, ]) FPL # calculamos Falsos Negativos FNL <- MC[2, 1]/sum(MC[2, ]) FNL # calculamos Asertividad Positiva APL <- MC[2, 2]/sum(MC[, 2]) APL # calculamos Asertividad Negativa ANL <- MC[1, 1]/sum(MC[, 1]) ANL ####curva ROC install.packages("pROC") library (pROC) Data<-testing$riesgo_neto_imei dato<-data.frame(Data) b <-rep(0,nrow(dato)) b[which(dato$Data=="Si Fuga")] <-1 testing$riesgo<-b

prediccion <-

predict(rf,type="prob",testing)[,2]

class(prediccion)

class(testing$riesgo)

ROC1 <-roc(testing$riesgo,prediccion)

plot(ROC1, col ="blue", main = "Curva

ROC")

AUC1<-auc(ROC1)

AUC1

#####LOGISTICA

d<-read.delim("clipboard")

d

dim(d)

boxplot(d)

da <- d

summary(da)

#paso 2

elimina<-sample(nrow(da),(nrow(da)*.7))

training<-da[elimina,]

testing<-da[-elimina,]

head(training, 10)

head(testing, 10)

Modelo_glm<-

glm(riesgo_neto_imei~.,training,family=bi

nomial(link="logit"))

print(Modelo_glm)

Prediccion<-round(predict(Modelo_glm,

newdata=testing,type ="response"))

MC <-

table(testing[,"riesgo_neto_imei"],Predicci

on) # Matriz de Confusión

Data<-testing$Target

dato<-data.frame(Data)

b <-rep(0,nrow(dato))

b[which(dato$Data=="yes")] <-1

testing$riesgo<-b

Prediccion <-

predict(Modelo_glm,type="response",testi

ng)

class(prediccion)

class(testing$riesgo)

ROC2 <-roc(testing$riesgo,Prediccion)

plot(ROC1, col ="blue", main = "Curva

ROC")

AUC1<-auc(ROC2)

AUC1

Test de delong, para la comparación de

curvas ROC

Roc.test(ROC1,ROC2,Delong)

Prediction of Cellphone Losses in Sell-Points of Telecom...

Documents

Transcript of Prediction of Cellphone Losses in Sell-Points of Telecom...