APLICACIÓN DE UN MODELO LINEAL GENERALIZADO PARA EL
ANALISIS DE LA RETENCION DEL RAMO DE PESADOS INDIVIDUAL
EN EL SECTOR ASEGURADOR
JUAN FELIPE LEÓN GIRALDO
ASESOR: JULIO VILLARREAL NAVARRO
UNIVERSIDAD DE LOS ANDES
DEPARTAMENTO DE INGENIERIA INDUSTRIAL
BOGOTÁ
JUNIO DE 2017
Contenido 1. INTRODUCCION Y CONTEXTUALIZACION ................................................................................ 3
2. ENTENDIMIENTO DEL NEGOCIO DE PESADOS Y JUSTIFICACION .............................................. 4
2.1 Producto de Pesados individual en la compañía.................................................................... 4
2.1.1 Características Generales .................................................................................................. 4
2.1.2 Estadísticas del Portafolio .................................................................................................. 5
2.2 Análisis de Retención............................................................................................................ 9
3. OBJETIVOS ............................................................................................................................... 10
4. MARCO TEORICO.................................................................................................................. 10
4.1Metodología CRISP-DM ....................................................................................................... 10
4.2 GLM - Modelo Lineal Generalizado ..................................................................................... 11
4.2.1 Regresión Logística .......................................................................................................... 12
5. DESARROLLO DEL MODELO Y ANALISIS DE RESULTADOS .......................................................... 13
5.1. Comprensión y preparación de los datos ........................................................................... 13
5.2 Modelaje ............................................................................................................................ 14
5.2.1 Selección inicial de Variables ........................................................................................... 14
5.2.2 Agrupaciones (Bandings) y análisis inicial ......................................................................... 16
5.2.3 Construcción del Modelo ................................................................................................. 22
5.3 Out of time sample - calibración ......................................................................................... 26
6. CONCLUSIONES Y RECOMENDACIONES ................................................................................ 26
3
1. INTRODUCCION Y CONTEXTUALIZACION En la actualidad es posible afirmar que el mercado de los seguros en Colombia es inmaduro y todavía
conserva muchas oportunidades de crecimiento, profundización y sofisticación. Esto se evidencia
en el hecho que las primas emitidas por las aseguradoras tan solo representan el 2.7% del PIB
nacional (Fasecolda 2015), además del creciente interés de compañías extranjeras en ingresar en
este mercado con productos innovadores y especializados. Es por esto que en un mercado tan
competitivo las compañías aseguradoras buscan constantemente sofisticar sus análisis y justificar
mejor sus decisiones utilizando las últimas técnicas de modelaje estadístico y computacional.
Dentro de las características del mercado asegurador, y para fines de este análisis en particular, es
importante notar que en Colombia los productos de automóviles se posicionan como unos de los
más representativos contando con una participación de 17% en primas (Fasecolda 2016) sobre la
producción total de todas las
compañías (43 compañías), lo
cual representó un valor cercano
a los 3 billones de pesos en el año
2016, además de mostrar un
crecimiento entre marzo de
2016 y marzo de 2017 del 18%.
De este total en el mercado de
seguros para automóviles La
compañía cuenta con alrededor
del 13% de participación. Estas
características previamente
mencionadas del mercado
mantienen la tendencia en el
nivel particular de las principales compañías en donde los ramos de automóviles se posicionan como
las principales unidades de negocio en cuanto a producción, como lo es el caso de la compañía
Seguros donde la producción de los ramos de automóviles compone cerca del 30% del portafolio de
la compañía (cifra a febrero de 2017).
Es por lo anterior que en búsqueda de proveer a
la compañía con mejores herramientas para
tomar decisiones y asegurar su posición en el
mercado, el presente estudio se enfoca en el
desarrollo de un modelo de renovación, que
derive en una posible política, específicamente
para el ramo de pesados. Se espera que esta
investigación sea de utilidad para permitir un
mejor mantenimiento del portafolio de riesgos
en el corto y mediano plazo.
La Compañía (13%)
4
2. ENTENDIMIENTO DEL NEGOCIO DE PESADOS Y JUSTIFICACION 2.1 Producto de Pesados individual en la compañía
2.1.1 Características Generales La póliza para automóviles, en particular la modalidad individual para transporte pesado, se
caracteriza por ser un producto enfocado en transporte de carga, transporte de pasajeros para
empresas que transportan su propia mercancía y propietarios o contratistas de autos útiles cuya
antigüedad máxima sea de 30 años. La compañía Seguros cuenta con un producto especializado en
diferentes perfiles de riesgo como lo son:
• Distribución Urbana: Póliza especial para propietarios de camiones, furgones y camionetas
cuya capacidad este entre 1 y 5 toneladas que circulen dentro del perímetro urbano y zonas
metropolitanas.
• Carga Nacional: Producto dirigido a proteger el patrimonio de los transportadores de carga,
propietarios de remolcadores, remolques, camiones y furgones de más de 5 toneladas que
circulen en el territorio nacional.
• Utilitarios: Enfocado a empresas, cooperativas y asociaciones que poseen flotas de pickups
sencillas, camionetas y vans, utilizadas para el transporte de elementos necesarios para el
desarrollo de su actividad.
• Volquetas: Para transportador o contratista de obras civiles y su labor implica la adquisición
o administración de este tipo de vehículos para el desarrollo del negocio.
• Transporte de Pasajeros: Protección para el patrimonio de transportadores de pasajeros,
propietarios de buses, busetas, microbuses, colectivos, vans pickups y doble cabina.
Este producto está compuesto por un grupo de coberturas que definen el compromiso de la
compañía frente al asegurado:
• Responsabilidad Civil Extracontractual
• Asistencia jurídica en proceso penal y civil
• Pérdida total por hurto
• Pérdida parcial por hurto
• Pérdida total por daños
• Pérdida parcial por daños
• Terremoto, temblor o erupción volcánica
• Amparo patrimonial
• Accidentes personales
• Responsabilidad civil general familiar
• Casa cárcel
• Asistencia en Viajes
• Lucro Cesante
• Asistencia Odontológica
• Exequial
Las vigencias de las pólizas son de naturaleza anual, es decir que la póliza ampara los riesgos durante
un año y una vez cumplido este plazo es necesario llevar a cabo el proceso de renovación, o dar por
5
terminado el contrato de seguro. De la misma manera los pagos de la prima son de carácter anual
una vez se adquiere el producto, ya sea como un negocio nuevo o como una renovación.
Es relevante también tener en cuenta que los riesgos (vehículos) de los ramos colectivos pueden
pasar a ser individualizados según la disposición de la gerencia de automóviles en caso que el
número mínimo de vehículos determinados en la composición de las pólizas colectivas se
incremente. Es por esto que, si la gerencia decide que el número mínimo de vehículos en una póliza
colectiva es n, todos los riesgos vigentes en las colectivas compuestas por k riesgos (donde k<n)
serán individualizados en este producto.
2.1.2 Estadísticas del Portafolio Con el fin de tener un entendimiento integral del negocio es importante comprender las estadísticas
y tendencias del portafolio de riesgos que la compañía ha manejado en los últimos años. Es
importante tener en cuenta que esta etapa de entendimiento de negocio y comprensión del
portafolio es una etapa esencial previa al modelaje, ya que en este punto se puede obtener una
intuición de que variables pueden ser relevantes para incluir en el modelo.
En primer lugar, es fundamental comprender que la actividad de comercialización de los seguros es
ejercida casi en su totalidad por intermediarios. A su vez estos intermediarios se encuentran
divididos en tres categorías de acuerdo principalmente a su régimen legal y tamaño de sus
portafolios como se describe en la siguiente tabla:
CLASIFICACION DE INTERMEDIARIOS
TIPO DE INTERMEDIARIO DESCRIPCION
CORREDORES
- Son los intermediarios con mayor producción y portafolios más amplios en volumen y primas.
- Siempre son personas jurídicas.
AGENCIAS
- Estos intermediarios debido al tamaño de su portafolio y volumen de producción no se consideran corredores, pero tampoco agentes.
- Siempre son personas jurídicas.
AGENTES
- Son los intermediarios más pequeños en término de portafolios y volumen de primas.
- Siempre son personas naturales
DIRECTO
- Es el canal de venta directo de la compañía.
- Solo se utiliza en casos muy específicos. Ejemplo: campañas de venta telefónica propias de La compañía.
- Es un canal de distribución.
Tabla 1. Tipos de Intermediarios.
Al ser la comercialización una actividad tercerizada es fundamental para una comprensión integral
del negocio conocer la distribución del producto entre los tipos de brokers. Esto puede generar
6
grandes conclusiones sobre a qué intermediarios enfocar estrategias o esfuerzos para propiciar
ventas. En la siguiente grafica se expone la concentración de riesgos entre los diferentes tipos de
intermediarios:
Grafica 1: Distribución de riesgos (en la compañía) por tipo de intermediarios para riesgos vigentes a mayo
de 2017.
Como es posible visualizar en la gráfica es evidente que la mayor concentración de riesgos (negocios)
se encuentra focalizada entre las Agencias(A) y los Agentes(N) casi en una misma proporción
mientras que los Corredores(A) cuentan con una menor participación en este producto. La baja
participación de los corredores es un fenómeno que se puede explicar a la luz del desgaste operativo
que implica la atención de las cuentas individuales por lo que usualmente este tipo de
intermediarios se encuentra enfocado en negocios de carácter colectivo. Es igualmente importante
entender de cara a la definición que se da a la retención para efectos de este estudio, que estos
intermediarios se rigen frente a la compañía por un convenio de pago que fija un límite medido en
días para que se haga efectivo el recaudo de la firma por parte de la compañía. Dependiendo de la
historia del intermediario (rentabilidad, historial de incumplimiento en pagos, entre otras variables)
su convenio de pago puede variar entre 45 y 90 días.
De la misma manera como es relevante tener un entendimiento sobre la estadística de
intermediarios, es de vital importancia tener un conocimiento del portafolio de riesgos (información
de los vehículos) que se encuentran suscritos, todo con el fin de tener una intuición preliminar sobre
que variables pueden ser utilizadas en la fase de modelaje. Es por lo anterior que dentro de un
análisis actuarial es bueno partir de las variables utilizadas para la construcción de la tarifa, como se
expone en la siguiente grafica donde se puede entender la distribución de riesgos de acuerdo al
modelo de vehículo.
7
Grafica 2: Distribución de riesgos (en la compañía) por modelo para riesgos vigentes a mayo de 2017.
Con la información anterior obtenemos una vista valiosa sobre la edad de la flota expuesta, lo cual
lleva a notar que efectivamente como se indica en la descriptiva del producto, esta se concentra en
vehículos con menos de 30 años de antigüedad. En este caso es evidente que la compañía cuenta
con un portafolio concentrado principalmente en riesgos dentro de los 0 y 10 años, teniendo la
mayoría de modelos concentrados entre el 2007 y el 2016, similar al parque automotor nacional.
Al igual que para la tarifa es relevante analizar la edad de la flota, es fundamental conocer la
distribución del portafolio por clase de vehículo como se describe en la siguiente gráfica.
Grafica 3: Distribución de riesgos (en la compañía) por clase del vehículo para riesgos vigentes a mayo de
2017.
8
Con base en esta distribución podemos segmentar la flota expuesta entre grupos relativamente de
tamaños similares teniendo los furgones como la clase más representativa con un 22.6% de
participación, seguidos por camiones (15.7%) y camionetas de reparto (12.66%) en el tercer lugar,
para entre estas tres clases componer la mitad del portafolio. Con ayuda de esta estadística se puede
generar una intuición sobre los usos que se le dan a los vehículos y nos da una idea más clara del
perfil de riesgo de la flota.
De la misma manera que es esencial analizar el portafolio de riesgos, es relevante tener en cuenta
el crecimiento que ha tenido el ramo en el último año y sobretodo en los últimos meses, no solo en
riesgos sino también en primas emitidas.
Grafica 4: Tendencia (en la compañía) de las primas emitidas por el ramo entre enero de 2015 y abril de
2017.
En el grafico anterior es importante notar la estacionalidad particular del negocio, efecto que se ve
generalmente en los ramos de automóviles. Es evidente que durante la mitad del año se ve el
periodo de menor producción teniendo a los meses de junio y julio como los de menor producción,
mientras que los picos de producción se presentan en marzo y septiembre.
Grafica 5: Crecimiento del portafolio de riesgos entre enero de 2016 y marzo de 2017
9
En el último año se ha presentado una tendencia de crecimiento, pasando de un poco más de 5.000
riesgos en enero de 2016, a más de 6.200 en marzo de 2017. Durante la mayoría de los meses se
registraron crecimientos en el portafolio de riesgos vigentes, adquiriendo en promedio 83 riesgos
por mes y creciendo en promedio un 26% (en primas emitidas) sobre el mismo periodo del año
anterior. Esto termina por demostrar un gran potencial que deriva en la necesidad de prestar
atención al mantenimiento de este portafolio haciendo uso de técnicas más sofisticadas.
2.2 Análisis de Retención Dentro de la estrategia de negocio en una compañía aseguradora a la hora de maximizar su
rentabilidad y mejorar su portafolio de riesgos hay varios enfoques: uno de estos precisamente
busca diferenciar las estrategias entre negocios nuevos y renovaciones. Ambas vertientes son
fundamentales para la generación de valor en la compañía, pero a su vez requieren de análisis
independientes y enfocados en las particularidades de los fenómenos que acompañan las dos
facetas del negocio.
ESTRATEGIA ENFOCADA
NEGOCIOS NUEVOS RENOVACIONES
Campaña de mercadeo direccionadas Descuentos
Productos especializados Tarifación personalizada
Incentivos a intermediarios Incentivos a intermediarios
Productos diferenciados Servicio de asistencias Tabla 2. Tipos y ejemplos de estrategias diferenciadas.
Basados en este enfoque dual, el presente estudio busca un énfasis especial sobre las renovaciones,
específicamente del ramo de pesado individual, para así poder brindar a la compañía un mayor
entendimiento de como retener un mejor portafolio mediante el entendimiento de los factores que
afectan de manera directa este indicador para así poder crear estrategias segmentadas hacia las
variables en particular. Para este caso en particular el interés de la gerencia de automóviles se inclina
hacia definir una política de renovación más detallada que la actual, la cual establece un incremento
en la tarifa de 17% sobre el valor de la prima para todos los riesgos. Este incremento se definió con
base en el incremento promedio de los costos asociados al ramo en particular (costos de repuestos,
reparaciones y asistencias en su mayoría), sin embargo, es una medida generalizada que no abarca
todo el entendimiento de las variables que afectan la decisión de un cliente sobre su continuidad en
la compañía.
Con base en lo anteriormente expuesto es importante definir el indicador de retención que se busca
modelar como:
𝑅𝑒𝑡𝑒𝑛𝑐𝑖ó𝑛𝑡 =𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑃ó𝑙𝑖𝑧𝑎𝑠 𝑅𝑒𝑛𝑜𝑣𝑎𝑑𝑎𝑠 𝑦 𝑅𝑒𝑐𝑎𝑢𝑑𝑎𝑑𝑎𝑠𝑡
𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑝ó𝑙𝑖𝑧𝑎𝑠 𝑎 𝑅𝑒𝑛𝑜𝑣𝑎𝑟𝑡
Esta medida representa la probabilidad de que un riesgo continúe con la compañía para un nuevo
periodo de contrato. Está definido como la razón de las pólizas que se renuevan y se recaudan (debe
estar recaudada dentro del convenio de pago pactado con el intermediario para considerarse
retenida) en el periodo t, sobre todas las pólizas que se tenían para renovar en dicho periodo. Este
indicador es importante ya que da una noción de la fidelidad de los intermediarios y permite enfocar
10
estrategias al analizarlo en las diferentes dimensiones de la compañía como los son: sucursal,
ciudad, ramos e intermediarios en particular.
3. OBJETIVOS Basados en la justificación y el análisis expuesto previamente a continuación se describen tanto el
objetivo principal como los objetivos específicos del presente estudio:
• Objetivo General: Construir un modelo estadístico que refleje la realidad sobre el fenómeno
de renovación en el ramo de pesados individual.
• Objetivos Específicos:
- Determinar aquellas variables significativas que influyen en el comportamiento de la
retención de los vehículos de transporte pesado.
- Obtener el entendimiento necesario del negocio de pesados para asegurar un
modelaje funcional y representativo de la realidad.
-
4. MARCO TEORICO En la siguiente sección se exponen los fundamentos teóricos detrás de la realización de este
proyecto, tanto para la metodología de análisis usada, como para el razonamiento matemático
implícito en el modelo desarrollado.
4.1Metodología CRISP-DM La metodología CRISP-DM o por su nombre completo en ingles Cross-Industry Standard Process for
Data Mining hace referencia a un modelo procedimental desarrollado por cinco compañías (SPSS,
Teradata, Daimlesr AG, NCR Corporation y OHRA) en el año de 1996 para abordar de una manera
organizada y sistemática problemas analíticos. Esta metodología se enmarca en un ciclo constante
de retroalimentación que consta de 6 etapas:
Imagen 1: Descripción del proceso CRISP-DM para abordar problemas analíticos.
11
- Comprensión del negocio: Esta fase inicial busca delimitar y fijar un alcance y un
objetivo para el proyecto lo cual requiere de un análisis hecho desde la perspectiva del
negocio. Es por lo anterior que el entendimiento del negocio es fundamental para así
poderlo traducir en un problema analítico.
- Comprensión de los datos: Esta etapa implica el entendimiento y la familiarización de
las fuentes y recursos de datos. Con esto se espera identificar posibles problemas de
calidad, generar hipótesis preliminares y conseguir intuiciones iniciales sobre los
enfoques para abordar la solución.
- Preparación de los datos: Usualmente esta es la etapa más demandante en cuanto a
tiempo ya que implica la construcción del conjunto final de datos que alimentara las
herramientas de modelaje.
- Modelado: En esta etapa varias técnicas de modelado son seleccionadas y puestas en
práctica. Debido a los requerimientos particulares de algunas técnicas de modelaje es
necesario retornar a la fase de preparación para adaptar los datos según la demanda.
- Evaluación: En esta etapa se debe analizar y evaluar los productos finales del modelo (o
modelos) para determinar si satisface todas las necesidades del negocio y cumple los
objetivos. Si se determina que algún elemento propio del negocio no se abordó de
manera correcta por los modelos es necesario retornar a la primera etapa.
- Despliegue: Al final se espera que el desarrollo de un modelo tenga alguna repercusión
en el mundo real o se vea implementado de una manera tangible. Usualmente la
implementación es llevada a cabo por los clientes.
4.2 GLM - Modelo Lineal Generalizado Dentro de las practicas actuariales de la actualidad es común encontrar métodos estadísticos
multivariados para diferentes propósitos como tarifación, proyecciones de siniestralidad, análisis de
retención, entre otros fines. La utilidad y principal ventaja que presentan estas prácticas sobre sus
versiones univariadas es la posibilidad de analizar las diferentes interacciones y correlaciones de las
decenas o centenas de variables que los actuarios consideran. En segunda instancia, estos métodos
permiten ajustarse a la naturaleza propia del fenómeno que se está modelando, utilizando
diferentes distribuciones de probabilidad y permitiendo aislar el efecto del componente no
sistemático (ruido). De la misma manera estas prácticas permiten obtener datos y medidas sobre el
propio modelo lo cual dan una idea de la capacidad predictiva y confiabilidad de este.
Dentro del gran conjunto de métodos estadísticos multivariados utilizados dentro de las ciencias
actuariales y por tanto en la industria aseguradora, los modelos lineales generalizados (GLM) son
sin duda una de las practicas estándar. Otra de sus principales ventajas, además de las descritas
anteriormente, es su transparencia lo cual se evidencia en el output del modelo el cual consta de
parámetros estimados para cada nivel de cada variable explicativa. Otras técnicas de análisis
multivariado como las redes neuronales, si bien ofrecen un análisis más preciso, son comúnmente
criticadas por su falta de transparencia y alta complejidad. En realidad, no importa los sofisticadas
que sean las matemáticas detrás de un método, lo importante es poder transmitir los resultados y
el funcionamiento general de la técnica utilizada a las áreas menos técnicas de la compañía como lo
son las divisiones comerciales y de suscripción.
Entrando ahora en una definición más formal y estándar para el modelo lineal generalizado (GLM),
como su nombre lo indica, es una generalización flexible de la regresión lineal clásica que describe
12
la variable respuesta (Y) como una función de una componente sistemática (predictor lineal)
mediante una función de enlace (función link) que define la relación entre la variable respuesta y la
combinación lineal de predictores. Este modelo extiende el planteamiento de la regresión lineal
clásica permitiendo que la variable repuesta sea generada por distribuciones de la familia
exponencial y que la magnitud de la varianza de cada medida sea una función del valor predicho, a
diferencia del modelo clásico que solo permite la distribución normal y supone una varianza
constante (homocedasticidad).
Esto se puede expresar como:
𝐸(𝒀) = 𝝁 = 𝑔−𝟏(𝑿𝛽)
Donde E(Y) es el valor esperado de Y, X𝛽 es el predictor lineal (una combinación lineal de los
parámetros desconocidos 𝛽 (usualmente estimados a través de máxima verosimilitud) y las
variables independientes X), g es la función de enlace y µ es la media de la distribución.
Para solucionar un GLM el modelador debe asegurar los siguientes requisitos:
• Proveer un conjunto de datos con un numero apropiado de observaciones de la variable
respuesta (en la literatura se sugieren 50.000 observaciones o más) y de los predictores
asociados considerados para el modelaje.
• Seleccionar una función de enlace que defina la relación entre los componentes sistemático
y aleatorio.
• Especificar la distribución subyacente del proceso aleatorio, típicamente un miembro de la
familia exponencial (e.g., normal, Poisson, gamma, binomial); esto se hace especificando la
media y la varias de la distribución.
4.2.1 Regresión Logística Este representa un caso puntual del GLM en donde se utiliza una función de enlace logit y una
distribución binomial. Es utilizada para predecir el resultado de una variable categórica (puede
tomar un numero finito de categorías) en función de las variables predictores, por lo que es de gran
utilidad para modelar la probabilidad de un evento en función de varios factores.
El modelo de regresión logística analiza datos con distribución binomial:
𝑌𝑖~𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙 (𝑝𝑖 , 𝑛𝑖)
Donde el número de ensayos ni es conocido pero la probabilidad de éxito pi se desconoce.
Queriendo entonces modelar la probabilidad y conociendo la distribución de la variable respuesta,
es posible describir la probabilidad como una función de las variables explicativas, las observaciones
y el número de ensayos:
𝑝𝑖 = 𝐸 (𝑌𝑖
𝑛𝑖|𝑋𝑖)
13
Los logits de estas probabilidades desconocidas se pueden modelar como una combinación lineal
de las variables explicativas xi:
𝑙𝑜𝑔𝑖𝑡(𝑝𝑖) = ln (𝑝𝑖
1 − 𝑝𝑖) = 𝛽0 + 𝛽1𝑥1,𝑖 + ⋯ + 𝛽𝑘𝑥𝑘,𝑖
Es posible interpretar los parámetros estimados (βj) como los factores que escalan los valores de
las variables explicativas en el logaritmo del cociente de probabilidades. En el caso de una variable
explicativa dicotómica, como el caso del género, la formulación equivalente del modelo se da por:
𝑝𝑖 =1
1 + 𝑒−(𝛽0+𝛽1𝑥1,𝑖+⋯+𝛽𝑘𝑥𝑘,𝑖)
5. DESARROLLO DEL MODELO Y ANALISIS DE RESULTADOS Como se mencionó anteriormente, la metodología usada para abordar el problema fue CRISP-DM,
por lo que en esta sección se expondrá lo correspondiente a las etapas de entendimiento de los
datos, preparación de los datos, modelaje y evaluación. La etapa de entendimiento del negocio se
abordó en la sección dos (2) del documento y la última (Despliegue) se encuentra en desarrollo a la
fecha de entrega de este documento.
5.1. Comprensión y preparación de los datos Como consideración inicial es importante tener presente que para el fin de realizar un modelaje
sobre la retención se busca utilizar una historia reciente de no más de 3 meses por dos razones
principales: en este tiempo se ha cumplido el plazo del convenio de pago y se puede considerar que
el indicador ha madurado y además las policías de renovación están constantemente cambiando
por lo que si se tomara mucha historia se podría sesgar el análisis con el efecto de políticas
anteriores. Debido al que el ramo de pesados individual es uno de los ramos más pequeños dentro
de la gerencia de autos, no se contaba con un volumen óptimo de datos para generar un modelo
con una alta precisión predictiva. Sin embargo, el volumen de datos con el que se contaba permitió
hacer un análisis sobre la incidencia de algunas variables en la retención de los negocios.
Inicialmente se cuenta con una base de datos a nivel de riesgo, la cual describe la historia de cada
uno dándole un estado para cada momento específico del tiempo. A continuación, se presenta una
representación simplificada de la tabla:
RIESGO ESTADO PERIODO INICIO VIGENCIA
PERIODO FIN VIGENCIA
1 NUEVO 16-OCTUBRE-2015 16-OCTUBRE-2016
2 RENOVADO 26-ABRIL-2015 26-ABRIL-2016
3 NUEVO CANCELADO 12-ENERO-2015 12-ENERO-2016
4 RENOVADO CANCELADO
9-SEPTIEMBRE-2015 9-SEPTIEMBRE-2016
Tabla 3. Conjunto de datos inicial.
Los estados que se encuentran dentro de esta base de datos se entienden bajo la siguiente lógica:
14
1. NUEVO: El riesgo ingreso como nuevo a la compañía. Esto quiere decir que la placa del
vehículo no se encontraba en el portafolio de vigentes del mes anterior. Las fechas que se
presentan serán las de la nueva vigencia.
2. RENOVADO: El riesgo fue renovado en ese periodo. Las fechas que se presentan serán las
de la nueva vigencia.
3. NUEVO CANCELADO: El riesgo fue cancelado en su primera vigencia. Esta marca solo puede
darse si el estado del periodo inmediatamente anterior es NUEVO.
4. RENOVADO CANCELADO: El riesgo fue cancelado después de haber sido renovado. Esta
marca solo puede darse si el estado del periodo inmediatamente anterior es RENOVADO.
Esta matriz representa el insumo inicial de donde se debe obtener el entendimiento de los datos y
de donde parte el modelaje. Sobre esta versión inicial se deben dar diversas transformaciones hasta
obtener la base de datos que soportará el modelo. Al final, se espera obtener una fuente de datos
que refleje el estado del riesgo en el periodo t y en el periodo t+1, y que además cuente con las
variables que preliminarmente pueden ser consideradas para la explicación del comportamiento de
la variable respuesta. Esta matriz debe ser similar a la siguiente estructura:
RIESGO
PERIODO INICIO
PERIODO FIN
ESTADO EN t
ESTADO EN t+1 VARIABLE CANDIDA
TA 1
VARIABLE CANDIDA
TA 2
VARIABLE CANDIDA
TA k
1 OCTUBRE-
2015 OCTUBRE-
2016 NUEVO RENOVADO X1 W1 Z1
2 ABRIL-2015
ABRIL-2016
RENOVADO
RENOVADO CANCELADO
X2 W2 Z2
3 ENERO-
2015 ENERO-
2016 NUEVO
CANCELADO
X3 W3 Z3
4 SEPTIEMBRE-2015
SEPTIEMBRE-2016
NUEVO NUEVO_CANCELADO
X4 W4 Z4
Tabla 4. Conjunto de datos necesario para la fase de modelaje.
5.2 Modelaje
5.2.1 Selección inicial de Variables Dentro del análisis que se hace en particular para la retención es recomendable partir con las
mismas variables con las que se construye la tarifa. Sin embargo, estas no pueden ser las únicas
variables candidatas ya que el indicador de retención no solo se ve afectado por el perfil de riesgo
del conductor sino también por variables propias de los intermediarios. Ya que el intermediario
representa el único vínculo entre la compañía de seguros y los asegurados, es de esperar que
muchas de las variables que se pueden analizar de un intermediario afecten la tasa de retención de
un negocio en particular, y causen que el indicador no sea homogéneo en un portafolio de riesgos
similares.
Basados en las consideraciones anteriores se muestran en la siguiente tabla las variables
consideradas inicialmente, las cuales contienen información tanto del vehículo, del conductor y del
intermediario:
15
VARIABLE ENTIDAD TIPO UNIDAD DESCRIPCIÓN
Antigüedad de Intermediario
Intermediario
Continua años Indica el tiempo en años que lleva el intermediario afiliado a la compañía.
Segmentación 2015
Intermediario
Categórica
adimensional
Indica el segmento al que el intermediario fue asignado para el año 2016
Segmentación 2016
Intermediario
Categórica
adimensional
Indica el segmento al que el intermediario fue asignado para el año 2017
Tipo de Intermediario
Intermediario
Categórica
adimensional
Indica el tipo de intermediario.
Antigüedad del Asegurado
Conductor Continua años Indica el tiempo en años que lleva el riesgo afiliado a la compañía.
Edad del Conductor
Conductor Categórica
años Indica la edad en años de conductor.
Sexo Conductor Categórica
adimensional
Indica el género del conductor.
Experiencia de Siniestros
Conductor Categórica
adimensional
Indica si el conductor ha tenido siniestros o no.
Ciudad Vehículo Categórica
adimensional
Ciudad de circulación del vehículo.
Zona Vehículo Categórica
adimensional
Zona a la que pertenece la ciudad de circulación.
Departamento Vehículo Categórica
adimensional
Departamento al que pertenece la ciudad
Clase Vehículo Categórica
adimensional
Clase del vehículo (según guía FASECOLDA)
Combustible Vehículo Categórica
adimensional
Tipo de combustible del vehículo
Capacidad Pasajeros
Vehículo Categórica
pasajeros Capacidad de pasajeros del vehículo
Marca Vehículo Categórica
adimensional
Marca del Vehículo
Modelo Vehículo Categórica
años Modelo del vehículo
Nacionalidad Vehículo Categórica
adimensional
Nacionalidad de ensamblaje del vehículo
Peso Vehículo Categórica
kilogramos Peso del vehículo
Transmisión Vehículo Categórica
adimensional
Tipo de transmisión del vehículo
Descuento Vehículo-Conductor
Categórica
adimensional
Indica si en la vigencia se tuvo descuento.
Variación en la Prima
Vehículo-Conductor
Continua moneda Es la variación de la prima entre el periodo t y el periodo t+1.
16
Valor de la Prima monto original
Vehículo-Conductor
Continua moneda Es el valor original que
Tabla 5. Variables consideradas en etapa de modelaje.
Basados entonces en el razonamiento expuesto anteriormente se seleccionan de manera preliminar
22 variables que dentro de la óptica actuarial y de negocio pueden tener alguna incidencia en los
índices de retención del ramo de pesados individual.
En este punto es fundamental tener en cuenta que el volumen de información (número de registros)
con el que se contaba en la base de modelaje estaba muy por debajo de las recomendaciones
estándar para el desarrollo de modelos predictivos. Teniendo una base de datos de solo 2.500
registros no era posible obtener un modelo con una alta complejidad (se esperaba tener entre 4 y
5 variables) ni una alta capacidad predictiva, sin embargo posteriormente se expondrá como aun
con un volumen tan bajo de información se logra obtener un error estadístico considerablemente
pequeño.
5.2.2 Agrupaciones (Bandings) y análisis inicial Una vez seleccionadas las variables es necesario realizar agrupaciones o bandings iniciales que
permitan un mejor manejo de los datos. En este paso del modelaje se busca realizar agrupaciones
lógicas de los diferentes niveles de las variables en caso de que sea necesario y el objetivo real de
este procedimiento es conformar grupos o bands con un mayor volumen de datos para los casos en
los que uno o más niveles tengan pocas observaciones. De la misma manera en este paso se fija
para cada variable su nivel base, a partir del cual se calculan los predictores lineales de los demás
niveles, por lo que en este estudio se fijaba el nivel base como aquel que tuviese la mayor cantidad
de observaciones.
A continuación, se expone como ejemplo la variable CIUDAD para la cual se realizó una agrupación
previa:
CIUDAD GRUPO
BOGOTA 1
MEDELLIN 2
CALI 3
BUCARAMANGA 4
TUNJA 5
CUCUTA 5
IBAGUE 5
NEIVA 5 Tabla 6. Ejemplo resumido de las agrupaciones hechas para la variable CIUDAD.
En la tabla anterior se evidencia como se agrupan las ciudades, dejando solas las que presentan
mayor número de observaciones y creando una categoría para toda las demás.
Ya contando con las agrupaciones es posible comenzar a excluir variables. Para este caso se
utilizaron tres criterios diferentes que se aplican simultáneamente sobre todas las variables y que
17
permiten definitivamente excluir aquellas que no se consideren aptas para ser probadas en el
modelo inicial. Los criterios utilizados se resumen a continuación:
CRITERIO DESCRIPCIÓN
Análisis de Observaciones
-Este criterio se basa en entender el valor observado del indicador (retención) como también las frecuencias de los niveles de cada variable. -Con este criterio se busca descartar variables con demasiada masa de datos vacíos o catalogados en el error, como también tener un entendimiento preliminar sobre que variables son significativas.
Predicción
-Con este criterio se busca entender el comportamiento de las predicciones dentro del modelo teniendo en cuenta el efecto de las demás variables. -Este análisis permite entender las predicciones de la retención observando los niveles de cada variable independientemente. -En este análisis se puede entender la
Correlaciones
-Calculando la matriz de correlaciones es posible conocer los valores de las relaciones lineales entre las variables. - Para este estudio se considera que cualquier correlación superior a 0.7 es suficiente para descartar alguna del par de variables que la presenten ya que se considera que al mantenerlas se pueda presentar redundancia.
Tabla 7. Criterios iniciales para depuración de variables.
En el siguiente cuadro se expone la filtración inicial de variables utilizando los criterios
anteriormente expuestos. Se incluyen las gráficas tanto para el Análisis de Observaciones como para
el análisis de Predicciones:
VARIABLE RAZÓN DE LA EXCLUSIÓN
GRÁFICA
18
Antigüedad de
Intermediario
La masa de datos del Error (default) es mayor que la de los demás niveles.
0
200
400
600
800
1000
1200
1400
1600
1800
2000
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
1,1
0 1 2 3 4 5 6 7 8 9
10
11
12
13
14
15
16
17
18
19
20
> 2
0
Def
ault
ANTIGUEDAD_ASEGURADO
ANTIGUEDAD_ASEGURADO
Weight
Rete_trucks
0
20
40
60
80
100
120
140
160
180
-0,2
0
0,2
0,4
0,6
0,8
1
0 1 2 3 4 5 6 7 8 9
10
11
12
13
14
15
16
17
18
19
20
> 2
0
Def
ault
ANTIGUEDAD_ASEGURADO
Rescaled Predicted Values
ANTIGUEDAD_ASEGURADO
19
Edad del Conductor
La masa de datos del Error (default) es superior a la de los demás niveles. Dada la poca cantidad de información en algunos niveles la predicción no es muy confiable.
0
200
400
600
800
1000
1200
1400
1600
1800
2000
-0,3
-0,1
0,1
0,3
0,5
0,7
0,9
1,1
< 0 3 7
11
15
19
23
27
31
35
39
43
47
51
55
59
63
67
71
75
79
83
>=
167
.8 A
ND
< 2
49
.6
>=
495
AN
D <
57
6.8
>=
822
.2 A
ND
< 9
04
EDAD_CONDUCTOR
EDAD_CONDUCTOR
Weight Rete_trucks
-0,3
-0,1
0,1
0,3
0,5
0,7
0,9
1,1
< 0 2 5 8
11
14
17
20
23
26
29
32
35
38
41
44
47
50
53
56
59
62
65
68
71
74
77
80
83
>=
86 A
ND
< 1
67
.8>
= 33
1.4
AN
D <
41
3.2
>=
576
.8 A
ND
< 6
58
.6>
= 82
2.2
AN
D <
90
4
EDAD_CONDUCTOR
Rescaled Predicted Values
EDAD_CONDUCTOR
20
Experiencia de
Siniestros
La masa de datos ausentes (MV) es considerable. En las observaciones e puede ver que no hay mayor diferencia entre el valor real de la retención para ambos niveles.
0
500
1000
1500
2000
2500
3000
3500
4000
4500
0,25
0,35
0,45
0,55
0,65
0,75
0,85
0,95
No Si Error MV
EXPER_SINIE
EXPER_SINIE
Weight
Rete_trucks
0
50
100
150
200
250
300
350
400
450
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0,5
0,55
No Si Error MV
EXPER_SINIE
Rescaled Predicted Values
EXPER_SINIE
21
Sexo La masa de datos del Error (default) es considerable, resta credibilidad a la predicción. En las observaciones e puede ver que no hay mayor diferencia entre el valor real de la retención para ambos niveles.
Tabla 8. Justificación de variables excluidas tras análisis inicial.
Dentro del análisis de correlaciones es importante mencionar que las variables que presentaron un
índice mayor a 0.7 fueron las de CIUAD y DEPARTAMENTO con un valor de 0.96 y las de CLASE y
COMBUSTIBLE con un valor de 0.7. Sin embargo, estas se mantienen en el modelo inicial para
0
500
1000
1500
2000
2500
3000
3500
0,35
0,45
0,55
0,65
0,75
0,85
0,95
M F MV Error
SEXO
SEXO
Weight
0
50
100
150
200
250
300
350
-0,1
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
M F MV Error
SEXO
Rescaled Predicted Values
SEXO
22
mediante el proceso iterativo de modelaje determinar cuál de las dos debe permanecer y cual se
debe excluir.
Por lo tanto, las variables seleccionadas para la construcción del modelo inicial son:
• Antigüedad de Intermediario
• Segmentación 2015
• Segmentación 2016
• Tipo de Intermediario
• Ciudad
• Zona
• Departamento
• Clase
• Combustible
• Capacidad Pasajeros
• Marca
• Modelo
• Nacionalidad
• Peso
• Transmisión
• Descuento
• Variación en la Prima
• Valor de la Prima monto original
5.2.3 Construcción del Modelo Posterior a las respectivas pruebas preliminares a los que se someten las variables, aquellas que no
fueron descartadas ingresan al proceso de modelaje. La construcción del modelo se lleva a cabo
mediante un algoritmo iterativo que incluye las variables una a una dentro del modelo y evalúa su
efecto teniendo en cuenta la interacción con las demás variables, su influencia sobre todos los
predictores lineales, sobre el obre el estadístico chi (debe mantenerse inferior al 5%) y sobre el
deviance (medida de en cuanto los valores ajustados difieren de la observación). En caso de ser
necesario se dan ajustes sobre la variable, con agrupaciones adicionales (variables discretas) o
simplificaciiones polinómicas (variables continuas), para evaluarla nuevamente. Una vez la variable
demuestra ser significativa es adicionada y este modelo se fija como el referente. De ahí se comienza
una nueva iteración en donde se analiza la inclusión de una nueva variable y como esta afecta las
mismas medidas repitiendo el mismo procedimiento de ajuste en caso de ser necesario, hasta
finalmente llegar a una selección de variables final. Para la construcción del modelo la herramienta
utilizada fue EMBLEM de Willis Towers Watson.
Este algoritmo se describe con mayor detalle a continuación:
23
24
A continuación, se expone la bitácora del proceso de modelación que describe de manera ordenada
como se da el proceso de modelamiento para cada variable en particular:#
Fact
or
(#N
ive
les)
¿In
clu
ida
en
el M
od
elo
Inic
ial?
# d
e
corr
ela
cio
ne
s
>0.7
Ord
en
de
Ingr
eso
¿Agr
up
ada?
¿Sim
pli
fica
da?
∆ C
HI
Sen
tid
o
Co
mú
nIn
tera
ccio
ne
s
¿In
clu
ida
en
mo
de
lo
pre
lim
inar
?
Cau
sa d
e la
exc
lusi
ón
1A
nti
güe
dad
Inte
rme
dia
rio
(51
)SI
01
NO
SI0,
00%
SISI
2Se
gme
anta
cio
n 2
015
(7)
SI0
2SI
NO
0,10
%N
ON
O
Info
rmac
ion
de
sact
ual
izad
a.
Se u
tili
za la
se
gme
nta
cio
n
mas
re
cie
nte
(20
16).
3Se
gme
nta
cio
n 2
016
(10)
SI0
3SI
NO
0,00
%SI
SI
4Ti
po
de
Inte
rme
dia
rio
(6)
SI0
4SI
NO
0,00
%SI
NO
Au
me
nta
el v
alo
r e
stan
dar
de
los
est
imad
ore
s. M
ayo
r
agru
pav
ion
de
los
niv
ele
s n
o
es
po
sib
le.
5C
iud
ad (
191)
SI1
5SI
NO
0,20
%SI
NO
Au
me
nta
el v
alo
r e
stan
dar
de
los
est
imad
ore
s.
6Zo
na
(9)
SI0
6SI
NO
0,10
%SI
NO
Au
me
nta
el v
alo
r e
stan
dar
de
los
est
imad
ore
s. M
ayo
r
agru
pav
ion
de
los
niv
ele
s n
o
es
po
sib
le.
7D
ep
arta
me
nto
(31
)SI
17
SIN
O0,
00%
SIN
O
Au
me
nta
el v
alo
r e
stan
dar
de
los
est
imad
ore
s. M
ayo
r
agru
pav
ion
de
los
niv
ele
s n
o
es
po
sib
le.
8C
lase
(15
)SI
18
SIN
O0,
00%
SISI
9C
om
bu
stib
le (
4)SI
19
NO
NO
51,0
0%SI
NO
Ince
me
nta
el v
alo
r d
el
est
adst
ico
CH
I co
ntr
a e
l
mo
de
lo d
e r
efe
ren
cia.
Pre
sen
ta c
orr
ela
cio
n c
on
la
vari
able
cla
se.
10C
apac
idad
Pas
aje
ros
(38)
SI0
10SI
NO
75,3
0%SI
NO
Ince
me
nta
el v
alo
r d
el
est
adst
ico
CH
I co
ntr
a e
l
mo
de
lo d
e r
efe
ren
cia
11M
arca
(74
)SI
011
NO
NO
7,30
%SI
NO
Ince
me
nta
el v
alo
r d
el
est
adst
ico
CH
I co
ntr
a e
l
mo
de
lo d
e r
efe
ren
cia
12M
od
elo
(41
)SI
012
NO
NO
5,80
%SI
NO
Ince
me
nta
el v
alo
r d
el
est
adst
ico
CH
I co
ntr
a e
l
mo
de
lo d
e r
efe
ren
cia
13N
acio
nal
idad
(17
)SI
013
SIN
O0,
00%
SISI
14P
eso
(24
)SI
014
NO
NO
20,0
0%SI
NO
Ince
me
nta
el v
alo
r d
el
est
adst
ico
CH
I co
ntr
a e
l
mo
de
lo d
e r
efe
ren
cia
15Tr
ansm
isio
n (
6)SI
015
NO
NO
19,8
0%SI
NO
Ince
me
nta
el v
alo
r d
el
est
adst
ico
CH
I co
ntr
a e
l
mo
de
lo d
e r
efe
ren
cia
16D
esc
ue
nto
Té
cnic
o (
5)SI
016
SIN
O0,
00%
SISI
17P
eri
od
o d
e In
icio
(16
)SI
017
SIN
O0,
20%
SISI
18V
aria
cio
n d
e la
Pri
ma
(23)
SI0
18N
OSI
0,00
%SI
SI
19V
alo
r M
on
to o
rigi
nal
Pri
ma
(233
)SI
019
NO
25
Una vez concluido el proceso se define el modelo preliminar con las siguientes variables:
• ANTIGÜEDAD DEL INTERMEDIARIO
• SEGMENTACION 2016
• CLASE
• NACIONALIDAD
• DESCUENTO TÉCNICO
• PERIODO DE INICIO
• VARIACIÓN DE LA PRIMA
Como paso adicional se realizó una validación que consiste en repetir los pasos de modelamiento
incluyendo las variables definidas en un orden diferente para obtener el mismo resultado. Con la
obtención del mismo resultado se garantiza que el modelo es consistente.
En este punto es importante indicar que, si bien la variable PERIODO DE INICIO es importante para
identificar estacionalidad, en este caso en particular no se contaba con suficientes periodos de
tiempo para verificar cualquier hipótesis, por lo que no fue tenida en cuenta en el modelo final. De
la misma manera la variable VARIACION DE LA PRIMA fue descartada ya que, si bien resultó ser
significativa, no representaba una diferencia importante en cuanto a la capacidad predictiva del
modelo y generaba mayor volatilidad en las estimaciones.
Posteriormente a los todos los pasos del proceso de modelaje, incluyendo las validaciones, se
concluye que las variables consideradas en la versión final del modelo son:
• ANTIGÜEDAD DEL INTERMEDIARIO
• SEGMENTACIÓN 2016
• CLASE
• NACIONALIDAD
• DESCUENTO TÉCNICO
A partir de esta curva podemos entonces apreciar la precisión del modelo contrastándolo con los
valores observados. En la gráfica se observa en el eje x la frecuencia de un intervalo de valores para
la retención. Con base en estas frecuencias se generan las líneas de valores como los promedios de
cada grupo. Por supuesto existen diferencias en las estimaciones como se ve en la tendencia, donde
a veces se sobreestima o subestima el valor real, sin embargo, lo relevante de este fenómeno es
que da indicios de que no se presentan ningún sobreajuste, hecho que sería evidente en caso de
que las dos líneas fuesen exactamente iguales. Igualmente basándose en la información descrita en
el gráfico es posible concluir que, si bien se cuentan con pocas observaciones, el modelo recoge la
tendencia de la observación real en su mayoría y se podría inicialmente decir que es una
representación precisa de la realidad del negocio. Comparando el promedio de la retención
observada (76.80%) con la calculada por el modelo (77.34%) se ve una diferencia proporcional tan
solo del 0.7% lo que refuerza la conclusión anterior.
26
Grafica 6. Curva comparativa de los valores observados con la predicción.
5.3 Out of time sample - calibración En esta instancia del modelaje ya se conocen las variables descriptivas del fenómeno de análisis,
retención para este caso, por lo que es necesario continuar con un proceso de prueba y calibración
del modelo. En este caso en particular se realizó un Out of time Sample, la cual implica utilizar como
input un conjunto de datos cronológicamente diferentes a aquellos con los que se construyó y ajusto
el modelo. Este procedimiento se lleva a cabo para calibrar el modelo y garantizar mantenga
consistencia y precisión en el futuro. Para este caso en particular la muestra fue de los meses de
abril y mayo de 2017.
6. CONCLUSIONES Y RECOMENDACIONES Tal y como se planteó en el comienzo de este documento, el mantenimiento del portafolio es una
faceta fundamental del negocio asegurador, por lo que es ideal contar cada vez con análisis más
precisos y sofisticados para obtener el máximo valor de estas oportunidades. Es por lo anterior que
la implementación de métodos estadísticos multivariados, y en particular modelos lineales
generalizados, pueden ayudar de gran manera a un análisis y entendimiento integral del negocio,
de cara a la generación de políticas o procedimientos que ayuden a esta contribución de valor. Para
este caso en particular se observó un potencial importante sobre el ramo de pesados individual y
por este crecimiento que se ha venido presentando la gerencia consideró la necesidad de sofisticar
su análisis sobre la retención del portafolio.
Con base en esta necesidad (teniendo en cuenta el poco volumen de datos con el que se contaba),
fue posible construir un modelo que cuenta con un importante nivel de precisión y permite un
entendimiento más claro de las variables que afectan la decisión de un cliente de permanecer o no
en la compañía. Si bien la cantidad de observaciones con las que se contaba estaba lejos de ser las
27
óptimas para un análisis de este tipo, las manipulaciones hechas sobre los datos lograron obtener
una visión estable y conformar un modelo de baja complejidad que lograra manejar la alta
volatilidad propia del bajo volumen de información.
A partir de este nuevo modelo se espera que ahora cualquier decisión se dé a raíz del entendimiento
de las variables que afectan la retención del ramo, y que así la gerencia sea capaz de maximizar esta
probabilidad para los riesgos que generan utilidad (riesgos buenos) y tomar iniciativas para depurar
el portafolio, o extraer valor de aquellos riesgos que representen perdidas (riesgos malos).
28
BIBLIOGRAFIA
[1] Díaz Monroy, L. (2007). Estadística multivariada. Bogotá, Colombia: Departamento de
Estadística, Facultad de Ciencias, Universidad Nacional de Colombia.
[2] Werner Geoff, Modlin Caludine. (2010). Basic Ratemaking. Arlington, Estados Unidos: Casualty
Actuarial Society.
[3] Azevedo, A. and Santos, M. F. (2008). KDD, SEMMA and CRISP-DM: a parallel overview. In
Proceedings of the IADIS European Conference on Data Mining 2008, pp 182-185.
[4] Werner Geoff, Guven Serhat. (2007). GLM: Basic Modeling: Avoiding Common Pitfalls. Casualty
Actuarial Society Forum 2007, pp 258-272.
[5]Duran Vizlay, Najera Arturo. (2017). Cifras de la Industria Aseguradora a marzo. Fasecolda.
Bogotá, Colombia.
Top Related