Download - APLICACIÓN DE UN MODELO LINEAL GENERALIZADO PARA …

APLICACIÓN DE UN MODELO LINEAL GENERALIZADO PARA EL

ANALISIS DE LA RETENCION DEL RAMO DE PESADOS INDIVIDUAL

EN EL SECTOR ASEGURADOR

JUAN FELIPE LEÓN GIRALDO

ASESOR: JULIO VILLARREAL NAVARRO

UNIVERSIDAD DE LOS ANDES

DEPARTAMENTO DE INGENIERIA INDUSTRIAL

BOGOTÁ

JUNIO DE 2017

Contenido 1. INTRODUCCION Y CONTEXTUALIZACION ................................................................................ 3

2. ENTENDIMIENTO DEL NEGOCIO DE PESADOS Y JUSTIFICACION .............................................. 4

2.1 Producto de Pesados individual en la compañía.................................................................... 4

2.1.1 Características Generales .................................................................................................. 4

2.1.2 Estadísticas del Portafolio .................................................................................................. 5

2.2 Análisis de Retención............................................................................................................ 9

3. OBJETIVOS ............................................................................................................................... 10

4. MARCO TEORICO.................................................................................................................. 10

4.1Metodología CRISP-DM ....................................................................................................... 10

4.2 GLM - Modelo Lineal Generalizado ..................................................................................... 11

4.2.1 Regresión Logística .......................................................................................................... 12

5. DESARROLLO DEL MODELO Y ANALISIS DE RESULTADOS .......................................................... 13

5.1. Comprensión y preparación de los datos ........................................................................... 13

5.2 Modelaje ............................................................................................................................ 14

5.2.1 Selección inicial de Variables ........................................................................................... 14

5.2.2 Agrupaciones (Bandings) y análisis inicial ......................................................................... 16

5.2.3 Construcción del Modelo ................................................................................................. 22

5.3 Out of time sample - calibración ......................................................................................... 26

6. CONCLUSIONES Y RECOMENDACIONES ................................................................................ 26

3

1. INTRODUCCION Y CONTEXTUALIZACION En la actualidad es posible afirmar que el mercado de los seguros en Colombia es inmaduro y todavía

conserva muchas oportunidades de crecimiento, profundización y sofisticación. Esto se evidencia

en el hecho que las primas emitidas por las aseguradoras tan solo representan el 2.7% del PIB

nacional (Fasecolda 2015), además del creciente interés de compañías extranjeras en ingresar en

este mercado con productos innovadores y especializados. Es por esto que en un mercado tan

competitivo las compañías aseguradoras buscan constantemente sofisticar sus análisis y justificar

mejor sus decisiones utilizando las últimas técnicas de modelaje estadístico y computacional.

Dentro de las características del mercado asegurador, y para fines de este análisis en particular, es

importante notar que en Colombia los productos de automóviles se posicionan como unos de los

más representativos contando con una participación de 17% en primas (Fasecolda 2016) sobre la

producción total de todas las

compañías (43 compañías), lo

cual representó un valor cercano

a los 3 billones de pesos en el año

2016, además de mostrar un

crecimiento entre marzo de

2016 y marzo de 2017 del 18%.

De este total en el mercado de

seguros para automóviles La

compañía cuenta con alrededor

del 13% de participación. Estas

características previamente

mencionadas del mercado

mantienen la tendencia en el

nivel particular de las principales compañías en donde los ramos de automóviles se posicionan como

las principales unidades de negocio en cuanto a producción, como lo es el caso de la compañía

Seguros donde la producción de los ramos de automóviles compone cerca del 30% del portafolio de

la compañía (cifra a febrero de 2017).

Es por lo anterior que en búsqueda de proveer a

la compañía con mejores herramientas para

tomar decisiones y asegurar su posición en el

mercado, el presente estudio se enfoca en el

desarrollo de un modelo de renovación, que

derive en una posible política, específicamente

para el ramo de pesados. Se espera que esta

investigación sea de utilidad para permitir un

mejor mantenimiento del portafolio de riesgos

en el corto y mediano plazo.

La Compañía (13%)

4

2. ENTENDIMIENTO DEL NEGOCIO DE PESADOS Y JUSTIFICACION 2.1 Producto de Pesados individual en la compañía

2.1.1 Características Generales La póliza para automóviles, en particular la modalidad individual para transporte pesado, se

caracteriza por ser un producto enfocado en transporte de carga, transporte de pasajeros para

empresas que transportan su propia mercancía y propietarios o contratistas de autos útiles cuya

antigüedad máxima sea de 30 años. La compañía Seguros cuenta con un producto especializado en

diferentes perfiles de riesgo como lo son:

• Distribución Urbana: Póliza especial para propietarios de camiones, furgones y camionetas

cuya capacidad este entre 1 y 5 toneladas que circulen dentro del perímetro urbano y zonas

metropolitanas.

• Carga Nacional: Producto dirigido a proteger el patrimonio de los transportadores de carga,

propietarios de remolcadores, remolques, camiones y furgones de más de 5 toneladas que

circulen en el territorio nacional.

• Utilitarios: Enfocado a empresas, cooperativas y asociaciones que poseen flotas de pickups

sencillas, camionetas y vans, utilizadas para el transporte de elementos necesarios para el

desarrollo de su actividad.

• Volquetas: Para transportador o contratista de obras civiles y su labor implica la adquisición

o administración de este tipo de vehículos para el desarrollo del negocio.

• Transporte de Pasajeros: Protección para el patrimonio de transportadores de pasajeros,

propietarios de buses, busetas, microbuses, colectivos, vans pickups y doble cabina.

Este producto está compuesto por un grupo de coberturas que definen el compromiso de la

compañía frente al asegurado:

• Responsabilidad Civil Extracontractual

• Asistencia jurídica en proceso penal y civil

• Pérdida total por hurto

• Pérdida parcial por hurto

• Pérdida total por daños

• Pérdida parcial por daños

• Terremoto, temblor o erupción volcánica

• Amparo patrimonial

• Accidentes personales

• Responsabilidad civil general familiar

• Casa cárcel

• Asistencia en Viajes

• Lucro Cesante

• Asistencia Odontológica

• Exequial

Las vigencias de las pólizas son de naturaleza anual, es decir que la póliza ampara los riesgos durante

un año y una vez cumplido este plazo es necesario llevar a cabo el proceso de renovación, o dar por

5

terminado el contrato de seguro. De la misma manera los pagos de la prima son de carácter anual

una vez se adquiere el producto, ya sea como un negocio nuevo o como una renovación.

Es relevante también tener en cuenta que los riesgos (vehículos) de los ramos colectivos pueden

pasar a ser individualizados según la disposición de la gerencia de automóviles en caso que el

número mínimo de vehículos determinados en la composición de las pólizas colectivas se

incremente. Es por esto que, si la gerencia decide que el número mínimo de vehículos en una póliza

colectiva es n, todos los riesgos vigentes en las colectivas compuestas por k riesgos (donde k<n)

serán individualizados en este producto.

2.1.2 Estadísticas del Portafolio Con el fin de tener un entendimiento integral del negocio es importante comprender las estadísticas

y tendencias del portafolio de riesgos que la compañía ha manejado en los últimos años. Es

importante tener en cuenta que esta etapa de entendimiento de negocio y comprensión del

portafolio es una etapa esencial previa al modelaje, ya que en este punto se puede obtener una

intuición de que variables pueden ser relevantes para incluir en el modelo.

En primer lugar, es fundamental comprender que la actividad de comercialización de los seguros es

ejercida casi en su totalidad por intermediarios. A su vez estos intermediarios se encuentran

divididos en tres categorías de acuerdo principalmente a su régimen legal y tamaño de sus

portafolios como se describe en la siguiente tabla:

CLASIFICACION DE INTERMEDIARIOS

TIPO DE INTERMEDIARIO DESCRIPCION

CORREDORES

- Son los intermediarios con mayor producción y portafolios más amplios en volumen y primas.

- Siempre son personas jurídicas.

AGENCIAS

- Estos intermediarios debido al tamaño de su portafolio y volumen de producción no se consideran corredores, pero tampoco agentes.

- Siempre son personas jurídicas.

AGENTES

- Son los intermediarios más pequeños en término de portafolios y volumen de primas.

- Siempre son personas naturales

DIRECTO

- Es el canal de venta directo de la compañía.

- Solo se utiliza en casos muy específicos. Ejemplo: campañas de venta telefónica propias de La compañía.

- Es un canal de distribución.

Tabla 1. Tipos de Intermediarios.

Al ser la comercialización una actividad tercerizada es fundamental para una comprensión integral

del negocio conocer la distribución del producto entre los tipos de brokers. Esto puede generar

6

grandes conclusiones sobre a qué intermediarios enfocar estrategias o esfuerzos para propiciar

ventas. En la siguiente grafica se expone la concentración de riesgos entre los diferentes tipos de

intermediarios:

Grafica 1: Distribución de riesgos (en la compañía) por tipo de intermediarios para riesgos vigentes a mayo

de 2017.

Como es posible visualizar en la gráfica es evidente que la mayor concentración de riesgos (negocios)

se encuentra focalizada entre las Agencias(A) y los Agentes(N) casi en una misma proporción

mientras que los Corredores(A) cuentan con una menor participación en este producto. La baja

participación de los corredores es un fenómeno que se puede explicar a la luz del desgaste operativo

que implica la atención de las cuentas individuales por lo que usualmente este tipo de

intermediarios se encuentra enfocado en negocios de carácter colectivo. Es igualmente importante

entender de cara a la definición que se da a la retención para efectos de este estudio, que estos

intermediarios se rigen frente a la compañía por un convenio de pago que fija un límite medido en

días para que se haga efectivo el recaudo de la firma por parte de la compañía. Dependiendo de la

historia del intermediario (rentabilidad, historial de incumplimiento en pagos, entre otras variables)

su convenio de pago puede variar entre 45 y 90 días.

De la misma manera como es relevante tener un entendimiento sobre la estadística de

intermediarios, es de vital importancia tener un conocimiento del portafolio de riesgos (información

de los vehículos) que se encuentran suscritos, todo con el fin de tener una intuición preliminar sobre

que variables pueden ser utilizadas en la fase de modelaje. Es por lo anterior que dentro de un

análisis actuarial es bueno partir de las variables utilizadas para la construcción de la tarifa, como se

expone en la siguiente grafica donde se puede entender la distribución de riesgos de acuerdo al

modelo de vehículo.

7

Grafica 2: Distribución de riesgos (en la compañía) por modelo para riesgos vigentes a mayo de 2017.

Con la información anterior obtenemos una vista valiosa sobre la edad de la flota expuesta, lo cual

lleva a notar que efectivamente como se indica en la descriptiva del producto, esta se concentra en

vehículos con menos de 30 años de antigüedad. En este caso es evidente que la compañía cuenta

con un portafolio concentrado principalmente en riesgos dentro de los 0 y 10 años, teniendo la

mayoría de modelos concentrados entre el 2007 y el 2016, similar al parque automotor nacional.

Al igual que para la tarifa es relevante analizar la edad de la flota, es fundamental conocer la

distribución del portafolio por clase de vehículo como se describe en la siguiente gráfica.

Grafica 3: Distribución de riesgos (en la compañía) por clase del vehículo para riesgos vigentes a mayo de

2017.

8

Con base en esta distribución podemos segmentar la flota expuesta entre grupos relativamente de

tamaños similares teniendo los furgones como la clase más representativa con un 22.6% de

participación, seguidos por camiones (15.7%) y camionetas de reparto (12.66%) en el tercer lugar,

para entre estas tres clases componer la mitad del portafolio. Con ayuda de esta estadística se puede

generar una intuición sobre los usos que se le dan a los vehículos y nos da una idea más clara del

perfil de riesgo de la flota.

De la misma manera que es esencial analizar el portafolio de riesgos, es relevante tener en cuenta

el crecimiento que ha tenido el ramo en el último año y sobretodo en los últimos meses, no solo en

riesgos sino también en primas emitidas.

Grafica 4: Tendencia (en la compañía) de las primas emitidas por el ramo entre enero de 2015 y abril de

2017.

En el grafico anterior es importante notar la estacionalidad particular del negocio, efecto que se ve

generalmente en los ramos de automóviles. Es evidente que durante la mitad del año se ve el

periodo de menor producción teniendo a los meses de junio y julio como los de menor producción,

mientras que los picos de producción se presentan en marzo y septiembre.

Grafica 5: Crecimiento del portafolio de riesgos entre enero de 2016 y marzo de 2017

9

En el último año se ha presentado una tendencia de crecimiento, pasando de un poco más de 5.000

riesgos en enero de 2016, a más de 6.200 en marzo de 2017. Durante la mayoría de los meses se

registraron crecimientos en el portafolio de riesgos vigentes, adquiriendo en promedio 83 riesgos

por mes y creciendo en promedio un 26% (en primas emitidas) sobre el mismo periodo del año

anterior. Esto termina por demostrar un gran potencial que deriva en la necesidad de prestar

atención al mantenimiento de este portafolio haciendo uso de técnicas más sofisticadas.

2.2 Análisis de Retención Dentro de la estrategia de negocio en una compañía aseguradora a la hora de maximizar su

rentabilidad y mejorar su portafolio de riesgos hay varios enfoques: uno de estos precisamente

busca diferenciar las estrategias entre negocios nuevos y renovaciones. Ambas vertientes son

fundamentales para la generación de valor en la compañía, pero a su vez requieren de análisis

independientes y enfocados en las particularidades de los fenómenos que acompañan las dos

facetas del negocio.

ESTRATEGIA ENFOCADA

NEGOCIOS NUEVOS RENOVACIONES

Campaña de mercadeo direccionadas Descuentos

Productos especializados Tarifación personalizada

Incentivos a intermediarios Incentivos a intermediarios

Productos diferenciados Servicio de asistencias Tabla 2. Tipos y ejemplos de estrategias diferenciadas.

Basados en este enfoque dual, el presente estudio busca un énfasis especial sobre las renovaciones,

específicamente del ramo de pesado individual, para así poder brindar a la compañía un mayor

entendimiento de como retener un mejor portafolio mediante el entendimiento de los factores que

afectan de manera directa este indicador para así poder crear estrategias segmentadas hacia las

variables en particular. Para este caso en particular el interés de la gerencia de automóviles se inclina

hacia definir una política de renovación más detallada que la actual, la cual establece un incremento

en la tarifa de 17% sobre el valor de la prima para todos los riesgos. Este incremento se definió con

base en el incremento promedio de los costos asociados al ramo en particular (costos de repuestos,

reparaciones y asistencias en su mayoría), sin embargo, es una medida generalizada que no abarca

todo el entendimiento de las variables que afectan la decisión de un cliente sobre su continuidad en

la compañía.

Con base en lo anteriormente expuesto es importante definir el indicador de retención que se busca

modelar como:

𝑅𝑒𝑡𝑒𝑛𝑐𝑖ó𝑛𝑡 =𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑃ó𝑙𝑖𝑧𝑎𝑠 𝑅𝑒𝑛𝑜𝑣𝑎𝑑𝑎𝑠 𝑦 𝑅𝑒𝑐𝑎𝑢𝑑𝑎𝑑𝑎𝑠𝑡

𝑁ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑝ó𝑙𝑖𝑧𝑎𝑠 𝑎 𝑅𝑒𝑛𝑜𝑣𝑎𝑟𝑡

Esta medida representa la probabilidad de que un riesgo continúe con la compañía para un nuevo

periodo de contrato. Está definido como la razón de las pólizas que se renuevan y se recaudan (debe

estar recaudada dentro del convenio de pago pactado con el intermediario para considerarse

retenida) en el periodo t, sobre todas las pólizas que se tenían para renovar en dicho periodo. Este

indicador es importante ya que da una noción de la fidelidad de los intermediarios y permite enfocar

10

estrategias al analizarlo en las diferentes dimensiones de la compañía como los son: sucursal,

ciudad, ramos e intermediarios en particular.

3. OBJETIVOS Basados en la justificación y el análisis expuesto previamente a continuación se describen tanto el

objetivo principal como los objetivos específicos del presente estudio:

• Objetivo General: Construir un modelo estadístico que refleje la realidad sobre el fenómeno

de renovación en el ramo de pesados individual.

• Objetivos Específicos:

- Determinar aquellas variables significativas que influyen en el comportamiento de la

retención de los vehículos de transporte pesado.

- Obtener el entendimiento necesario del negocio de pesados para asegurar un

modelaje funcional y representativo de la realidad.

-

4. MARCO TEORICO En la siguiente sección se exponen los fundamentos teóricos detrás de la realización de este

proyecto, tanto para la metodología de análisis usada, como para el razonamiento matemático

implícito en el modelo desarrollado.

4.1Metodología CRISP-DM La metodología CRISP-DM o por su nombre completo en ingles Cross-Industry Standard Process for

Data Mining hace referencia a un modelo procedimental desarrollado por cinco compañías (SPSS,

Teradata, Daimlesr AG, NCR Corporation y OHRA) en el año de 1996 para abordar de una manera

organizada y sistemática problemas analíticos. Esta metodología se enmarca en un ciclo constante

de retroalimentación que consta de 6 etapas:

Imagen 1: Descripción del proceso CRISP-DM para abordar problemas analíticos.

11

- Comprensión del negocio: Esta fase inicial busca delimitar y fijar un alcance y un

objetivo para el proyecto lo cual requiere de un análisis hecho desde la perspectiva del

negocio. Es por lo anterior que el entendimiento del negocio es fundamental para así

poderlo traducir en un problema analítico.

- Comprensión de los datos: Esta etapa implica el entendimiento y la familiarización de

las fuentes y recursos de datos. Con esto se espera identificar posibles problemas de

calidad, generar hipótesis preliminares y conseguir intuiciones iniciales sobre los

enfoques para abordar la solución.

- Preparación de los datos: Usualmente esta es la etapa más demandante en cuanto a

tiempo ya que implica la construcción del conjunto final de datos que alimentara las

herramientas de modelaje.

- Modelado: En esta etapa varias técnicas de modelado son seleccionadas y puestas en

práctica. Debido a los requerimientos particulares de algunas técnicas de modelaje es

necesario retornar a la fase de preparación para adaptar los datos según la demanda.

- Evaluación: En esta etapa se debe analizar y evaluar los productos finales del modelo (o

modelos) para determinar si satisface todas las necesidades del negocio y cumple los

objetivos. Si se determina que algún elemento propio del negocio no se abordó de

manera correcta por los modelos es necesario retornar a la primera etapa.

- Despliegue: Al final se espera que el desarrollo de un modelo tenga alguna repercusión

en el mundo real o se vea implementado de una manera tangible. Usualmente la

implementación es llevada a cabo por los clientes.

4.2 GLM - Modelo Lineal Generalizado Dentro de las practicas actuariales de la actualidad es común encontrar métodos estadísticos

multivariados para diferentes propósitos como tarifación, proyecciones de siniestralidad, análisis de

retención, entre otros fines. La utilidad y principal ventaja que presentan estas prácticas sobre sus

versiones univariadas es la posibilidad de analizar las diferentes interacciones y correlaciones de las

decenas o centenas de variables que los actuarios consideran. En segunda instancia, estos métodos

permiten ajustarse a la naturaleza propia del fenómeno que se está modelando, utilizando

diferentes distribuciones de probabilidad y permitiendo aislar el efecto del componente no

sistemático (ruido). De la misma manera estas prácticas permiten obtener datos y medidas sobre el

propio modelo lo cual dan una idea de la capacidad predictiva y confiabilidad de este.

Dentro del gran conjunto de métodos estadísticos multivariados utilizados dentro de las ciencias

actuariales y por tanto en la industria aseguradora, los modelos lineales generalizados (GLM) son

sin duda una de las practicas estándar. Otra de sus principales ventajas, además de las descritas

anteriormente, es su transparencia lo cual se evidencia en el output del modelo el cual consta de

parámetros estimados para cada nivel de cada variable explicativa. Otras técnicas de análisis

multivariado como las redes neuronales, si bien ofrecen un análisis más preciso, son comúnmente

criticadas por su falta de transparencia y alta complejidad. En realidad, no importa los sofisticadas

que sean las matemáticas detrás de un método, lo importante es poder transmitir los resultados y

el funcionamiento general de la técnica utilizada a las áreas menos técnicas de la compañía como lo

son las divisiones comerciales y de suscripción.

Entrando ahora en una definición más formal y estándar para el modelo lineal generalizado (GLM),

como su nombre lo indica, es una generalización flexible de la regresión lineal clásica que describe

12

la variable respuesta (Y) como una función de una componente sistemática (predictor lineal)

mediante una función de enlace (función link) que define la relación entre la variable respuesta y la

combinación lineal de predictores. Este modelo extiende el planteamiento de la regresión lineal

clásica permitiendo que la variable repuesta sea generada por distribuciones de la familia

exponencial y que la magnitud de la varianza de cada medida sea una función del valor predicho, a

diferencia del modelo clásico que solo permite la distribución normal y supone una varianza

constante (homocedasticidad).

Esto se puede expresar como:

𝐸(𝒀) = 𝝁 = 𝑔−𝟏(𝑿𝛽)

Donde E(Y) es el valor esperado de Y, X𝛽 es el predictor lineal (una combinación lineal de los

parámetros desconocidos 𝛽 (usualmente estimados a través de máxima verosimilitud) y las

variables independientes X), g es la función de enlace y µ es la media de la distribución.

Para solucionar un GLM el modelador debe asegurar los siguientes requisitos:

• Proveer un conjunto de datos con un numero apropiado de observaciones de la variable

respuesta (en la literatura se sugieren 50.000 observaciones o más) y de los predictores

asociados considerados para el modelaje.

• Seleccionar una función de enlace que defina la relación entre los componentes sistemático

y aleatorio.

• Especificar la distribución subyacente del proceso aleatorio, típicamente un miembro de la

familia exponencial (e.g., normal, Poisson, gamma, binomial); esto se hace especificando la

media y la varias de la distribución.

4.2.1 Regresión Logística Este representa un caso puntual del GLM en donde se utiliza una función de enlace logit y una

distribución binomial. Es utilizada para predecir el resultado de una variable categórica (puede

tomar un numero finito de categorías) en función de las variables predictores, por lo que es de gran

utilidad para modelar la probabilidad de un evento en función de varios factores.

El modelo de regresión logística analiza datos con distribución binomial:

𝑌𝑖~𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙 (𝑝𝑖 , 𝑛𝑖)

Donde el número de ensayos ni es conocido pero la probabilidad de éxito pi se desconoce.

Queriendo entonces modelar la probabilidad y conociendo la distribución de la variable respuesta,

es posible describir la probabilidad como una función de las variables explicativas, las observaciones

y el número de ensayos:

𝑝𝑖 = 𝐸 (𝑌𝑖

𝑛𝑖|𝑋𝑖)

13

Los logits de estas probabilidades desconocidas se pueden modelar como una combinación lineal

de las variables explicativas xi:

𝑙𝑜𝑔𝑖𝑡(𝑝𝑖) = ln (𝑝𝑖

1 − 𝑝𝑖) = 𝛽0 + 𝛽1𝑥1,𝑖 + ⋯ + 𝛽𝑘𝑥𝑘,𝑖

Es posible interpretar los parámetros estimados (βj) como los factores que escalan los valores de

las variables explicativas en el logaritmo del cociente de probabilidades. En el caso de una variable

explicativa dicotómica, como el caso del género, la formulación equivalente del modelo se da por:

𝑝𝑖 =1

1 + 𝑒−(𝛽0+𝛽1𝑥1,𝑖+⋯+𝛽𝑘𝑥𝑘,𝑖)

5. DESARROLLO DEL MODELO Y ANALISIS DE RESULTADOS Como se mencionó anteriormente, la metodología usada para abordar el problema fue CRISP-DM,

por lo que en esta sección se expondrá lo correspondiente a las etapas de entendimiento de los

datos, preparación de los datos, modelaje y evaluación. La etapa de entendimiento del negocio se

abordó en la sección dos (2) del documento y la última (Despliegue) se encuentra en desarrollo a la

fecha de entrega de este documento.

5.1. Comprensión y preparación de los datos Como consideración inicial es importante tener presente que para el fin de realizar un modelaje

sobre la retención se busca utilizar una historia reciente de no más de 3 meses por dos razones

principales: en este tiempo se ha cumplido el plazo del convenio de pago y se puede considerar que

el indicador ha madurado y además las policías de renovación están constantemente cambiando

por lo que si se tomara mucha historia se podría sesgar el análisis con el efecto de políticas

anteriores. Debido al que el ramo de pesados individual es uno de los ramos más pequeños dentro

de la gerencia de autos, no se contaba con un volumen óptimo de datos para generar un modelo

con una alta precisión predictiva. Sin embargo, el volumen de datos con el que se contaba permitió

hacer un análisis sobre la incidencia de algunas variables en la retención de los negocios.

Inicialmente se cuenta con una base de datos a nivel de riesgo, la cual describe la historia de cada

uno dándole un estado para cada momento específico del tiempo. A continuación, se presenta una

representación simplificada de la tabla:

RIESGO ESTADO PERIODO INICIO VIGENCIA

PERIODO FIN VIGENCIA

1 NUEVO 16-OCTUBRE-2015 16-OCTUBRE-2016

2 RENOVADO 26-ABRIL-2015 26-ABRIL-2016

3 NUEVO CANCELADO 12-ENERO-2015 12-ENERO-2016

4 RENOVADO CANCELADO

9-SEPTIEMBRE-2015 9-SEPTIEMBRE-2016

Tabla 3. Conjunto de datos inicial.

Los estados que se encuentran dentro de esta base de datos se entienden bajo la siguiente lógica:

14

1. NUEVO: El riesgo ingreso como nuevo a la compañía. Esto quiere decir que la placa del

vehículo no se encontraba en el portafolio de vigentes del mes anterior. Las fechas que se

presentan serán las de la nueva vigencia.

2. RENOVADO: El riesgo fue renovado en ese periodo. Las fechas que se presentan serán las

de la nueva vigencia.

3. NUEVO CANCELADO: El riesgo fue cancelado en su primera vigencia. Esta marca solo puede

darse si el estado del periodo inmediatamente anterior es NUEVO.

4. RENOVADO CANCELADO: El riesgo fue cancelado después de haber sido renovado. Esta

marca solo puede darse si el estado del periodo inmediatamente anterior es RENOVADO.

Esta matriz representa el insumo inicial de donde se debe obtener el entendimiento de los datos y

de donde parte el modelaje. Sobre esta versión inicial se deben dar diversas transformaciones hasta

obtener la base de datos que soportará el modelo. Al final, se espera obtener una fuente de datos

que refleje el estado del riesgo en el periodo t y en el periodo t+1, y que además cuente con las

variables que preliminarmente pueden ser consideradas para la explicación del comportamiento de

la variable respuesta. Esta matriz debe ser similar a la siguiente estructura:

RIESGO

PERIODO INICIO

PERIODO FIN

ESTADO EN t

ESTADO EN t+1 VARIABLE CANDIDA

TA 1

VARIABLE CANDIDA

TA 2

VARIABLE CANDIDA

TA k

1 OCTUBRE-

2015 OCTUBRE-

2016 NUEVO RENOVADO X1 W1 Z1

2 ABRIL-2015

ABRIL-2016

RENOVADO

RENOVADO CANCELADO

X2 W2 Z2

3 ENERO-

2015 ENERO-

2016 NUEVO

CANCELADO

X3 W3 Z3

4 SEPTIEMBRE-2015

SEPTIEMBRE-2016

NUEVO NUEVO_CANCELADO

X4 W4 Z4

Tabla 4. Conjunto de datos necesario para la fase de modelaje.

5.2 Modelaje

5.2.1 Selección inicial de Variables Dentro del análisis que se hace en particular para la retención es recomendable partir con las

mismas variables con las que se construye la tarifa. Sin embargo, estas no pueden ser las únicas

variables candidatas ya que el indicador de retención no solo se ve afectado por el perfil de riesgo

del conductor sino también por variables propias de los intermediarios. Ya que el intermediario

representa el único vínculo entre la compañía de seguros y los asegurados, es de esperar que

muchas de las variables que se pueden analizar de un intermediario afecten la tasa de retención de

un negocio en particular, y causen que el indicador no sea homogéneo en un portafolio de riesgos

similares.

Basados en las consideraciones anteriores se muestran en la siguiente tabla las variables

consideradas inicialmente, las cuales contienen información tanto del vehículo, del conductor y del

intermediario:

15

VARIABLE ENTIDAD TIPO UNIDAD DESCRIPCIÓN

Antigüedad de Intermediario

Intermediario

Continua años Indica el tiempo en años que lleva el intermediario afiliado a la compañía.

Segmentación 2015

Intermediario

Categórica

adimensional

Indica el segmento al que el intermediario fue asignado para el año 2016

Segmentación 2016

Intermediario

Categórica

adimensional

Indica el segmento al que el intermediario fue asignado para el año 2017

Tipo de Intermediario

Intermediario

Categórica

adimensional

Indica el tipo de intermediario.

Antigüedad del Asegurado

Conductor Continua años Indica el tiempo en años que lleva el riesgo afiliado a la compañía.

Edad del Conductor

Conductor Categórica

años Indica la edad en años de conductor.

Sexo Conductor Categórica

adimensional

Indica el género del conductor.

Experiencia de Siniestros

Conductor Categórica

adimensional

Indica si el conductor ha tenido siniestros o no.

Ciudad Vehículo Categórica

adimensional

Ciudad de circulación del vehículo.

Zona Vehículo Categórica

adimensional

Zona a la que pertenece la ciudad de circulación.

Departamento Vehículo Categórica

adimensional

Departamento al que pertenece la ciudad

Clase Vehículo Categórica

adimensional

Clase del vehículo (según guía FASECOLDA)

Combustible Vehículo Categórica

adimensional

Tipo de combustible del vehículo

Capacidad Pasajeros

Vehículo Categórica

pasajeros Capacidad de pasajeros del vehículo

Marca Vehículo Categórica

adimensional

Marca del Vehículo

Modelo Vehículo Categórica

años Modelo del vehículo

Nacionalidad Vehículo Categórica

adimensional

Nacionalidad de ensamblaje del vehículo

Peso Vehículo Categórica

kilogramos Peso del vehículo

Transmisión Vehículo Categórica

adimensional

Tipo de transmisión del vehículo

Descuento Vehículo-Conductor

Categórica

adimensional

Indica si en la vigencia se tuvo descuento.

Variación en la Prima

Vehículo-Conductor

Continua moneda Es la variación de la prima entre el periodo t y el periodo t+1.

16

Valor de la Prima monto original

Vehículo-Conductor

Continua moneda Es el valor original que

Tabla 5. Variables consideradas en etapa de modelaje.

Basados entonces en el razonamiento expuesto anteriormente se seleccionan de manera preliminar

22 variables que dentro de la óptica actuarial y de negocio pueden tener alguna incidencia en los

índices de retención del ramo de pesados individual.

En este punto es fundamental tener en cuenta que el volumen de información (número de registros)

con el que se contaba en la base de modelaje estaba muy por debajo de las recomendaciones

estándar para el desarrollo de modelos predictivos. Teniendo una base de datos de solo 2.500

registros no era posible obtener un modelo con una alta complejidad (se esperaba tener entre 4 y

5 variables) ni una alta capacidad predictiva, sin embargo posteriormente se expondrá como aun

con un volumen tan bajo de información se logra obtener un error estadístico considerablemente

pequeño.

5.2.2 Agrupaciones (Bandings) y análisis inicial Una vez seleccionadas las variables es necesario realizar agrupaciones o bandings iniciales que

permitan un mejor manejo de los datos. En este paso del modelaje se busca realizar agrupaciones

lógicas de los diferentes niveles de las variables en caso de que sea necesario y el objetivo real de

este procedimiento es conformar grupos o bands con un mayor volumen de datos para los casos en

los que uno o más niveles tengan pocas observaciones. De la misma manera en este paso se fija

para cada variable su nivel base, a partir del cual se calculan los predictores lineales de los demás

niveles, por lo que en este estudio se fijaba el nivel base como aquel que tuviese la mayor cantidad

de observaciones.

A continuación, se expone como ejemplo la variable CIUDAD para la cual se realizó una agrupación

previa:

CIUDAD GRUPO

BOGOTA 1

MEDELLIN 2

CALI 3

BUCARAMANGA 4

TUNJA 5

CUCUTA 5

IBAGUE 5

NEIVA 5 Tabla 6. Ejemplo resumido de las agrupaciones hechas para la variable CIUDAD.

En la tabla anterior se evidencia como se agrupan las ciudades, dejando solas las que presentan

mayor número de observaciones y creando una categoría para toda las demás.

Ya contando con las agrupaciones es posible comenzar a excluir variables. Para este caso se

utilizaron tres criterios diferentes que se aplican simultáneamente sobre todas las variables y que

17

permiten definitivamente excluir aquellas que no se consideren aptas para ser probadas en el

modelo inicial. Los criterios utilizados se resumen a continuación:

CRITERIO DESCRIPCIÓN

Análisis de Observaciones

-Este criterio se basa en entender el valor observado del indicador (retención) como también las frecuencias de los niveles de cada variable. -Con este criterio se busca descartar variables con demasiada masa de datos vacíos o catalogados en el error, como también tener un entendimiento preliminar sobre que variables son significativas.

Predicción

-Con este criterio se busca entender el comportamiento de las predicciones dentro del modelo teniendo en cuenta el efecto de las demás variables. -Este análisis permite entender las predicciones de la retención observando los niveles de cada variable independientemente. -En este análisis se puede entender la

Correlaciones

-Calculando la matriz de correlaciones es posible conocer los valores de las relaciones lineales entre las variables. - Para este estudio se considera que cualquier correlación superior a 0.7 es suficiente para descartar alguna del par de variables que la presenten ya que se considera que al mantenerlas se pueda presentar redundancia.

Tabla 7. Criterios iniciales para depuración de variables.

En el siguiente cuadro se expone la filtración inicial de variables utilizando los criterios

anteriormente expuestos. Se incluyen las gráficas tanto para el Análisis de Observaciones como para

el análisis de Predicciones:

VARIABLE RAZÓN DE LA EXCLUSIÓN

GRÁFICA

18

Antigüedad de

Intermediario

La masa de datos del Error (default) es mayor que la de los demás niveles.

0

200

400

600

800

1000

1200

1400

1600

1800

2000

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

1,1

0 1 2 3 4 5 6 7 8 9

10

11

12

13

14

15

16

17

18

19

20

> 2

0

Def

ault

ANTIGUEDAD_ASEGURADO


Weight

Rete_trucks

0

20

40

60

80

100

120

140

160

180

-0,2

0

0,2

0,4

0,6

0,8

1

0 1 2 3 4 5 6 7 8 9

10

11

12

13

14

15

16

17

18

19

20

> 2

0

Def

ault


Rescaled Predicted Values


19

Edad del Conductor

La masa de datos del Error (default) es superior a la de los demás niveles. Dada la poca cantidad de información en algunos niveles la predicción no es muy confiable.

0

200

400

600

800

1000

1200

1400

1600

1800

2000

-0,3

-0,1

0,1

0,3

0,5

0,7

0,9

1,1

< 0 3 7

11

15

19

23

27

31

35

39

43

47

51

55

59

63

67

71

75

79

83

>=

167

.8 A

ND

< 2

49

.6

>=

495

AN

D <

57

6.8

>=

822

.2 A

ND

< 9

04

EDAD_CONDUCTOR

EDAD_CONDUCTOR

Weight Rete_trucks

-0,3

-0,1

0,1

0,3

0,5

0,7

0,9

1,1

< 0 2 5 8

11

14

17

20

23

26

29

32

35

38

41

44

47

50

53

56

59

62

65

68

71

74

77

80

83

>=

86 A

ND

< 1

67

.8>

= 33

1.4

AN

D <

41

3.2

>=

576

.8 A

ND

< 6

58

.6>

= 82

2.2

AN

D <

90

4

EDAD_CONDUCTOR


EDAD_CONDUCTOR

20

Experiencia de

Siniestros

La masa de datos ausentes (MV) es considerable. En las observaciones e puede ver que no hay mayor diferencia entre el valor real de la retención para ambos niveles.

0

500

1000

1500

2000

2500

3000

3500

4000

4500

0,25

0,35

0,45

0,55

0,65

0,75

0,85

0,95

No Si Error MV

EXPER_SINIE

EXPER_SINIE

Weight

Rete_trucks

0

50

100

150

200

250

300

350

400

450

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0,5

0,55

No Si Error MV

EXPER_SINIE


EXPER_SINIE

21

Sexo La masa de datos del Error (default) es considerable, resta credibilidad a la predicción. En las observaciones e puede ver que no hay mayor diferencia entre el valor real de la retención para ambos niveles.

Tabla 8. Justificación de variables excluidas tras análisis inicial.

Dentro del análisis de correlaciones es importante mencionar que las variables que presentaron un

índice mayor a 0.7 fueron las de CIUAD y DEPARTAMENTO con un valor de 0.96 y las de CLASE y

COMBUSTIBLE con un valor de 0.7. Sin embargo, estas se mantienen en el modelo inicial para

0

500

1000

1500

2000

2500

3000

3500

0,35

0,45

0,55

0,65

0,75

0,85

0,95

M F MV Error

SEXO

SEXO

Weight

0

50

100

150

200

250

300

350

-0,1

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

M F MV Error

SEXO


SEXO

22

mediante el proceso iterativo de modelaje determinar cuál de las dos debe permanecer y cual se

debe excluir.

Por lo tanto, las variables seleccionadas para la construcción del modelo inicial son:

• Antigüedad de Intermediario

• Segmentación 2015

• Segmentación 2016

• Tipo de Intermediario

• Ciudad

• Zona

• Departamento

• Clase

• Combustible

• Capacidad Pasajeros

• Marca

• Modelo

• Nacionalidad

• Peso

• Transmisión

• Descuento

• Variación en la Prima

• Valor de la Prima monto original

5.2.3 Construcción del Modelo Posterior a las respectivas pruebas preliminares a los que se someten las variables, aquellas que no

fueron descartadas ingresan al proceso de modelaje. La construcción del modelo se lleva a cabo

mediante un algoritmo iterativo que incluye las variables una a una dentro del modelo y evalúa su

efecto teniendo en cuenta la interacción con las demás variables, su influencia sobre todos los

predictores lineales, sobre el obre el estadístico chi (debe mantenerse inferior al 5%) y sobre el

deviance (medida de en cuanto los valores ajustados difieren de la observación). En caso de ser

necesario se dan ajustes sobre la variable, con agrupaciones adicionales (variables discretas) o

simplificaciiones polinómicas (variables continuas), para evaluarla nuevamente. Una vez la variable

demuestra ser significativa es adicionada y este modelo se fija como el referente. De ahí se comienza

una nueva iteración en donde se analiza la inclusión de una nueva variable y como esta afecta las

mismas medidas repitiendo el mismo procedimiento de ajuste en caso de ser necesario, hasta

finalmente llegar a una selección de variables final. Para la construcción del modelo la herramienta

utilizada fue EMBLEM de Willis Towers Watson.

Este algoritmo se describe con mayor detalle a continuación:

24

A continuación, se expone la bitácora del proceso de modelación que describe de manera ordenada

como se da el proceso de modelamiento para cada variable en particular:#

Fact

or

(#N

ive

les)

¿In

clu

ida

en

el M

od

elo

Inic

ial?

# d

e

corr

ela

cio

ne

s

>0.7

Ord

en

de

Ingr

eso

¿Agr

up

ada?

¿Sim

pli

fica

da?

∆ C

HI

Sen

tid

o

Co

mú

nIn

tera

ccio

ne

s

¿In

clu

ida

en

mo

de

lo

pre

lim

inar

?

Cau

sa d

e la

exc

lusi

ón

1A

nti

güe

dad

Inte

rme

dia

rio

(51

)SI

01

NO

SI0,

00%

SISI

2Se

gme

anta

cio

n 2

015

(7)

SI0

2SI

NO

0,10

%N

ON

O

Info

rmac

ion

de

sact

ual

izad

a.

Se u

tili

za la

se

gme

nta

cio

n

mas

re

cie

nte

(20

16).

3Se

gme

nta

cio

n 2

016

(10)

SI0

3SI

NO

0,00

%SI

SI

4Ti

po

de

Inte

rme

dia

rio

(6)

SI0

4SI

NO

0,00

%SI

NO

Au

me

nta

el v

alo

r e

stan

dar

de

los

est

imad

ore

s. M

ayo

r

agru

pav

ion

de

los

niv

ele

s n

o

es

po

sib

le.

5C

iud

ad (

191)

SI1

5SI

NO

0,20

%SI

NO

Au

me

nta

el v

alo

r e

stan

dar

de

los

est

imad

ore

s.

6Zo

na

(9)

SI0

6SI

NO

0,10

%SI

NO

Au

me

nta

el v

alo

r e

stan

dar

de

los

est

imad

ore

s. M

ayo

r

agru

pav

ion

de

los

niv

ele

s n

o

es

po

sib

le.

7D

ep

arta

me

nto

(31

)SI

17

SIN

O0,

00%

SIN

O

Au

me

nta

el v

alo

r e

stan

dar

de

los

est

imad

ore

s. M

ayo

r

agru

pav

ion

de

los

niv

ele

s n

o

es

po

sib

le.

8C

lase

(15

)SI

18

SIN

O0,

00%

SISI

9C

om

bu

stib

le (

4)SI

19

NO

NO

51,0

0%SI

NO

Ince

me

nta

el v

alo

r d

el

est

adst

ico

CH

I co

ntr

a e

l

mo

de

lo d

e r

efe

ren

cia.

Pre

sen

ta c

orr

ela

cio

n c

on

la

vari

able

cla

se.

10C

apac

idad

Pas

aje

ros

(38)

SI0

10SI

NO

75,3

0%SI

NO

Ince

me

nta

el v

alo

r d

el

est

adst

ico

CH

I co

ntr

a e

l

mo

de

lo d

e r

efe

ren

cia

11M

arca

(74

)SI

011

NO

NO

7,30

%SI

NO

Ince

me

nta

el v

alo

r d

el

est

adst

ico

CH

I co

ntr

a e

l

mo

de

lo d

e r

efe

ren

cia

12M

od

elo

(41

)SI

012

NO

NO

5,80

%SI

NO

Ince

me

nta

el v

alo

r d

el

est

adst

ico

CH

I co

ntr

a e

l

mo

de

lo d

e r

efe

ren

cia

13N

acio

nal

idad

(17

)SI

013

SIN

O0,

00%

SISI

14P

eso

(24

)SI

014

NO

NO

20,0

0%SI

NO

Ince

me

nta

el v

alo

r d

el

est

adst

ico

CH

I co

ntr

a e

l

mo

de

lo d

e r

efe

ren

cia

15Tr

ansm

isio

n (

6)SI

015

NO

NO

19,8

0%SI

NO

Ince

me

nta

el v

alo

r d

el

est

adst

ico

CH

I co

ntr

a e

l

mo

de

lo d

e r

efe

ren

cia

16D

esc

ue

nto

Té

cnic

o (

5)SI

016

SIN

O0,

00%

SISI

17P

eri

od

o d

e In

icio

(16

)SI

017

SIN

O0,

20%

SISI

18V

aria

cio

n d

e la

Pri

ma

(23)

SI0

18N

OSI

0,00

%SI

SI

19V

alo

r M

on

to o

rigi

nal

Pri

ma

(233

)SI

019

NO

25

Una vez concluido el proceso se define el modelo preliminar con las siguientes variables:

• ANTIGÜEDAD DEL INTERMEDIARIO

• SEGMENTACION 2016

• CLASE

• NACIONALIDAD

• DESCUENTO TÉCNICO

• PERIODO DE INICIO

• VARIACIÓN DE LA PRIMA

Como paso adicional se realizó una validación que consiste en repetir los pasos de modelamiento

incluyendo las variables definidas en un orden diferente para obtener el mismo resultado. Con la

obtención del mismo resultado se garantiza que el modelo es consistente.

En este punto es importante indicar que, si bien la variable PERIODO DE INICIO es importante para

identificar estacionalidad, en este caso en particular no se contaba con suficientes periodos de

tiempo para verificar cualquier hipótesis, por lo que no fue tenida en cuenta en el modelo final. De

la misma manera la variable VARIACION DE LA PRIMA fue descartada ya que, si bien resultó ser

significativa, no representaba una diferencia importante en cuanto a la capacidad predictiva del

modelo y generaba mayor volatilidad en las estimaciones.

Posteriormente a los todos los pasos del proceso de modelaje, incluyendo las validaciones, se

concluye que las variables consideradas en la versión final del modelo son:

• ANTIGÜEDAD DEL INTERMEDIARIO

• SEGMENTACIÓN 2016

• CLASE

• NACIONALIDAD

• DESCUENTO TÉCNICO

A partir de esta curva podemos entonces apreciar la precisión del modelo contrastándolo con los

valores observados. En la gráfica se observa en el eje x la frecuencia de un intervalo de valores para

la retención. Con base en estas frecuencias se generan las líneas de valores como los promedios de

cada grupo. Por supuesto existen diferencias en las estimaciones como se ve en la tendencia, donde

a veces se sobreestima o subestima el valor real, sin embargo, lo relevante de este fenómeno es

que da indicios de que no se presentan ningún sobreajuste, hecho que sería evidente en caso de

que las dos líneas fuesen exactamente iguales. Igualmente basándose en la información descrita en

el gráfico es posible concluir que, si bien se cuentan con pocas observaciones, el modelo recoge la

tendencia de la observación real en su mayoría y se podría inicialmente decir que es una

representación precisa de la realidad del negocio. Comparando el promedio de la retención

observada (76.80%) con la calculada por el modelo (77.34%) se ve una diferencia proporcional tan

solo del 0.7% lo que refuerza la conclusión anterior.

26

Grafica 6. Curva comparativa de los valores observados con la predicción.

5.3 Out of time sample - calibración En esta instancia del modelaje ya se conocen las variables descriptivas del fenómeno de análisis,

retención para este caso, por lo que es necesario continuar con un proceso de prueba y calibración

del modelo. En este caso en particular se realizó un Out of time Sample, la cual implica utilizar como

input un conjunto de datos cronológicamente diferentes a aquellos con los que se construyó y ajusto

el modelo. Este procedimiento se lleva a cabo para calibrar el modelo y garantizar mantenga

consistencia y precisión en el futuro. Para este caso en particular la muestra fue de los meses de

abril y mayo de 2017.

6. CONCLUSIONES Y RECOMENDACIONES Tal y como se planteó en el comienzo de este documento, el mantenimiento del portafolio es una

faceta fundamental del negocio asegurador, por lo que es ideal contar cada vez con análisis más

precisos y sofisticados para obtener el máximo valor de estas oportunidades. Es por lo anterior que

la implementación de métodos estadísticos multivariados, y en particular modelos lineales

generalizados, pueden ayudar de gran manera a un análisis y entendimiento integral del negocio,

de cara a la generación de políticas o procedimientos que ayuden a esta contribución de valor. Para

este caso en particular se observó un potencial importante sobre el ramo de pesados individual y

por este crecimiento que se ha venido presentando la gerencia consideró la necesidad de sofisticar

su análisis sobre la retención del portafolio.

Con base en esta necesidad (teniendo en cuenta el poco volumen de datos con el que se contaba),

fue posible construir un modelo que cuenta con un importante nivel de precisión y permite un

entendimiento más claro de las variables que afectan la decisión de un cliente de permanecer o no

en la compañía. Si bien la cantidad de observaciones con las que se contaba estaba lejos de ser las

27

óptimas para un análisis de este tipo, las manipulaciones hechas sobre los datos lograron obtener

una visión estable y conformar un modelo de baja complejidad que lograra manejar la alta

volatilidad propia del bajo volumen de información.

A partir de este nuevo modelo se espera que ahora cualquier decisión se dé a raíz del entendimiento

de las variables que afectan la retención del ramo, y que así la gerencia sea capaz de maximizar esta

probabilidad para los riesgos que generan utilidad (riesgos buenos) y tomar iniciativas para depurar

el portafolio, o extraer valor de aquellos riesgos que representen perdidas (riesgos malos).

28

BIBLIOGRAFIA

[1] Díaz Monroy, L. (2007). Estadística multivariada. Bogotá, Colombia: Departamento de

Estadística, Facultad de Ciencias, Universidad Nacional de Colombia.

[2] Werner Geoff, Modlin Caludine. (2010). Basic Ratemaking. Arlington, Estados Unidos: Casualty

Actuarial Society.

[3] Azevedo, A. and Santos, M. F. (2008). KDD, SEMMA and CRISP-DM: a parallel overview. In

Proceedings of the IADIS European Conference on Data Mining 2008, pp 182-185.

[4] Werner Geoff, Guven Serhat. (2007). GLM: Basic Modeling: Avoiding Common Pitfalls. Casualty

Actuarial Society Forum 2007, pp 258-272.

[5]Duran Vizlay, Najera Arturo. (2017). Cifras de la Industria Aseguradora a marzo. Fasecolda.

Bogotá, Colombia.

http://www.iadis.net/dl/final_uploads/200812P033.pdf