Redes Neuronales para Clasificación: Una aplicación al ... · Facultad de Ciencias Económicas y...

73
Facultad de Ciencias Económicas y Administrativas Maestría en Economía 1 Redes Neuronales para Clasificación: Una aplicación al caso de Riesgos Laborales en Colombia Camilo Matson Hernández Trabajo de grado para optar por el Título de Magister en Economía Asesor: Martha Misas Arango PONTIFICIA UNIVERSIDAD JAVERIANA FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS MAESTRÍA EN ECONOMÍA BOGOTÁ D.C., 2017

Transcript of Redes Neuronales para Clasificación: Una aplicación al ... · Facultad de Ciencias Económicas y...

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

1

Redes Neuronales para Clasificación:

Una aplicación al caso de Riesgos Laborales en Colombia

Camilo Matson Hernández

Trabajo de grado para optar por el Título de Magister en Economía

Asesor: Martha Misas Arango

PONTIFICIA UNIVERSIDAD JAVERIANA

FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATIVAS

MAESTRÍA EN ECONOMÍA

BOGOTÁ D.C., 2017

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

2

Resumen

El presente artículo describe el diseño, la formalización matemática, programación

y la aplicación de una red neuronal “percepton multicapa” en un problema economía de la

información. El modelo permitió clasificar correctamente el 85% de las empresas de una

muestra aleatoria de asegurados a riesgos laborales en Colombia, identificándolas como

fraudulentas o no fraudulentas a partir de sus variables explicativas. Este estudio cuenta con

dos factores diferenciales frente a los realizados en el pasado. En primer lugar, se aplicó

una red neuronal típicamente usada para modelar pronósticos de series de temporales a un

problema de clasificación de individuos, siguiendo el método propuesto por Hongjun Lu,

Rudy Setiono y Huan Liu en “Neuro Rule: A Connectionist Approach to Data Mining”

artículo que introduce un algoritmo para generar reglas de fácil interpretación para la

clasificación de individuos. En segundo lugar, la aplicación de esta técnica de minería de

datos es novedosa en la detección de empresas fraudulentas afiliadas al seguro de riesgos

laborales y en general en el campo de investigación económica en Colombia.

Palabras Clave: Redes Neuronales Artificiales, Perceptrón Multicapa, Fraude,

Riesgo Laboral, Economía de la Información, Seguros.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

3

Agradecimientos

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

4

Tabla de contenido

INTRODUCCIÓN .............................................................................................................................. 6

1. “BIG DATA” Y MINERÍA DE DATOS ........................................................................................ 7

2. PROBLEMAS DE CLASIFICACIÓN .......................................................................................... 10

Tabla 1. Matriz de Confusión ................................................................................................ 11 2.1 TIPOS DE MODELOS DE CLASIFICACIÓN Y SUS APLICACIONES .................................................... 12

Tabla 2. Algoritmos de clasificación ..................................................................................... 13 3. REDES NEURONALES ........................................................................................................... 15

Figura 1. Fuente: (Misas, López & Querubín 2002) .............................................................. 16 Figura 2. Fuente: (Misas, López & Querubín 2002) .............................................................. 16 Figura 3. Ejemplo de una red neuronal artificial perceptrón multicapa ............................... 17

3.1 RED NEURONAL PARA CLASIFICACIÓN CON PODA DE NODOS Y EXTRACCIÓN DE REGLAS ................. 18

3.2 ENTRENAMIENTO DE LA RED ............................................................................................. 21

3.3 PODA DE LA RED ............................................................................................................ 27

3.4 EXTRACCIÓN DE REGLAS .................................................................................................. 27

Figura 7. Ejemplo de discretización de valores de activación vía clúster ............................. 28 Tabla 3. Valores de activación y salidas Neurorule............................................................... 30 Tabla 4. Reglas de clasificación para los valores de activación de Neurorule...................... 30

4. APLICACIÓN DE REDES NEURONALES A UN PROBLEMA DE ECONOMÍA DE LA INFORMACIÓN: IDENTIFICACIÓN DE EMPRESAS FRAUDULENTAS EN EL RAMO DE RIESGOS LABORALES ............... 31

4.1 ECONOMÍA DE LA INFORMACIÓN Y FRAUDE EN SEGUROS ........................................................ 31

4.2 EMPRESAS FRAUDULENTAS EN EL SISTEMA DE GENERAL DE RIESGOS LABORALES ........................ 34

Tabla 5. Cifras Sistema de Riesgos Laborales ....................................................................... 35 4.3 SELECCIÓN DE LA MUESTRA .............................................................................................. 37

Tabla 6. Muestra estratificada de empresas ........................................................................ 39 4.4 VARIABLES EXPLICATIVAS Y DATOS DEL MODELO ................................................................... 39

Tabla 7 .................................................................................................................................. 40 1.5 ENTRENAMIENTO ....................................................................................................... 41

4.6 PODA .......................................................................................................................... 42

Tabla 8. Intervalos del modelo después de la fase de poda ................................................. 42 4.7 RULE EXTRACTION ALGORITHM (RX) .................................................................................. 44

Tabla 9. Clusters y valores de activación .............................................................................. 44 Tabla 10. Valores de activación discretos versus salidas del modelo ................................... 44 Tabla 11. Reglas de clasificación para los valores de activación .......................................... 45 Tabla 12. Matriz de confusión de empresas fraudulentas ARL ............................................ 45

5. CONCLUSIONES ................................................................................................................... 47

6. ANEXOS .............................................................................................................................. 49

Figura 5. Algoritmo de poda de una Red Neuronal Artificial. ............................................... 49

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

5

Figura 6. Algoritmo de extracción de Reglas RX ................................................................... 50 Figura 8. Algoritmo X2R: Generador de Reglas .................................................................... 51 Tabla 13. Departamentos de Colombia ............................................................................... 52 Tabla 14. Naturaleza ............................................................................................................ 53 Tabla 15. Tipos de documento ............................................................................................ 53 Tabla 16. Clases de riesgo .................................................................................................... 53 Tabla 17. Actividades Económicas ....................................................................................... 53

BIBLIOGRAFÍA ............................................................................................................................... 66

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

6

Introducción

Las redes neuronales artificiales (ANN) son modelos computacionales de las redes

neuronales biológicas, las cuales tratan de simular su funcionamiento y su capacidad para

procesar información (Misas, López & Querubín 2002) , según Herbrich, et.al (1999)

existen tres campos en los cuales se ha concentrado su aplicación en la economía: i)

clasificación de agentes económicos, ii) pronóstico de series de tiempo y iii) modelaje de

agentes con racionalidad limitada, y de estos, el campo con mayor exploración en la

investigación económica ha sido el segundo, por ejemplo, los trabajos de: Salazar (2009),

Restrepo (2006), Jalil & Misas (2006), Torres (2006), Arango & Misas (2004) , Misas,

Arango, López & Hernández (2003) y Misas, López & Querubín (2002) se han enfocado en

el uso redes neuronales para establecer relaciones no lineales entre variables, y así

pronosticar el valor futuro de una o más variables continuas a través del tiempo. Por otra

parte, el número de estudios de clasificación de agentes económicos es limitado sobre todo

a nivel local, donde predomina el uso de técnicas econométricas como la regresión logística

que permite predecir el valor de una variable categórica en función de variables

independientes, esta regresión ha sido usada en trabajos como: Iregui, Melo, Ramírez

(2013) y Lemus, Corredor & Gutiérrez (2012). Durante el proceso de investigación solo fue

posible encontrar a nivel local una aplicación del perceptron multicapa a clasificación de

individuos (Picón, 2011), sin embargo, posteriormente se citarán aplicaciones existentes en

referencias internacionales con aplicaciones en industrias de seguros y servicios financieros

que incluyen estas técnicas en su portafolio de modelos para el análisis y toma de

decisiones.

Las dos razones que han limitado el interés en el estudio de redes neuronales

artificiales para clasificación son: el alto costo computacional para el entrenamiento de las

mismas, y el nivel de complejidad para la generación de reglas fácilmente entendibles por

las personas. La primera restricción se ha superado ante la evolución de la capacidad de

procesamiento de los equipos de cómputo y la segunda se ataca a través del desarrollo del

algoritmo propuesto por Lu, Setiono & Liu (1995) para la extracción de reglas, objeto de

estudio de este documento.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

7

Este escrito iniciará con una breve justificación que incluye las oportunidades

existentes frente al uso de técnicas para el proceso de tratamiento y análisis de los datos,

luego se realizará una revisión de los modelos de clasificación, sus diferentes tipos y

aplicaciones. Seguido a esto: se elegirá el enfoque de redes neuronales particularmente el

perceptron multicapa, se describirá formalmente el método propuesto en “Neuro Rule: A

Connectionist Approach to Data Mining” para la extracción de reglas de clasificación, la

programación y generalización de algunos de sus algoritmos, y finalmente se incluirá una

aplicación del método al campo de la economía de la información en la detección de

empresas fraudulentas afiliadas al seguro de riesgos laborales en Colombia. Obteniendo así

reglas para clasificar las empresas como: fraudulentas o no fraudulentas a partir de sus

variables explicativas.

1. “Big Data” y Minería de Datos

En casi todos los ámbitos de la vida cotidiana estamos generando datos, bien sea a

través de la adquisición de productos o al recibir la prestación de un servicio. Por ejemplo,

la corporación internacional de tiendas estadounidense Walmart, gestiona más de un millón

de transacciones de sus clientes cada hora, y esta información se almacena en una base de

datos de más de 2.5 petabytes1 equivalente a 167 veces el número de libros en el Congreso

de Estados Unidos; los motores de cada jet Boeing pueden producir 10 terabytes de

información cada 30 minutos, que corresponden a cientos de datos en un sencillo vuelo

interoceánico, lo cual se convierte en un gran volumen de datos al multiplicar por los

25.000 vuelos diarios, en las redes sociales Facebook opera más de 500 terabytes solo en

datos de registro de usuario, Twitter cuenta con más de 550 millones de usuarios activos

que producen 9100 tweets cada segundo2 y YouTube recibe cada minuto 100 horas de

video3 (Kambatla, Kollias, Kumar & Grama, 2014), en el campo de los servicios de salud,

en Estados Unidos en el año 2011 los prestadores generaron cerca de 1000 petabytes de

información (Herland, Khoshgoftaar & Wald, 2014), (Huan, Pai, Teredesai & Yu , 2013),

(Yuan, Nsoesie, Lv, Peng, Chunara & Brownstein, 2013), siendo así el mundo moderno

1 1024 terabytes. 2 http://www.statisticbrain.com/twitter-statistics/. 3 http://www.youtube.com/yt/press/statistics.html.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

8

cuenta con datos de gran volumen, de diversos tipos y con una velocidad de velocidad de

actualización de milésimas de segundo.

En total se estima que cerca del 90% de los datos actuales fueron creados en los

últimos cinco años. Según IBM4 , la reconocida empresa multinacional estadounidense de

tecnología y consultoría, cada día se generan 2.5 quintillones5 de bytes, y en 2012 se

generaron 2.5 billones de gigabytes en múltiples campos de almacenamiento y tratamiento

de datos; además, aproximadamente el 75% de esta información corresponde a datos no

estructurados -imágenes, texto, audio y video-.

Para poder gestionar esta cantidad de registros se creó el concepto Big Data6, que

permite trabajar con grandes volúmenes datos que no pueden ser tratados de manera

convencional por superar los límites y capacidades de las herramientas habitualmente

utilizadas7. Big Data usa técnicas de software y hardware, dividiendo el trabajo de

procesamiento de la información en varios servidores simultáneamente, para solucionar

problemas de cálculo enormes, con datos de múltiples fuentes y con una rápida capacidad

de respuesta. Sin embargo, aunque el volumen de datos está creciendo exponencialmente la

mayor parte de la información permanece almacenada en los discos duros sin ser analizada,

y cuando se analiza, tarda varias semanas para que los seres humanos puedan descubrir

información útil para generar conocimiento (Grossman, Kamath, Kegelmeyer, Kumar &

Namburu, 2013) que a su vez permita mejorar la toma de decisiones de los agentes,

optimizar los procesos industriales y mejorar la efectividad de las políticas públicas. Para

cerrar la brecha entre los datos almacenados y el conocimiento generado, nace el concepto

Minería de datos que utiliza el análisis matemático para deducir patrones y tendencias que

normalmente no se pueden detectar mediante la exploración tradicional.

4 http://www-01.ibm.com/software/data/bigdata/what-is-big-data.html 5 1 Quintillon = 10^18 bytes. En comparación 1 Gigabyte = 10^9 bytes 6 Big Data: Es un concepto que permite realizar la administración de grandes volúmenes de datos, y

que consiste en la aplicación de cinco V’s: Volumen, Velocidad, Variedad, Veracidad y Valor. Donde

Volumen se refiere una cantidad basta de datos, Velocidad se refiere a alta frecuencia en la generación de

datos nuevos, Variedad se refiere al nivel de complejidad de los datos, Veracidad mide el nivel de

autenticidad de los datos y Valor evalúa qué tan buena es la calidad de los resultados de los modelos, en

referencia a los resultados esperados (Demchenko, Zhao, Grosso, Wibisono, De Laat C, 2012). 7 http://www.eleconomista.es/tecnologia/noticias/5578707/02/14/La-moda-del-Big-Data-En-que-

consiste-en-realidad.html

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

9

En minería de datos hay dos clases de modelos, los predictivos y los descriptivos,

los modelos predictivos consisten en usar algunas variables para predecir valores

desconocidos o futuros de otras variables, y los modelos descriptivos ayudan a en encontrar

patrones interpretables por los seres humanos para describir un conjunto de datos. Al

interior de cada clase podemos encontrar diferentes tipos de algoritmos, los usados en

modelos predictivos son:

Regresión: predicen el valor de una o más variables continúas basándose en los

valores de otras variables, asumiendo una dependencia que puede ser lineal o no

lineal. Por ejemplo, la predicción de ventas de un producto nuevo a partir del dinero

invertido en su campaña publicitaria.

Detección de desviaciones: encuentran patrones de desviación respecto a conductas

normales. Por ejemplo, la detección de transacciones fraudulentas en tarjetas de

crédito.

Por otro lado, en los modelos descriptivos cuentan con los algoritmos de:

Asociación: permiten producir reglas de dependencia que de ocurrencia de un ítem a

partir de la aparición de un grupo de elementos dados. Por ejemplo, identificación

de productos que se comprarán a partir de los productos previamente seleccionados.

Análisis de secuencias: permiten hacer el resumen secuencias o episodios frecuentes

en los datos. Por ejemplo, la secuencia en la compra de libros: “Introducción a la

economía”, “Economía de nivel medio” y “Economía avanzada.

Segmentación: permite ubicar los datos en grupos o “clúster” de elementos que

tienen propiedades similares. Por ejemplo, la segmentación de clientes a partir de

sus intereses de compra, para definir el esquema de atención de un banco.

Finalmente se encuentran los modelos de Clasificación que permiten encontrar la

clase a la que pertenece un individuo a partir de los atributos que lo caracterizan. Por

ejemplo, en el campo de la biología es interesante hacer la clasificación de un conjunto de

animales en su especie a partir de sus atributos físicos. El presente documento se enfocará

en el estudio estos modelos.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

10

2. Problemas de clasificación

Tan, Steinbach, & Kumar (2006) definen clasificación como el proceso de asignar

objetos, a una o muchas categorías, permitiendo descubrir reglas para dividir los conjuntos

de datos en subgrupos para ser analizados. Este tipo de modelos tienen la posibilidad de ser

usados en forma descriptiva al hacer distinción de objetos en clases y en forma predictiva al

inferir la clase de objetos desconocidos.

Los algoritmos de clasificación son eficaces en el manejo de conjuntos de variables

categóricas, pero su desempeño no es el mejor al usar variables cuantitativas y por lo

general siguen los pasos:

1. Definir los datos conocidos en un “conjunto de entrenamiento”, que corresponde

a un grupo de individuos observados con su clase esperada. Por ejemplo, una

base de datos que cuenta con dos individuos clasificados como: criminales y no

criminales.

2. Entrenar el modelo, esta etapa consiste en usar los datos definidos en el conjunto

de entrenamiento para que el modelo reconozca los patrones observados que le

asignan a cada individuo su clase. Siguiendo el ejemplo anterior, el individuo

cuenta con una variable explicativa que indica que en su contra existe una

demanda, y esta variable tiene un peso importante para determinar que la

persona es delincuente, esta variable se convierte en un patrón determinante para

la decisión final de clasificar al individuo como “criminal” de acuerdo con los

datos en el conjunto de entrenamiento.

3. Crear un “conjunto de validación” a partir de datos que no se hayan incluido en

el conjunto de entrenamiento.

4. Evaluar el modelo construido con los datos del “conjunto de validación”, para

definir la efectividad del modelo. Esta etapa consiste en comparar cual es la

clase pronosticada por el modelo, contra la clase real a la que pertenece el

individuo. Para el ejemplo, se toma una base de datos de criminales no incluida

en la fase inicial, se le aplican las reglas del modelo y se comparan las salidas

reales con el pronóstico.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

11

5. Si el modelo es suficientemente efectivo, se puede utilizar para clasificar nuevos

datos.

Cada modelo de clasificación emplea una técnica de aprendizaje que identifica el

mejor ajuste entre el conjunto de atributos del objeto y su respectiva clase. La evaluación

del desempeño del modelo está basada en el conteo de los elementos correctamente e

incorrectamente clasificados en el conjunto de validación de acuerdo con las salidas de

predicción del modelo. Es posible comparar el desempeño de un modelo usando la matriz

de confusión o matriz de error (Powers, 2007):

Tabla 1. Matriz de Confusión

Clase pronosticada

Clase = 1 Clase = 0

C

l

a

s

e

r

e

a

l

Clase 1

Verdaderos

Positivos

(VP)

Falsos Negativos

(FN)

Tasa de

Verdaderos

Positivos, TVP:

VP

𝑉𝑃 + 𝐹𝑁

Tasa de

Falsos

Negativos, TFN:

𝐹𝑁

𝐹𝑁 + 𝑉𝑃

Clase 0

Falsos Positivo

(FP)

Verdaderos

Negativos

(VN)

Tasa de

Falsos

Positivos, TFP:

𝐹𝑃

𝐹𝑃 + 𝑉𝑁

Tasa de

Verdaderos

Negativos, TVN:

VN

𝐹𝑃 + 𝑉𝑁

Ajuste:

VP + VN

𝑇𝑜𝑡𝑎𝑙𝐼𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑜𝑠

Valor Predictivo

Positivo, VPP:

VP

𝑉𝑃 + 𝐹𝑃

Tasa de Falsa

Omisión, TFO:

FN

𝑉𝑁 + 𝐹𝑁

Error:

FP + FN

𝑇𝑜𝑡𝑎𝑙𝐼𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑜𝑠

Tasa de

Falso

Descubrimiento,

TFD:

𝐹𝑃

𝐹𝑃 + 𝑉𝑃

Valor

Predictivo

Negativo, VPN:

𝑉𝑁

𝑉𝑁 + 𝐹𝑁

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

12

Los Verdaderos Positivos y Verdaderos Negativos, son individuos que fueron

clasificados correctamente por el modelo. Por otra parte, los Falsos Positivos, son

individuos clasificados por el modelo como Positivos, pero que en realidad eran Negativos,

mientras que los Falsos Negativos en realidad eran Positivos.

El Ajuste mide la proporción de los individuos correctamente clasificados por el

modelo independientemente de la clase a la que pertenecen versus el total de individuos, y

la tasa de error mide la proporción de los individuos incorrectamente clasificados en

relación con el total de individuos.

Las otras medidas son proporciones que permiten identificar relaciones de

clasificación del modelo, por ejemplo: VPP – (Valor Predictivo Positivo - Sensibilidad):

Denota la proporción de Verdaderos Positivos respecto al total de individuos pronosticados

como positivos y TVP – (Tasa de Verdaderos Positivos – Precisión): Corresponde a la tasa

de descubrimiento de verdaderos positivos en relación al total de los individuos realmente

Positivos y así sucesivamente (Powers 2007).

2.1 Tipos de modelos de clasificación y sus aplicaciones

Al revisar el estado del arte en materia de algoritmos de clasificación, se encuentra

un amplio espectro de opciones; por ejemplo Lessmann et al. (2015) realiza un completo

análisis comparativo con 1141 modelos orientados a determinar el riesgo de crédito de un

conjunto de agentes. El autor agrupa los modelos en tres tipos: clasificadores individuales,

conjuntos homogéneos y conjuntos heterogéneos.

Los clasificadores individuales se componen un único modelo que toma los datos y

produce las salidas finales, estos incluyen técnicas clásicas como: regresión logística, redes

neuronales, arboles de decisión y métodos bayesianos.

Los conjuntos homogéneos, incluyen uno o varios modelos base que procesan los

datos en primera instancia, luego sus salidas se usan en otro modelo igual que entrega los

resultados finales. Por último, se encuentran los conjuntos heterogéneos que al igual que los

homogéneos, tienen uno o varios modelos iniciales y un modelo final que se encarga de

procesar los datos, sin embargo, su diferencia radica en que estos tienen modelos diferentes

en la etapa inicial y en la final.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

13

La principal fortaleza de los conjuntos heterogéneos es que permiten contar con

diferentes puntos de vista en el mismo conjunto de datos, así los análisis individuales

resultan ser complementarios al evaluarlos en forma conjunta. Adicional a esto, de acuerdo

con resultados empíricos de Finlay (2011) y Paleologo, Elisseeff, & Antonini (2010) las

técnicas que involucran más de un modelo en diferentes instancias, tienen una mejor

capacidad de ajuste que los clasificadores individuales.

En la siguiente tabla se preparó un resumen de los modelos de clasificación más

usados agrupados por tipo:

Tabla 2. Algoritmos de clasificación

Tipo de

algoritmo

Algoritmo de clasificación Acrónimo

Clasificador

individual

Red Bayesiana B-Net

CART CART

K vecinos más cercanos kNN

Análisis lineal discriminante LDA

Máquina de soporte vectorial SVM-L

Regresión logística LR

Perceptron multicapa red neuronal artificial ANN

Bayes nativo NB

Algoritmos

homogéneos

Árbol de decisión alternante ADT

Árbol decisión impulsado Boost

Modelo de árbol logístico LMT

Algoritmos

heterogéneos

Apilado Stack

HCES con muestreo bootstrap HCES-Bag

Cluster k- Medias k-Means

La tabla nos muestra que existe una amplia gama de algoritmos que se pueden usar

para clasificar elementos, y la elección del más apropiado se basa en: en el ajuste del

modelo, el conjunto de datos, la capacidad de cómputo y el conocimiento del problema de

investigación.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

14

Estos problemas de la investigación se pueden presentar en casi cualquier ámbito

científico y su solución genera mayor eficiencia en todos los sectores de la economía

(seguros, banca, salud, energía, seguridad, construcción, transporte y gobierno),

convirtiéndolo en un problema computacional que reduce la intervención humana,

enfocando a las personas en el análisis de los casos especiales y reduciendo la carga

operativa. Por lo tanto, es interesante ilustrar resultados obtenidos por otros investigadores,

para dar al lector una noción del estado del arte que tiene especial énfasis en aplicaciones

en: banca, seguros y prestación de servicios de salud, de acuerdo con la orientación de este

documento.

Por ejemplo en banca Pavlidis et al (2012) realizan una aplicación de los modelos

de clasificación a clientes bancarios con obligaciones crediticias, para determinar cuáles

usuarios tienen mayor probabilidad de incumplir sus pagos, usando métodos como: análisis

discriminante, regresión logística, k vecinos más cercanos, arboles de decisión, métodos de

aprendizaje de máquinas, perceptron multicapa y las máquinas de soporte vectorial. Otro

ejemplo es el de Patidar & Sharma (2011), quienes realizan una investigación de fraudes

con las tarjetas de crédito; proponen la utilización de la construcción de una red neuronal

para la detección temprana de transacciones inusuales con base a los usos de la tarjeta,

también es posible encontrar interesantes aplicaciones relacionadas con el sistema bancario

en : Hand & Henley (1997) , Liao, Wang, & Weyman-Jones (2007) y Whittaker,

Whitehead, & Somers (2006).

Jones (2000) hace un resumen de técnicas empleadas de econometría de las salud y

Bertsimas Et al(2005) usaron técnicas modernas de minería de datos, específicamente,

arboles de decisión y algoritmos de clustering, con datos de reclamaciones de más de

800.000 individuos asegurados en un periodo de tres años, para proveer predicciones

validadas de los costos en el cuidado de la salud. Los hallazgos clave fueron (a) el método

de minería de datos provee predicciones acertadas de los costos médicos, convirtiéndolo en

una herramienta poderosa para la predicción de los costos de la salud, (b) el patrón de datos

de costos pasados es un fuerte predictor de costos futuros, y (c) el detalle de la información

médica solo contribuye a mejorar la predicción de costos médicos de pacientes de alto

costo.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

15

Otra aplicación en la prestación de servicios de salud es la identificación de

pacientes readmitidos en hospitales. La reedición de pacientes se ha identificado como un

problema al ser la mayor fuente de costos en los sistemas de salud de Estados Unidos y se

considera como un indicador clave de desempeño de los hospitales respecto a la calidad de

los servicios de salud que prestan, Golmohammadi & Radnia (2016) se valen del uso de

técnicas como: redes neuronales, modelos de clasificación y regresión, y de detección

automática modelo chi cuadrado, para buscar los patrones recurrentes en la historia

demográfica de los pacientes que han sido readmitidos y exploran la deducción de una regla

para predecir aquellos pacientes con alto riesgo de futuras readmisiones. Las aplicaciones

al sector asegurador serán revisadas en la sección 4.1 de este documento (Derrig, Weisberg

& Chen 1994).

El presente documento se enfocará en un algoritmo del tipo clasificador individual,

particularmente una red neuronal que permitirá identificar los patrones para asignar

individuos su clase correspondiente.

3. Redes neuronales

Las redes neuronales (ANN)8 son modelos computacionales basados en las redes

neuronales biológicas, las cuales tratan de simular su funcionamiento y su capacidad para

procesar información.

Para diferenciar estos dos tipos de redes: Misas, López & Querubín (2002),

mencionan que las redes biológicas se encuentran en el cerebro humano y que su

componente más básico es un tipo específico de célula llamada neurona el cual nos provee

habilidades de recordar, pensar y aplicar las experiencias previas para cada una de nuestras

acciones. Cada neurona puede estar conectada hasta con otras 2000 neuronas; en efecto, el

poder del cerebro proviene del número de estos componentes básicos y las múltiples

conexiones entre ellas.

Toda la neurona tiene cuatro componentes, que son: dendritas, soma, axón y

sinapsis. Básicamente una neurona recibe inputs, la combina de alguna manera, realiza una

8 Se conocen en la literatura como Redes Neuronales Artificiales (Artificial Neural Network)

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

16

operación no lineal en el resultado, y el output es el resultado final. La Figura 1 presenta

una neurona simplificada y la relación en sus componentes.

Figura 1. Fuente: (Misas, López & Querubín 2002)

En el caso de las redes neuronales artificiales, el elemento básico es una neurona

artificial, la cual trata de imitar las cuatro funciones de una neurona biológica. La Figura 2

muestra una neurona artificial.

Figura 2. Fuente: (Misas, López & Querubín 2002)

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

17

Los inputs o variables de entrada son representados por la variable 𝑥𝑛 , los cuales se

multiplican por un ponderado específico 𝑤𝑛 antes de llegar al área de procesamiento. En el

caso más sencillo, estos productos son agregados y filtrados para generar un output. Existen

varios tipos de redes neuronales que se construyen a partir de este modelo básico.

La interconexión de las neuronas se simula en las ANN mediante capas que están

conectadas entre sí. Como se puede ver en la Figura 3, las neuronas se agrupan en distintas

superficies, dependiendo de su conexión con el mundo exterior. Cuando la capa de entrada

recibe inputs 𝑥 que se multiplican por unos pesos 𝑤 y se evalúan en las funciones 𝛼

producen outputs 𝑠 , que se convierten en inputs de la siguiente capa (capa oculta) que se

multiplican unos pesos 𝑣, que producen unas salidas 𝑆 9.

Figura 3. Ejemplo de una red neuronal artificial perceptrón multicapa

Dependiendo de la conexión entre capas, se clasifican de diferentes formas, entre la

más conocida que es la ´Red hacia adelante´ (Feed forward), la cual se tiene cuando las

neuronas de la primera capa envían su output a la segunda capa, pero esta no recibe un

input sin recibir un output de retorno.

Dentro de los modelos con estas características de conexiones y aprendizaje se

encuentra el perceptrón multicapa, el cual tiene una capa de entrada y salida, al ser

9 El ejemplo corresponde a un individuo con dos variables explicativas 𝑥 , tres nodos 𝛼 en la capa de

entrada y dos nodos 𝜎 en la capa de salida.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

18

multicapa quiere decir que aparte de las capas mencionadas, tiene al menos una capa oculta,

lo que le ayuda a resolver problemas que no son linealmente separables.

El cerebro humano aprende a través de la experiencia, en los modelos ANN, este es

el proceso conocido como entrenamiento es cuando la red neuronal modifica sus pesos en

respuesta a una información de entrada. Uno de estos procesos se conoce como aprendizaje

supervisado, que se realiza mediante un entrenamiento controlado por un agente externo

(que suele llamarse maestro o supervisor) y determina la respuesta que debería generar la

red a partir de una entrada específica. El supervisor controla la salida de la red y en caso

que no coincida con la esperada, se procederá a modificar los pesos de las conexiones, con

el fin de que la salida obtenida se aproxime a la deseada.

3.1 Red neuronal para clasificación con poda de nodos y extracción de reglas

El algoritmo de ANN usado con mayor frecuencia para resolver problemas de

clasificación es k-medias propuesto por Lloyd (1957), porque es un método estándar

disponible en paquetes computacionales de minería de datos, sin embargo, este documento

propone y explica una técnica no estándar para la clasificación de individuos propuesta por

Lu, Setiono & Liu (1995), quienes resuelven el problema en tres pasos: entrenar, podar y la

extraer las reglas de la red.

Las tres etapas del modelo se programaron en MATLAB® para llevar su

simulación y verificar la interacción de los algoritmos (ver Figura 4), y se implementaron

en las fases de inicialización de variables y cargue de datos, entrenamiento de la red y poda,

y la extracción de reglas.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

19

Figura 4. Inicialización de variables.

Al escribir los códigos fue necesario agregar un proceso inicial de cargue de

variables donde se incluyen tres elementos para conformar la matriz de datos X. El

primero es X1 un vector de unos que permitirá la calibración del intercepto, el

segundo Xc una matriz con las variables cuantitativas del modelo y el tercero es Xd

una matriz con las variables discretas del modelo.

Cómo el desempeño de los algoritmos de clasificación no es el mejor ante la

presencia de variables cuantitativas, se requiere volverlas variables discretas al

realizar el cargue de datos. Para resolver esto se escribió un programa que toma el

valor máximo de la variable cuantitativa y la divide en un número dado de

intervalos, luego se recorren los elementos del vector con la variable cuantitativa y

se construye una matriz de unos y ceros, donde uno significa que el valor de la

variable es menor o igual a los elementos del intervalo y cero indica lo contrario.

Por ejemplo, se cuenta con una variable cuantitativa “Edad” con individuos

entre 1 y 45 años que se quiere volver discreta en tres intervalos [1,15], (15,30] y

(30,45] de la siguiente forma:

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

20

𝐸𝑑𝑎𝑑 =

[ 2317203145]

(1) 𝐸𝑑𝑎𝑑𝑑 =

[ [1,15] (15,30] (30,45]

1 0 01 0 01 1 01 1 01 1 11 1 1 ]

(2)

De tal forma que la variable cuantitativa (1) se convierte en la variable discreta (2),

para permitir su procesamiento10. Las variables categóricas como “sexo” se incluyen en el

modelo así:

𝑆𝑒𝑥𝑜 =

[ 𝐹𝑀𝑀𝐹𝐹𝑀]

(3) 𝑆𝑒𝑥𝑜𝑑 =

[ F M1 00 10 11 01 00 1 ]

(4)

Tanto las variables cuantitativas Xc, como las variables discretas Xd corresponden a

matrices de unos y ceros. Al unir las columnas de Xc con Xd se forma la matriz X de datos,

para posteriormente se seleccionar los parámetros de la arquitectura de la red (número de

nodos en la capa oculta y en la capa de salida), así como los valores iniciales para las

matrices de ponderación de variables W y V.

Luego se procede con la fase de entrenamiento para obtener el conjunto de pesos

que minimiza el error entre la salida del modelo y el dato real observado11 más un término

de penalización12 .

A esta técnica se le denomina propagación hacia atrás del error y se base en la

optimización del gradiente descendente. El algoritmo consiste en presentar un patrón de

entrada de la red neuronal, propagar dichas entradas hasta la capa de salida, luego calcular

el error de la capa de salida, para propagar dicho error hacia las neuronas ocultas y cambiar

10 La misma conversión de variables es usada por Liu & Tan (1995). 11 𝐸𝑟𝑟𝑜𝑟(𝑊, 𝑉). 12 𝑃(𝑊, 𝑉).

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

21

los pesos de las conexiones. El proceso finaliza cuando que la norma del gradiente de la

función de error inferior al error admitido por el investigador.

Adicional a la minimización del error en el caso de estudio se encuentra el término

de penalización propuesto por Setiono (1997) que busca calibrar la importancia de la

precisión de la red versus su nivel de complejidad. De tal forma que al encontrar un

conjunto de pesos W y V que minimizan la suma del error y el término de penalización, se

puede decir que la etapa de entrenamiento inicial se ha completado.

Hasta el momento se cuenta con una red completamente conectada, que tiene una

gran cantidad de nodos y vínculos, sin embargo, para reducirlos se aplica un algoritmo de

poda, que elimina los elementos redundantes sin incrementar el error de clasificación

obteniendo una versión sencilla de la red original que permite optimizar los tiempos de

cálculo. Pero, aunque la nueva red es menos compleja, la información disponible en esta

etapa, es apenas conjunto de pesos que pasan por la capa oculta y toman un valor de

activación real en el intervalo [-1,1], por lo tanto, aún no es posible derivar relaciones

comprensibles la forma “si… entonces…”, claras y explícitas entre los valores de

activación y los nodos ocultos.

Para poder las generar reglas entendibles se aplica el algoritmo RX de extracción de

reglas propuesto por Liu & Tan (1995), donde se agrupan los valores de activación sin

sacrificar el ajuste de la red, de tal forma que con un número pequeño de valores de

activación se puede determinar la dependencia entre los valores de salida de la red y los

nodos de la capa oculta, así como la dependencia entre los nodos de activación ocultos y los

valores de entrada, para finalmente obtener reglas con la estructura adecuada para ser

fácilmente interpretadas para clasificar individuos.

3.2 Entrenamiento de la red

Formalmente el problema consiste en clasificar 𝑘 individuos en 𝑜 clases usando 𝑥𝑙𝑖

como inputs del modelo, estos valores se ingresan en las neuronas de las capas de entrada

de la siguiente forma:

𝑠𝑙𝑚 = 𝛼𝑙

𝑚 = 𝑓(∑ (𝑥𝑙𝑖𝑤𝑙

𝑚)𝑛𝑙=1 − 𝑤0

𝑚) (5)

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

22

Todos inputs del modelo tienen asociado un peso 𝑤𝑙𝑚, el producto de estas variables

simula la conexión entre el axón y las dendritas, el valor de los pesos determina la fuerza y

el signo de la conexión, permitiendo potenciar o debilitar la señal recibida lo que en la red

neuronal biológica se conoce como sinapsis. Al valor 𝑤0𝑚 se le denomina umbral y se

interpreta como la cantidad que debe superar la suma de las señales de entrada que recibe la

unidad para que se active, esta expresión es conocida como función de entrada y se evalúa

en la función de activación 𝑓.

𝑓(𝑥) = 𝜕(𝑥) =(𝑒𝑥−𝑒−𝑥)

(𝑒𝑥+𝑒−𝑥) (6)

La forma funcional corresponde la tangente hiperbólica con rango [−1,1], se

encarga de normalizar las salidas y de hacer más compleja la red para que no se comporte

como una simple función lineal. Al resultado de 𝑓 se le conoce como valor de activación

(Russell & Norvig 2003).

Para facilidad en el tratamiento de la información el problema se planteará términos

matriciales, de tal forma que X corresponde a la matriz datos observados y se compone de

𝒙𝒍𝒊 elementos, donde el índice 𝒊 de las filas corresponde al número de individuos en el

conjunto de entrenamiento con 𝒊 ∈ {𝟏, 𝟐, … , 𝒌}, la variable 𝒍 es el número de atributos o

variables explicativas de cada individuo con 𝒍 ∈ {𝟎, 𝟏, 𝟐, … , 𝒏} y el vector de unos permite

calibrar el intercepto.

X =

[ 𝟏𝟎

𝟏 𝒙𝟏𝟏 𝒙𝟐

𝟏 … 𝒙𝒍𝟏 … 𝒙𝒏

𝟏

𝟏𝟎𝟐 𝒙𝟏

𝟐 𝒙𝟐𝟐 … 𝒙𝒍

𝟐 … 𝒙𝒏𝟐

⋮ ⋮ ⋮ ⋱ ⋮ ⋱ ⋮𝟏𝟎

𝒊 𝒙𝟏𝒊 𝒙𝟐

𝒊 … 𝒙𝒍𝒊 … 𝒙𝒏

𝒊

⋮ ⋮ ⋮ ⋱ ⋮ ⋱ ⋮𝟏𝟎

𝒌 𝒙𝟏𝒌 𝒙𝟐

𝒌 … 𝒙𝒍𝒌 … 𝒙𝒏

𝒌]

(7)

Además de los valores de entada se debe incluir la matriz T de datos consta de 𝒕𝒑𝒊

elementos, donde las 𝒑 columnas con 𝒑 ∈ {𝟏, 𝟐, … , 𝒐} indican el número de categorías en

las que se puede clasificar cada 𝒊-esimo individuo, y contienen los datos reales observados

que permitirán entrenar el modelo.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

23

T=

[ 𝒕𝟏𝟏 𝒕𝟐

𝟏 … 𝒕𝒑𝟏 … 𝒕𝒐

𝟏

𝒕𝟏𝟐 𝒕𝟐

𝟐 … 𝒕𝒑𝟐 … 𝒕𝒐

𝟐

⋮ ⋮ ⋱ ⋮ ⋱ ⋮𝒕𝟏𝒊 𝒕𝟐

𝒊 … 𝒕𝒑𝒊 … 𝒕𝒐

𝒊

⋮ ⋮ ⋱ ⋮ ⋱ ⋮𝒕𝟏𝒌 𝒕𝟐

𝒌 … 𝒕𝒑𝒌 … 𝒕𝒐

𝒌]

(8)

Los elementos de entrada en la matriz X se multiplican por la matriz de pesos WT,

con 𝒘𝒍𝒎 elementos donde 𝒎 es el número de los nodos ocultos 𝒎 ∈ {𝟏, 𝟐,… , 𝒉} y 𝒍 la

cantidad de nodos en la capa de entrada y 𝒍 ∈ {𝟎, 𝟏, 𝟐, … , 𝒏}.

W=

[ 𝑤0

1 𝑤11 𝑤2

1 … 𝑤𝑙1 … 𝑤𝑛

1

𝑤02 𝑤1

2 𝑤22 … 𝑤𝑙

2 … 𝑤𝑛2

⋮ ⋮ ⋮ ⋱ ⋮ ⋱ ⋮𝑤0

𝑚 𝑤1𝑚 𝑤2

𝑚 … 𝑤𝑙𝑚 … 𝑤𝑛

𝑚

⋮ ⋮ ⋮ ⋱ ⋮ ⋱ ⋮𝑤0

ℎ 𝑤1ℎ 𝑤2

ℎ … 𝑤𝑙ℎ … 𝑤𝑛

ℎ ]

h x n (9)

Con esto se construye la matriz XWT que consta del producto de la matriz de

entrada X por la matriz de pesos W transpuesta:

XWT=

[ ∑ (𝑥𝑙

1𝑤𝑙1)𝑛

𝑙=1 +𝑤01 ∑ (𝑥𝑙

1𝑤𝑙2)𝑛

𝑙=1 +𝑤02 … ∑ (𝑥𝑙

1𝑤𝑙𝑚)𝑛

𝑙=1 +𝑤0𝑚 … ∑ (𝑥𝑙

1𝑤𝑙ℎ𝑛

𝑙=1 )+𝑤0ℎ

∑ (𝑥𝑙2𝑤𝑙

1)+𝑤01𝑛

𝑙=1 ∑ (𝑥𝑙2𝑤𝑙

2)𝑛𝑙=1 +𝑤0

2 … ∑ (𝑥𝑙2𝑤𝑙

𝑚)𝑛𝑙=1 +𝑤0

𝑚 … ∑ (𝑥𝑙2𝑤𝑙

ℎ𝑛𝑙=1 )+𝑤0

⋮ ⋮ ⋱ ⋮ ⋱ ⋮∑ (𝑥𝑙

𝑖𝑤𝑙1)𝑛

𝑙=1 +𝑤01 ∑ (𝑥𝑙

𝑖𝑤𝑙2)𝑛

𝑙=1 +𝑤02 … ∑ (𝑥𝑙

𝑖𝑤𝑙𝑚)𝑛

𝑙=1 +𝑤0𝑚 … ∑ (𝑥𝑙

𝑖𝑤𝑙ℎ)𝑛

𝑙=1 +𝑤0ℎ

⋮ ⋮ ⋱ ⋮ ⋱ ⋮∑ (𝑥𝑙

𝑘𝑤𝑙1)𝑛

𝑙=1 +𝑤01 ∑ (𝑥𝑙

𝑘𝑤𝑙2)𝑛

𝑙=1 +𝑤02 … ∑ (𝑥𝑙

𝑘𝑤𝑙𝑚)𝑛

𝑙=1 +𝑤0𝑚 … ∑ (𝑥𝑙

𝑘𝑤𝑙ℎ)𝑛

𝑙=1 +𝑤0ℎ]

k x h (10)

Cada elemento de la matriz se evalúa en la función 𝑓 obteniendo así la matriz de

valores de activación 𝑠:

s= 𝛼 =

[ ∝1

1 ∝12 … ∝1

𝑚 … ∝1ℎ

∝21 ∝2

2 … ∝2𝑚 … ∝2

⋮ ⋮ ⋱ ⋮ ⋱ ⋮∝𝑙

1 ∝𝑙2 … ∝𝑙

𝑚 … ∝𝑙ℎ

⋮ ⋮ ⋱ ⋮ ⋱ ⋮∝𝑘

1 ∝𝑘2 … ∝𝑘

𝑚 … ∝𝑘ℎ]

k x h (11)

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

24

Los valores de activación de la primera capa se usan como entradas para las

neuronas de la segunda capa, al multiplicarlos por una matriz de pesos 𝑣𝑝𝑚 donde 𝑚:

corresponde al número del nodo en la capa oculta y 𝑝: al número de nodos de la capa de

salida, 𝑝 ∈ {1,2, … , 𝑜} y su valor indica el número de clases en que se clasifican los

individuos.

V=

[ 𝑣1

1 𝑣21 … 𝑣𝑝

1 … 𝑣𝑜1

𝑣12 𝑣2

2 … 𝑣𝑝2 … 𝑣𝑜

2

⋮ ⋮ ⋱ ⋮ ⋱ ⋮𝑣1

𝑚 𝑣2𝑚 … 𝑣𝑝

𝑚 … 𝑣𝑜𝑚

⋮ ⋮ ⋱ ⋮ ⋱ ⋮𝑣1

ℎ 𝑣2ℎ … 𝑣𝑝

ℎ … 𝑣𝑜ℎ ]

h x o (12)

Multiplicando se obtiene:

𝑠𝑉 =

[ ∑ ∝1

𝑚 𝑣1𝑚ℎ

𝑚=1 ∑ ∝1𝑚 𝑣2

𝑚ℎ𝑚=1 … ∑ ∝1

1 𝑣𝑝𝑚ℎ

𝑚=1 … ∑ ∝1𝑚 𝑣𝑜

𝑚ℎ𝑚=1

∑ ∝2𝑚 𝑣1

𝑚ℎ𝑚=1 ∑ ∝2

𝑚 𝑣2𝑚ℎ

𝑚=1 … ∑ ∝2𝑚 𝑣𝑝

𝑚ℎ𝑚=1 … ∑ ∝2

𝑚 𝑣𝑜𝑚ℎ

𝑚=1

⋮ ⋮ ⋱ ⋮ ⋱ ⋮∑ ∝𝑖

𝑚 𝑣1𝑚ℎ

𝑚=1 ∑ ∝𝑖𝑚 𝑣2

𝑚ℎ𝑚=1 … ∑ ∝𝑖

𝑚 𝑣𝑝𝑚ℎ

𝑚=1 … ∑ ∝𝑖𝑚 𝑣𝑜

𝑚ℎ𝑚=1

⋮ ⋮ ⋱ ⋮ ⋱ ⋮∑ ∝𝑘

𝑚 𝑣1𝑚ℎ

𝑚=1 ∑ ∝𝑘𝑚 𝑣2

𝑚ℎ𝑚=1 … ∑ ∝𝑘

𝑚 𝑣𝑝𝑚ℎ

𝑚=1 … ∑ ∝𝑘𝑚 𝑣𝑜

𝑚ℎ𝑚=1 ]

k x o (13)

El resultado del producto entre los valores de activación de la primera capa y la

matriz de pesos en la segunda capa se agrega en las neuronas de la capa oculta de acuerdo

con la siguiente expresión:

𝑆𝑝𝑖 = 𝜎𝑝

𝑖 = 𝜎(∑ 𝛼𝑚𝑣𝑝𝑚ℎ

𝑚=1 ) (14)

𝜎 es una función de activación logística, con rango [0,1]:

𝜎(𝑥) =1

(1+𝑒𝑥) (15)

Con esto se obtiene la matriz S con 𝜎𝑜ℎ elementos donde ℎ corresponde al número de

nodos13 en la capa oculta y 𝑜 corresponde al número de nodos en la capa de salida.

13 Para definir el número de nodos en la literatura hay dos enfoques: el primero comienza con una red

mínima y se agregan más nodos solo cuando se necesitan para mejorar la capacidad de aprendizaje de la red.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

25

S= 𝜎 =

[ 𝜎1

1 𝜎21 … 𝜎𝑝

1 … 𝜎𝑜1

𝜎12 𝜎2

2 … 𝜎𝑝2 … 𝜎𝑜

2

⋮ ⋮ ⋱ ⋮ ⋱ ⋮𝜎1

𝑚 𝜎2𝑚 … 𝜎𝑝

𝑚 … 𝜎𝑜𝑚

⋮ ⋮ ⋱ ⋮ ⋱ ⋮𝜎1

ℎ 𝜎2ℎ … 𝜎𝑝

ℎ … 𝜎𝑜ℎ ]

k x h (16)

Una vez se cuenta con las salidas del modelo se calcula el error entre el dato

pronosticado 𝑆𝑝𝑖 y el dato real observado en el conjunto de entrenamiento 𝑡𝑝

𝑖 . Una tupla

está correctamente clasificada si la diferencia entre el dato observado y la salida del modelo

son menores a un número positivo 𝜂1 menor a 0.5 que cuantifica el margen de error

admitido de la siguiente forma:

max𝑝

|𝑒𝑝𝑖 | = max

𝑝|𝑆𝑝

𝑖 − 𝑡𝑝𝑖 | ≤ 𝜂1 (17)

Ahora bien, el objetivo de la fase de entrenamiento es obtener un conjunto de pesos

(w,v) que minimice el error entre la clase pronosticada y el dato real, haciendo que la red

clasifique correctamente las tuplas de entrada usando para el cálculo del error la función de

entropía cruzada:

𝐸(𝑤, 𝑣) = −∑ ∑ (𝑡𝑝𝑖 𝑙𝑜𝑔𝑆𝑝

𝑖 + (1 − 𝑡𝑝𝑖 )𝑙𝑜𝑔𝑆𝑝

𝑖 )𝑜𝑝=1

𝑘𝑖=1 (18)

Seleccionada por la rápida convergencia al momento de minimizarla y puede

sustituir la ampliamente usada suma de residuales al cuadrado que es computacionalmente

costosa. A este error se le suma un término de penalti P(w,v) frecuentemente incluido en la

literatura al momento de podar la red neuronal.

𝑃(𝑤, 𝑣) = 𝜖1 (∑ ∑𝛽(𝑤𝑙

𝑚)2

1 + 𝛽(𝑤𝑙𝑚)2

𝑛

𝑙=1

𝑚=1

+ ∑ ∑𝛽(𝑣𝑝

𝑚)2

1 + 𝛽(𝑣𝑝𝑚)2

𝑜

𝑝=1

𝑚=1

)

+ 𝜖2 (∑ ∑(𝑤𝑙𝑚)2

𝑛

𝑙=1

𝑚=1

+ ∑ ∑(𝑣𝑝𝑚)2

𝑜

𝑝=1

𝑚=1

) (19)

El segundo enfoque comienza con una red de gran tamaño y en el momento de la poda se reducirán los nodos

ocultos y las conexiones entre la capa de la red.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

26

De acuerdo con Setiono (1997) inicialmente en estos modelos solo se incluía la

segunda componente del termino de penalti. El valor 𝜖2 es una pequeña constante de

decaimiento positivo Hinton (1989) que se multiplica por un factor que eleva los pesos w y

v al cuadrado desestimulando las ponderaciones que toman valores grandes. Si las

aproximaciones de segundo orden de la función de error son usadas para encontrar para

encontrar un mínimo local de la función de error, la suma de este término cuadrático

contribuye a la estabilidad del proceso de entrenamiento. Esta componente del termino de

penalti le suma 𝜖2 a la diagonal de la segunda derivada de la matriz de la función de error.

Con esta modificación, es más probable que la matriz sea definida positiva, y, por lo tanto,

una dirección descendente puede ser obtenida.

Sin embargo, existen algunos problemas cuando se usa el método de propagación

hacia atrás del error para entrenar la red al usar solamente la segunda componente de (19).

La suma de este término causará que todos los pesos decaigan exponencialmente a cero a la

misma tasa (Hanson & Pratt 1989), este término también provocará que

desproporcionalmente se penalicen pesos grandes.

Ahora bien, al analizar la primera componente del termino en la ecuación (19) se

tiene una función 𝑓(𝑤) = 𝑤2/(1 + 𝑤) que toma un valor pequeño cuando 𝑤 es cercano a

cero y se acerca a 1 cuando el valor de 𝑤 es muy grande. De tal forma que puede ser

considerado como la medida total de los pesos diferentes a cero en la red. La derivada de la

función 𝑓′(𝑤) = 2𝑤/(1 + 𝑤2)2 indica que el entrenamiento de propagación hacia atrás del

error afectará poco por la adición del segundo término en la ecuación.

Seleccionar los valores adecuados para la tasa de aprendizaje del método de

propagación hacia atrás del error y para 𝜖1 causará que los pesos pequeños decrezcan a una

tasa mayor que los pesos grandes. Una desventaja de solo usar el primer la primera

componente del termino de penalti es que no tiene distinción alguna entre pesos grandes y

pesos muy muy grandes.

Durante la etapa de poda es imperativo prevenir la aparición de los pesos muy

grandes y al mismo tiempo incentivar a los pesos muy pequeños para que caigan

rápidamente a cero. Para alcanzar esa meta, se incluyen las dos componentes en el termino

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

27

de penalización como se muestra en la ecuación (19). Donde los valores de 𝜖1 y 𝜖2 deben

ser mayores a cero y deben reflejar la importancia relativa de la precisión de la red versus

su complejidad.

Una vez definidos el valor del error y el termino de penalti, se da inicio a la fase de

entrenamiento que comienza con un conjunto inicial de pesos (𝑤, 𝑣)(0) e iterativamente

actualiza sus pesos para minimizar 𝐸(𝑤, 𝑣) + 𝑃(𝑤, 𝑣). Cualquier algoritmo de

minimización puede ser usado para ese propósito; sin embargo, para reducir el tiempo de

entrenamiento de la red, factor importante en la minería de datos, se usó el método BFGS

(Dennis & Schnabel 1983). El entrenamiento de la red termina cuando se alcanza un

mínimo local de la función 𝐸(𝑤, 𝑣) + 𝑃(𝑤, 𝑣) con un valor de error tolerado y el gradiente

de la función es suficientemente pequeño.

3.3 Poda de la red

Al final del proceso de entrenamiento se cuenta con una red completamente

conectada, con un número amplio de conexiones en la red. Con 𝑛 nodos de entrada, ℎ

nodos ocultos y 𝑚 nodos de salida, entonces tenemos ℎ(𝑚 + 𝑛) conexiones. La fase de

poda intenta remover conexiones sin afectar el ajuste para simplificar la extracción de

reglas y dado que Setiono (1994) prueba que una red completamente entrenada para

clasificar una tupla 𝑥𝑖 con la condición (17) satisfecha, permite definir 𝑤𝑙𝑚 igual a cero sin

deteriorar el ajuste total de la red si se cumplen la condiciones |𝑣𝑝𝑚 ∗ 𝑤𝑙

𝑚| ≤ 4𝜂2 y 𝜂1 +

𝜂2 < 0.5, así la red puede continuar clasificando correctamente la tupla 𝑥𝑖. De igual

manera si max𝑝

|𝑣𝑝𝑚| ≤ 4𝜂2 entonces 𝑣𝑝

𝑚 puede ser removido de la red (ver Figura 5).

Una vez aplicado el algoritmo sobre la red neuronal resultante de la fase de

entrenamiento, se cuenta con una versión simplificada de esta que cuenta con menos

conexiones en la primera y segunda capa, optimizando los procesos de cálculo y la

complejidad de la red.

3.4 Extracción de reglas

Después de la etapa de poda existen un par de dificultades adicionales que se deben

afrontar. En primer lugar, cada nodo ∝𝑙𝑚 tiene n conexiones con valores binarios {0,1} lo

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

28

cual se traduce en 2𝑛 posibles patrones de entrada diferentes, haciendo muy compleja la

extracción del conjunto de reglas incluso para valores pequeños de n. En segundo lugar, los

valores de activación de la capa oculta pueden ser cualquier número real que tome un valor

en el intervalo [-1,1], por lo tanto, al hacer este ejercicio con una cantidad significativa de

datos, los valores de activación son prácticamente continuos dificultando la generación de

reglas para encontrar la relación entre los valores de activación de la capa oculta y los

valores entregados por la capa de salida del modelo.

Ante estas dificultades los autores del Neurorule proponen el uso del Algoritmo de

extracción de Reglas RX (ver Figura 6).

El primer paso del algoritmo inicia ejecutando un clúster de los valores de

activación igualando 𝜕 al vector ∝l𝑚 y agrupándolos nodos discretos, es decir, se sustituyen

los valores de activación continuos en [-1,1] por un número reducido de nodos que deben

mantener el nivel de ajuste de la red, pero que al tiempo simplifican la extracción de reglas.

Para ahondar en el detalle de la explicación del algoritmo de clúster es necesario

entender sus variables y su función. Formalmente, las variables se pueden definir como: D

igual al número de valores de activación discretos en la capa oculta del nodo, 𝜕 igual a la

matriz ∝. Para primer patrón en el conjunto de entrenamiento se establece un valor inicial

𝛼11 , la variable 𝐻𝑗 corresponde al centro del intervalo que determina el nodo de activación,

la variable count almacena el número de valores de activación ∝l𝑚 agrupados en el clúster y

la variable sum permite acumular la suma de los valores de activación.

Para ilustrar este punto recurriremos a un sencillo ejemplo donde se cuenta con seis

valores de activación distintos ∝11, ∝2

1,…, ∝61 .

Figura 7. Ejemplo de discretización de valores de activación vía clúster

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

29

En la Figura 7 se toma 𝜕 igual al primer vector de elementos de la matriz 𝛼

definiendo 𝑚 = 1, posteriormente se asigna el primer centro del intervalo 𝐻1 igual al

primer valor de activación ∝11 , la variable count del intervalo y la variable D se inician en

1 y la variable sum es igual al valor de activación ∝11 . Luego se evalúa si ∝2

1 se encuentra

en (𝐻1 − 𝜀, 𝐻1 + 𝜀), según la Figura 7, ∝21 pertenece a él y por estar allí se incrementa

variable count =2 y se suma el valor ∝21 a la variable sum quedando igual a ∝1

1+ ∝21, así se

acumulan los valores de activación que se encuentran en intervalo alrededor de 𝐻1. En la

siguiente iteración se toma el valor ∝31 y según la Figura 7 se encuentra por fuera del

intervalo (𝐻1 − 𝜀, 𝐻1 + 𝜀) y como no está incluido se crea un nuevo centro 𝐻2 igual a ∝31

que se indexa con a variable D igual a 2, construyendo el intervalo (𝐻2 − 𝜀, 𝐻2 + 𝜀), que

cuenta con sus propias variables count=1 y sum=∝31. El algoritmo de clúster continua así

sucesivamente creando nuevos intervalos de ancho 𝜀 cuando un valor de activación no se

encuentra incluido en los existentes, y en caso contrario, agrupa los valores ∝k1 en la

variable sum y lleva el conteo de los nodos en la variable count. El proceso se repite

sucesivamente hasta evaluar todos los valores de activación, contando los valores de

activación en cada intervalo en las variables count y sumando en las variables sum. Una vez

completado se toma el promedio de los valores de activación de cada intervalo aplicando la

operación H=sum/count, para posteriormente reemplazar los valores originales ∝l𝑚 por los

nuevos valores discretos H = ∝𝑐 𝑙 𝑚, verificando que no se altere significativamente el nivel

de ajuste de la red.

El segundo paso del algoritmo es “Enumerar los valores de activación discretizados

y calcule la salida de la red. Generar reglas que tengan perfecta cobertura de las tuplas para

los nodos de activación que permitan las salidas del modelo”, lo cual se traduce en

encontrar las reglas que a partir de los valores de activación generan las salidas esperadas

usando el algoritmo de extracción de reglas X2R propuesto por Liu & Tan (1995) (ver

Figura 8).

Por ejemplo, en Neurorule, los autores ilustran la aplicación del algoritmo a través

de la Tabla 3 con los valores de activación 𝛼1, 𝛼2 y 𝛼3 y las correspondientes salidas del

modelo 𝑆1 y 𝑆2 el cual resulta en las reglas descritas en la Tabla 4.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

30

Tabla 3. Valores de activación y salidas Neurorule

𝛼1 𝛼2 𝛼3 𝑆1 𝑆2

-1 1 -1 0.92 0.08 -1 1 1 0.00 1.00 -1 1 0.24 0.01 0.99 -1 0 -1 1.00 0.00 -1 0 1 0.11 0.89 -1 0 0.24 0.93 0.07

1 1 -1 0.00 1.00 1 1 1 0.00 1.00 1 1 0.24 0.00 1.00 1 0 -1 0.89 0.11 1 0 1 0.00 1.00 1 0 0.24 0.00 1.00 0 1 -1 0.18 0.82 0 1 1 0.00 1.00 0 1 0.24 0.00 1.00 0 0 -1 1.00 0.00 0 0 1 0.00 1.00 0 0 0.24 0.18 0.82

Tabla 4. Reglas de clasificación para los valores de activación de Neurorule

Regla

R1 𝜶𝟐 = 𝟎 ∧ 𝜶𝟑 = −𝟏 => 𝑺𝟏=1 𝑺𝟐=0

R2 𝜶𝟏 = −𝟏 ∧ 𝜶𝟐 = 𝟏 ∧ 𝜶𝟑 = −𝟏 => 𝑺𝟏=1 𝑺𝟐=0

R3 𝜶𝟏 = −𝟏 ∧ 𝜶𝟐 = 𝟎 ∧ 𝜶𝟑 = 𝟎. 𝟐𝟒 => 𝑺𝟏=1 𝑺𝟐=0

En otro caso => 𝑺𝟏=0 𝑺𝟐=1

En el tercer paso consiste en aplicar el algoritmo de extracción de reglas X2R pero

esta vez entre los valores de entrada en la matriz X, y los nodos de activación.

El cuarto y último paso consiste en “Generar reglas que relacionen los valores de

entrada y los valores de salida, por sustitución de las reglas encontradas en los pasos

anteriores”, es decir, conectar lógicamente las reglas encontradas en el paso dos y el paso

tres del algoritmo para generar las reglas definitivas del modelo.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

31

4. Aplicación de redes neuronales a un problema de economía de la

información: Identificación de empresas fraudulentas en el Ramo de Riesgos

Laborales

4.1 Economía de la información y fraude en seguros

El negocio de seguros consiste en el pago de una prima riesgo, es decir, una suma

de dinero que un agente tomador de decisiones adverso al riesgo con una función de

utilidad dada, está dispuesto a pagar por encima de la pérdida esperada (valor actuarial de la

prima) para evadir un riesgo dado 14, las transacciones de este tipo de contratos no son

recientes ya que según Vaughan (1997) existieron en las antiguas civilizaciones china y

babilónica; sin embargo el análisis económico moderno del mercado de asegurador inicia a

principios de los años sesenta con la publicación de múltiples artículos de Kenneth Arrow y

Karl Borch, (Arrow, 1963, 1965; Borch, 1960, 1961, 1962), convirtiendo Arrow en el

pionero en el desarrollo de la economía de la incertidumbre, información y comunicación

(Dionne & Harrington 2014).

Uno de los conceptos introducidos (Arrow 1963) es que el riesgo rara vez se puede

intercambiar completamente en un mercado sin importar cuál sea, y que tres de las

principales razones de esta limitación son: el riesgo moral, la selección adversa y los costos

de transacción. Pero, para comprender esta afirmación, es necesario ir a las definiciones.

La selección adversa que es definida como la situación en la que el asegurado posee

información que, de ser conocida por el asegurador, afectaría las reglas del contrato, o

incluso, la realización del mismo10. El Riesgo moral entendido por Krugman (2009) es

"cualquier situación donde una persona decide cuanto riesgo tomar mientras que alguien

más paga el costo si las cosas salen mal". Proviene de la incapacidad de las empresas

aseguradoras para observar las decisiones al asumir riesgos de sus asegurados y de la su

propensión a consumir a servicios innecesarios. Ahora bien existen dos tipos de riesgo

moral, el riesgo moral ex ante que se refiere a la desmotivación en la prevención que genera

14 Según Fasecolda prima es: El precio pactado por el seguro contratado. Es la remuneración que

recibe la aseguradora para hacerle frente a los riesgos que está amparando en la póliza y es la contraprestación

que está obligando a ambas partes a cumplir con lo establecido en el contrato. Es el pago que se hace por

adelantado para iniciar el contrato de seguro y en ocasiones puede ser demandada legalmente cuando la

aseguradora ha iniciado la cobertura en ciertos riesgos.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

32

la existencia del contrato de seguros; es decir, al no verse afectado el nivel de riqueza del

tomador ante la ocurrencia de un siniestro, este no percibe los costos y beneficios de la

prevención15 y el riesgo moral ex pos se entiende como la incapacidad de las compañías

para observar el comportamiento de sus asegurados después de ocurrido el siniestro,

convirtiéndose en el principal determinante de la existencia de hechos delictivos (De la

Espriella, 2012).

En resumen, existen tres factores clave en el proceso de aseguramiento con

presencia de las asimetrías de información, el primero es que, durante la adquisición de la

póliza, el asegurado puede omitir datos al asegurador que impedirían la realización del

contrato de seguros. El segundo, que el asegurado después de adquirir la póliza puede

cambiar su comportamiento ex ante frente a la prevención el contrato de seguros que

mitigará la pérdida económica y el tercer elemento, es que el asegurado puede incurrir en

actividades fraudulentas expos reportando siniestros inexistentes o buscando que el monto

pagado por la aseguradora sea mayor al monto realmente perdido, siendo así en la

adquisición de la póliza y en el pago de siniestros donde se pueden presentar

comportamientos fraudulentos.

Según el estudio del Programa de las Naciones Unidas para el Desarrollo (2011),

debido al fraude se pierden 5.59% del total de los gastos del sector de la salud en todo el

mundo que, según cálculos de la OMS, es aproximadamente de $260 billones de dólares.

Para el caso de Estados Unidos, la Oficina de Contaduría Nacional o General

Accounting Office de reportó gastos anuales en cuidado cercanos a los dos trillones de

dólares. Equivalente al 15.3% del PIB Norteamericano. En el año 2007 según la Asociación

Nacional de Cuidado de la Salud Anti fraude (NHCAA) por sus siglas en inglés, el valor

estimado de gastos por fraude en el sistema de salud asciende a $68 billones, es decir 3%

del gasto en salud en Estados Unidos de acuerdo con Li, Huang, Jin & Shi (2008).

De la Espriella (2012) menciona que tanto las compañías de seguros, como la

sociedad, se ven afectadas por el fraude. En el intento por combatir esta problemática, las

compañías asumen costos relacionados con unidades investigativas y capital humano para

15 De la Espriella 2012 .

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

33

realizar auditorías, incrementando los costos en términos de salario e insumos,

traduciéndose en sobrecostos que se trasladan a las tarifas incrementando el valor de la

prima. Con un mayor precio se genera menor cobertura de los servicios de aseguramiento a

la población incapaz de pagar los valores con sobrecostos.

Para reducir el riesgo moral ex ante y seleccionar los agentes que cumplen con las

condiciones para la toma del seguro, los investigadores desarrollaron teorías orientadas a la

construcción de contratos óptimos que permitan que los agentes se auto seleccionen en su

correspondiente clase (Derring 2002), para reducir el riesgo moral expos existen

aplicaciones como: Viaene, Derrig, Baesens & Dedene, G., (2016) que aplican las técnicas

de clasificación: regresión logística, C4.5 árbol de decisión, k- vecinos más cercanos, red

neuronal perceptron multicapa, Bayes nativo, entre otros, con el objetivo de detectar fraude

en las reclamaciones de seguros de automóviles. A partir de indicadores de banderas rojas

se señalaron automáticamente los reclamos con mayor posibilidad de ser fraudulentos. Los

trabajos de (Derrig & Ostaszewski 2016), (Liu & Tan 1995) y (Artı́s, Ayuso & Guillén

1999) también son un referente en esta materia de fraude en seguros vehiculares.

Para el aseguramiento de salud Derrig (2002) propone un mecanismo sistémico para

la detección de fraude, que ordena eficientemente las reclamaciones en categorías para

descartar rápidamente los casos no sospechosos, por su parte He et al. (1997) proponen un

modelo de redes neuronales de clasificación Perceptrón Multicapa para identificar perfiles

riesgosos a partir reglas de expertos, estableciendo un ranking de cuatro clases que van

desde una conducta normal hasta perfiles anormales, en cuanto a aseguramiento de salud

también se puede consultar a: (Major & Riedingerl 2016), (Brockett, Xia & Derrig 2016) y

(Belhadji E.B., Dionne G., & Tarkhani F. 2000) .

Con la implementación de estos métodos los expertos buscan reducir los costos por

fraude asociados a los seguros, enfocando a los especialistas en la investigación de los

casos con mayor probabilidad de ser fraudulentos, reduciendo significativamente los costos

de auditoria y descartando rápidamente los casos que no son objeto de análisis para

incrementar la satisfacción del cliente.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

34

4.2 Empresas fraudulentas en el Sistema de General de Riesgos Laborales

Los servicios de salud y cuidado personal son temas que afectan a todas las

personas porque las enfermedades y lesiones afectan la forma de vivir, la capacidad para

contribuir al bienestar de la familia, el ser un miembro productivo en la fuerza de trabajo y,

por ende, a la economía del país. El Estado Colombiano ha venido formalizando el mercado

laboral buscando la cobertura necesaria para los trabajadores, lo que conlleva a la

protección de los riesgos derivados de este.

Todo ejercicio laboral, sin importar el grado de complejidad, expone a los

trabajadores a un riesgo que puede afectar su desempeño físico y mental. Tanto para

accidentes, como para enfermedades consecuencia de su actividad, las empresas y los

empleados deben estar protegidos en asistencia médica y a través de indemnizaciones que

les permitan dar cobertura a los servicios de salud y seguir cubriendo las necesidades del

hogar.

El Sistema de Riesgos Laborales (SGRL), es la entidad creada con el objetivo de

proteger el capital humano del país de los riegos laborales, fue establecido a partir de la ley

100 de 1993, con el decreto legislativo 1295 de 1994 y la ley 776 de 2002, trajo al país

importantes cambios en uno de los aspectos más significativos de la Seguridad Social,

como es el de la protección contra los riesgos propios del trabajo. La legislación define al

sistema de Riesgos Profesionales como: "un conjunto de entidades públicas y privadas,

normas y procedimientos, que tiene la finalidad de prevenir, proteger y atender las

consecuencias que se derivan de los Riesgos Profesionales, es decir, de los accidentes y las

enfermedades que puedan padecer las personas por causa o con ocasión del trabajo".

Las funciones de las administradoras de Riesgos Laborales son: 1. Afiliar los

trabajadores al Sistema de Riesgos Laborales. 2. Recaudar a través de PILA (Planilla

Integrada de Liquidación de Aportes) el control de la correcta autoliquidación y pago. 3.

Garantizar a sus afiliados la prestación de los servicios asistenciales de salud a los cuales

tiene derecho. 4. Garantizar a sus afiliados el reconocimiento y pago oportuno de las

prestaciones económicas. 5. Realizar actividades de prevención, asesoría y evaluación de

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

35

Riesgos Laborales. 6. Promover y divulgar programas de medicina laboral, higiene

industrial, salud ocupacional y seguridad.

El mercado de ARL vendió en el año 2015 $2.89 billones de pesos (COL) con cierre

a diciembre de 2015, mostrando un crecimiento del 11% respecto al año 2014. El pago por

siniestros a los afiliados al sistema en 2015 fue cercano a 1.12 Billones de pesos, según

registros en Fasecolda.

Las compañías de seguros implementan programas de promoción y prevención con

costos cercanos a los 667 mil millones de pesos, con el fin de evitar todo tipo de

enfermedades laborales, con el fin de proteger el capital humano y físico de las compañías.

Por otra parte, las aseguradoras, usualmente las de vida son un jugador importante en el

mercado de inversión local, con sumas alrededor de 26.2 billones de pesos.

La Tabla 5 muestra la evolución del sistema de riesgo laborales desde el año 2009

hasta el año 2015, reflejando año a año un aumento en el número de trabajadores afiliados a

una ARL, el cual tiene una correlación positiva con el número de accidentes de trabajo. En

cuanto al número de indemnizaciones pagadas se vieron ciertos incrementos significativos

en el año 2012 y 2014.

Tabla 5. Cifras Sistema de Riesgos Laborales

Fuente: Fasecolda

Dentro de las explicaciones de este crecimiento se evidencia el ciclo económico que

está viviendo Colombia, reflejando caídas significativas en las tasas de desempleo en los

AÑOTotal Trabajadores

Afiliados a una ARL%

N accidentes de

Trabajo Calificado%

NRO. ENF.

PROF.

CALIF.

%

TOT.

INDEM IPP

PAGADAS

%

2009 6.707.433 - 34.645 - 585 - 1.007 -

2010 6.820.835 1,69% 37.454 8,11% 634 8,38% 927 -7,94%

2011 7.851.817 15,12% 43.853 17,08% 646 1,89% 809 -12,73%

2012 8.093.537 3,08% 42.354 -3,42% 699 8,20% 1.047 29,42%

2013 8.434.876 4,22% 54.307 28,22% 721 3,15% 957 -8,60%

2014 8.995.618 6,65% 55.334 1,89% 755 4,72% 1.290 34,80%

2015 9.546.636 6,13% 56.437 1,99% 892 18,15% 1.308 1,40%

Tabla 1

Sistema de Riesgos Laborales 2009 - 2015

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

36

últimos años. Lo cual tiene una correlación negativa con el número de trabajadores

afiliados.

Figura 9. Tasa de desempleo versus número de trabajadores afiliados a ARL

Fuente: Fasecolda y Dian.

La prestación de los servicios del Sistema de Riesgos Laborales es importante para

la protección de la salud de los trabajadores, la estabilidad económica de sus familias y de

sus empleadores; motivo por el cual la sostenibilidad del sistema es un elemento central; sin

embargo, esta se ha visto seriamente impactada por la afiliación de empresas ilegales.

Según la Federación de Aseguradores Colombianos (Fasecolda), existe

preocupación en el Sistema de Seguridad Social Integral por el incremento

desproporcionado e ilegal de empresas o personas naturales que, sin tener la condición de

empleadores, ofrecen realizar la afiliación a todas las entidades de seguridad social, ya sea

para Administradoras de Riesgos Laborales (ARL), Empresas Prestadoras de Salud (EPS),

Administradoras de Fondos de Pensión y cajas de compensación Familiar.

Las empresas fraudulentas operan, afiliándose a una ARL con una actividad

económica muy general y proceden a vincular física o electrónicamente a las personas que

lleguen a sus instalaciones. Dado que el recaudo de la cotización a las ARL se hace a mes

vencido, estas empresas hacen la afiliación según el procedimiento normal y en la novedad

del mes siguiente aplican el Retiro por PILA, dejando el registro de uno o dos días de

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

37

afiliación sin que el trabajador se entere, de esta forma el trabajador paga el mes completo y

ellos toman la fracción restante.

Usualmente las reglas de negocio para detectar esta situación duran un buen tiempo

en ser analizadas por los expertos en el tema, además las empresas fraudulentas

evolucionan a un ritmo más acelerado.

El objetivo en esta sección del trabajo es distinguir el tipo de empresas fraudulentas

de las no fraudulentas a partir de sus variables explicativas antes de ingresar a la compañía

de seguros, mediante un modelo de Redes Neuronales Perceptrón Multicapa a través de un

conjunto de datos de entrada disponibles al momento de afiliar la empresa, será capaz de

ajustar los pesos de cada dato de entrada con el fin de memorizar la salida deseada, y así

extraer unas reglas que logren identificar este tipo de empresas.

4.3 Selección de la muestra

En esta sección se efectúa una aplicación de la Red Neuronal con poda y extracción

de reglas al campo economía de la información, específicamente a la detección de empresas

fraudulentas en el sistema de riesgos laborales.

La información fue suministrada por una compañía de seguros, proviene de bases

de datos que almacenan los campos del formulario de afiliación e información de

verificaciones realizadas en campo para la detección de empresas que inicialmente eran

sospechosas de ser fraudulentas y posteriormente fueron confirmadas como tal a través de

un proceso de investigación.

La simulación realizó en un computador de escritorio, lo cual se convirtió en una

restricción en la capacidad de cálculo para la ejecución del modelo y por lo tanto se optó

por aplicarlo a una muestra de datos16 con corte al mes de diciembre de 2015. La población

era superior a 10.000 empresas afiliadas, entonces fue posible usar la fórmula:

𝑛 =𝑍2∗𝑝∗(1−𝑝)

𝑒2 (19)

16 La aplicación del algoritmo a una porción de los datos es una aplicación de minería de datos, para

poder aplicar los elementos de Big Data a este problema se requiere de una arquitectura tecnología que

soporte la cantidad de datos.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

38

para determinar el tamaño de la muestra con el que se debe trabajar (Aguilar 2005).

El parámetro Z corresponde a la desviación del valor medio que se acepta para lograr el

nivel de confianza deseado, por lo tanto, se eligió Z= 2,575 para contar con un nivel de

confianza del 99%. El parámetro p corresponde a la proporción que se espera encontrar, al

no tener información, la literatura recomienda que sea 50%. Finalmente 𝑒 corresponde al

margen de error máximo admitido que, para el caso es 5%. A partir de estos parámetros se

obtiene una muestra n=663 empresas.

Una vez determinado el tamaño, se aplicó la selección de empresas por medio del

método de muestreo aleatorio estratificado por sector económico de acuerdo a lo aplicado

por Misas & López (2009) y luego el conjunto se dividió en dos: el conjunto de

entrenamiento con 70% de empresas y el conjunto de pruebas con 30% de las empresas,

conforme a lo planteado por Villamil (2009).

Existen muchas definiciones de fraude y de acuerdo con la que resulte elegida,

pueden variar los ejercicios de estimación, ver: (De La Espriella 2012), (Weisberg & Derrig

1998) y Circular Externa 041 de 2007 capítulo XXIII de la Superintendencia Financiera de

Colombia17.

Para este ejercicio se definió una empresa fraudulenta como: empresas con

inconsistencias entre la actividad económica y los centros de trabajo, versus los registros de

cargos u oficios que tienen sus trabajadores. Además, estas empresas están confirmadas por

los procesos de auditoria como empresas agrupadoras o intermediadoras laborales que no

cuentan con permisos habilitados por la autoridad competente.

17 Referente a las reglas relativas a la administración del Riesgo Operativo, en los numerales 2.6.1.1

y 2.6.1.2 se definen dos conceptos: Fraude Interno y Fraude Externo. El primero consiste en: "Actos que de

forma intencionada buscan defraudar o apropiarse indebidamente de activos de la entidad o incumplir normas

o leyes, en los que está implicado, al menos, un empleado o administrador de la entidad." Y el segundo como:

"Actos, realizados por una persona externa a la entidad, que buscan defraudar, apropiarse indebidamente de

activos de la misma o incumplir normas o leyes". El Código penal colombiano utiliza la estafa para referirse a

esta conducta, mencionada en el Artículo 246. Estafa: “El que obtenga provecho ilícito para sí o para un

tercero, con perjuicio ajeno, induciendo o manteniendo a otro en error por medio de artificios o engaños,

incurrirá en prisión de treinta y dos (32) a ciento cuarenta y cuatro (144) meses y multa de sesenta y seis

punto sesenta y seis (66.66) a mil quinientos (1.500) salarios mínimos legales mensuales vigentes”.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

39

Tabla 6. Muestra estratificada de empresas

Pruebas Entrenamiento

Sector económico No Fraudulenta Fraudulenta No Fraudulenta Fraudulenta

Actividades inmobiliarias 16 16 27 47

Administración publica 1 0 0 5

Agricultura, ganadería 8 1 30 0

Comercio 50 3 77 3

Construcción 13 1 34 13

Educación 2 0 10 0

Hoteles y restaurantes 9 0 16 1

Intermediación financiera 4 1 0 3

Manufactura 10 1 40 5

Minero 1 0 4 0

Otras de servicios 0 6 1 19

Pesca 0 0 1 0

Servicio domestico 45 0 88 0

Servicios sociales y de salud 5 2 15 0

Suministros de electricidad,

gas y agua

0 0 2 0

Transporte 4 1 15 7

TOTAL 168 32 360 103

Al seleccionar las variables la literatura indica que en lo referente a la detección de

fraude se suelen utilizar datos asociados al perfil del cliente y sus transacciones. Dado que

el fin es detectar las empresas irregulares antes de que estas ingresen a la aseguradora, se

utilizan las variables del perfil del cliente sin sus transacciones.

4.4 Variables explicativas y datos del modelo

Las variables seleccionadas fueron las siguientes: 1. Los departamentos de

Colombia que se mencionan en la Tabla 13, 2. La naturaleza de la empresa, que hace

referencia a si es pública o privada en la Tabla 14, 3. El tipo de documento de la empresa:

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

40

cédula de ciudadanía, cédula de extranjería, pasaporte o NIT en la Tabla 15. 4. Las clases

de riesgos18 definidos en Colombia que van del 1 al 5 en la Tabla 16, 5. El listado de

actividades económicas19 seleccionadas en la muestra y su correspondiente código CIIU20

en la Tabla 17, 6. Un rango del número de trabajadores, 7. Un rango del valor de la nómina

de la empresa, 8. Una columna que indica si la empresa en cuestión es fraudulenta o no de

acuerdo con los datos proporcionados por la ARL donde se marcaron estas empresas como

fraudulentas.

Siguiendo a Hongjun Lu, Rudy Setiono y Huan Liu (1995) de acuerdo a los

ejemplos en las secciones (1) y (2) para facilitar la extracción de las reglas en la fase final,

se discretizan las variables explicativas del modelo de forma tal que queden con valores 1 y

0, por ejemplo si se tiene la variable categórica clase de riesgo con las opciones: 1,2,3,4 y 5,

y una empresa corresponde a la clase de riesgo 1 esta se codifica {00001}, en el caso 2

{00010} y así hasta llegar al caso 5 codificado {10000}, para el caso de las variables

cuantitativas como el salario y el valor de la nómina, se codifican también con 1 los valores

menores o iguales al intervalo en cuestión de acuerdo a lo descrito en la sección 3.1, tal

forma que el esquema de codificación de las variables es:

Tabla 7. Determinación de intervalos por variable

18 En el momento de la vinculación de una empresa a una ARL, ésta asignará una tarifa de acuerdo

con la actividad principal de la empresa y a la exposición a los factores de riesgo. Para ello se han

determinado cinco clases de riesgo para las actividades económicas de las empresas: Clase I, de Riesgo

Mínimo, Clase II, de Riesgo Bajo, Clase III, de Riesgo Medio. Clase IV, de Riesgo Alto y Clase V, de Riesgo

Máximo. 19 Se entiende como un proceso o grupo de operaciones que combinan recursos tales como equipo,

mano de obra, técnicas de fabricación e insumos, para la producción de bienes y servicios. 20 Es un sistema lingüístico de la Clasificación Industrial Internacional Uniforme de todas las

actividades económicas en la cual se presenta ordenada y jerárquicamente las actividades económicas en el

país, su descripción y aplicabilidad estadística y su relación con el ámbito internacional. El código de cuatro

dígitos define la clase de la actividad económica contenida en la tabla de clasificación en el Sistema General

de Riesgos Laborales.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

41

A esa tabla se adiciona un vector de unos al principio para encontrar el intercepto, y

dos intervalos que indican a que clase pertenece la empresa t1= No fraudulenta, t2=

Fraudulenta

1.5 Entrenamiento

De acuerdo con lo descrito en la sección 3.2 el entrenamiento es un proceso iterativo

que consiste encontrar los pesos 𝑤 y 𝑣 que minimizan la función 𝐸(𝑤, 𝑣) + 𝑃(𝑤, 𝑣) y para

iniciarlo es necesario definir los parámetros adecuados, que inciden sobre la arquitectura de

la red (número de nodos en ambas capas) y los niveles de tolerancia para su calibración

cada una de las tres etapas: entrenamiento, poda y extracción de reglas.

Se determinaron h=3, nodos en la capa oculta porque con un número inferior, se

reducía el nivel de ajuste del modelo y para un número superior se incrementaban

significativamente las reglas de clasificación. En la capa de salida se eligieron dos nodos,

o=2 puesto que se busca clasificar entre dos atributos, empresas fraudulentas y empresas no

fraudulentas.

En la fase de entrenamiento se iteraba mientras que el nivel de ajuste del modelo se

mantenía superior al 80%, a su vez, cada vez que se ejecutaba el programa de

entrenamiento se tomaron 40 iteraciones del método BFGS para minimizar la función

objetivo, los resultados empíricos de ajuste del modelo mostraron que el número de

iteraciones en BFGS es más relevante que la iteración completa de entrenamiento de la red.

En el término de penalti se eligió 𝛽 = 1 , este parámetro es un factor de

escalamiento de 𝑤𝑙𝑚 y 𝑣𝑝

𝑚 para el primer término de la función de penalti, este valor se

definió igual a uno dado que no fue necesario incrementarlo para alcanzar un nivel de

ajuste adecuado del modelo, por el contrario, al aumentar el valor a 𝛽 = 10 Setiono (1997)

disminuyó la capacidad de ajuste de la red, también los valores 𝜖1 = 1 y 𝜖2 = 1 se dejaron

iguales a uno al no contar con evidencia acerca sobre a cual elemento de 𝑃(𝑤, 𝑣) tenía

mayor importancia en la solución final.

Una tupla se considera correctamente clasificada si max𝑝

|𝑆𝑝𝑖 − 𝑡𝑝

𝑖 | ≤ 𝜂1, para la

simulación de datos se eligió 𝜂1 =0.4, es decir la diferencia entre la salida de la red y el

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

42

valor observado en valor absoluto es menor a 0.4 se considera un resultado aceptable, es

decir se asigna la clasificación al 𝑆𝑝𝑖 de mayor valor. De acuerdo con estos parámetros

clasificó correctamente en la fase de entrenamiento el 90.9% de los datos al encontrar que

las matrices W y V minimizan el termino 𝐸(𝑤, 𝑣) + 𝑃(𝑤, 𝑣), lo cual corresponde a un

buen nivel de ajuste del modelo.

4.6 Poda

En la fase de poda se eliminan los valores redundantes en la red facilitando la

extracción de reglas en esta fase. El parámetro 𝜂2 es fundamental, a medida que su valor se

incrementa, son removidos más elementos de la red, pero su nivel de ajuste disminuye; por

otra parte, si el valor de valor es muy pequeño 𝜂2 se podan menos elementos y el nivel de

ajuste aumenta. El parámetro se calibró en 𝜂2=0.08, siendo el valor que menos variables

dejaba y al mismo tiempo mantenía un adecuado nivel del 85,5% en el ajuste de

clasificación de la red.

Resultado de la poda de la red neuronal artificial, permanecieron los siguientes

intervalos más para el reconocimiento de patrones por parte del modelo:

Tabla 8. Intervalos del modelo después de la fase de poda

Variable Intervalo Valor

Departamentos

I3 Antioquia

I4 Arauca

I5 Atlántico

I10 Caquetá

I11 Casanare

I15 Córdoba

I19 Huila

I24 Norte de Santander

I26 Quindío

I29 Santander

I32 Valle

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

43

Variable Intervalo Valor

Naturaleza I34 Privada

Tipo de

documento

I36 CC

I38 NIT

Clase de riesgo I41 2

I42 3

Actividad

económica

I49, I54, I55, I60, I62,

I65, I66, I71, I73, I74,

I76, I78, I79, I80, I82,

I88, I89, I92, I96, I98,

I101, I102, I103, I116,

I118, I121, I130, I133,

I134, I135, I136, I142,

I147, I147, I151, I152,

I158, I160, I165, I168,

I170, I171, I172, I177,

I178, I181, I184, I190,

I195, I196, I197, I199,

I209, I211, I212, I213,

I225

5452102, 1552101, 1950001,

1749901, 2011901, 1743001,

3455202, 1522101, 5455901,

1523301, 1851201, 1741401,

1741201, 5101001, 1521101,

3749101, 2012101, 1524101,

5742101, 1919901, 1521901,

1552201, 1523901, 2632001,

1014001, 2158901, 1659301,

4749302, 1911201, 5749303,

4454301, 1523401, 3289201,

3155102, 3742102, 4454202,

2753001, 1505201, 1515301,

5371001, 3151102, 1751501,

3517002, 1804101, 5452201,

4604401, 4514102, 3924902,

1660101, 1524601, 1741301,

4604301, 5701001, 4453001,

4603201, 4261002, 1749101.

Número

trabajadores

I228, I229, I230 (77,155], (155,233], (233,310]

Valor nómina

I258 ($ 5.356.000, $ 10.712.000]

I260 ($ 16.068.000, $ 21.424.000]

I261 ($ 21.424.000, $ 26.780.000]

I263 ($ 32.136.000, $ 37.492.000]

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

44

4.7 Rule extraction algorithm (RX)

Una vez completada la fase de poda del modelo, se procede con la extracción de

reglas, usando el Rule Extraction Algorithm (RX) con parámetro 𝜖 = 0.6 siguiendo a: Lu,

Setiono & Liu (1995), este valor permitió definir un intervalo adecuado con pocos nodos

discretos en la sección de clúster disminuyendo el número de reglas, pero con un buen nivel

de ajuste para clasificar a las empresas.

Tabla 9. Clusters y valores de activación

Nodo # clústers Valores de activación

𝜶𝟏 2 -0.0992, 0.4002

𝜶𝟐 2 -0.1166, 0.3937

𝜶𝟑 3 -0.7630, -0.1901, 0.5629

Al sustituir los valores de 𝛼ℎ por los valores agrupados en el clúster 𝛼𝑐, siguiendo el

paso 1.c del algoritmo de extracción de reglas, se calcula el ajuste de la red con valor del

90%; como el valor de ajuste de la red con la sustitución de los valores de activación fue

significativamente bueno, se construyó la siguiente tabla con los principales resultados del

modelo:

Tabla 10. Valores de activación discretos versus salidas del modelo

𝜶𝟏 𝜶𝟐 𝜶𝟑 𝑺𝟏 𝑺𝟐

-0,0992 -0,1166 -0,7630 1 0

-0,0992 -0,1166 -0,1901 1 0

0,4002 0,3937 0,5629 0 1

0,4002 0,3937 -0,1901 0 1

-0,0992 -0,1166 0,5629 0 1

A partir de esta tabla se pueden deducir las primeras reglas del modelo en las que,

usando las combinaciones de los valores de activación de cada nodo, se generan las clases a

las que pertenecen los individuos.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

45

Tabla 11. Reglas de clasificación para los valores de activación

Regla

R1 𝜶𝟑= 0,5629 => 𝑺𝟏=0 𝑺𝟐=1

R2 𝜶𝟏 = 0,4002 o 𝜶𝟐 = 0,3937 => 𝑺𝟏=0 𝑺𝟐=1

En otro caso => 𝑺𝟏=1 𝑺𝟐=0

Sin embargo, para hacer la identificación completa de nuevos individuos, es

necesario establecer las reglas que, a partir de los valores de las variables 𝐼𝑘, generan los

valores de activación. Para lo cual se aplicó el algoritmo X2R propuesto por Liu & Tan

(1995), encontrando así, 138 reglas adicionales21 que permiten establecer la conexión entre

los intervalos y los nodos de activación.

Una vez identificadas las reglas de clasificación se aplican a las empresas del

conjunto de pruebas para evaluar la capacidad de aprendizaje del modelo. El 85% de los

datos este conjunto de pruebas está correctamente clasificado por el modelo indicando un

buen nivel de aprendizaje.

Tabla 12. Matriz de confusión de empresas fraudulentas ARL

Clase pronosticada

No Fraudulentas Fraudulentas

C

l

a

s

e

r

e

a

l

No Fraudulentas

VP

149

FN

19

TVP

89%

TFN

11%

Fraudulentas

FP

12

VN

20

TFP

38%

TVN

62%

Ajuste:

85%

VPP

93%

TFO

49%

Error:

15% TFD

7%

VPN

51%

21 Las reglas obtenidas son de carácter confidencial y para uso de la aseguradora.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

46

Al efectuar una lectura de las reglas generadas por modelo podemos encontrar que

las empresas fraudulentas se concentran en 24 actividades económicas descritas en el

apéndice, entre las cuales se destacan: 275300122 - Empresas dedicadas a actividades de

seguridad social de afiliación obligatoria, incluye los servicios de prevención de riesgos

profesionales y/o ambientales, 3749101 - Empresas dedicadas a la obtención y suministro

de personal. incluye solamente las empresas de servicios temporales de suministro de

personal temporal o de empleos temporales y los conductores de autos particulares,

1749901-Empresas dedicadas a otras actividades empresariales NCP incluye oficinas de

negocios varios tales como cobranzas de cuentas, actividades de evaluación excepto las

relacionadas con bienes raíces y negocios, actividades de intermediación y promoción,

5701001 - Empresas dedicadas a actividades inmobiliarias realizadas con bienes propios o

arrendados incluye solamente a empresas dedicadas a acondicionamiento de terrenos,

1741301- Empresas dedicadas a la investigación de mercados y realización de encuestas de

opinión pública, 1741401- Empresas dedicadas a actividades de asesoramiento empresarial

y en materia de gestión, incluye las zonas francas dedicadas a promoción, creación,

desarrollo y administración del proceso de industrialización de bienes y la prestación de

servicios destinados, 3742102 - Empresas dedicadas a actividades de arquitectura e

ingeniería y actividades conexas de asesoramiento técnico incluye solamente las empresas

dedicadas a el trabajo de campo de hidrología y/o meteorología, topografía, agrimensura

y/o estudios catastrales y entre otras relacionadas en la apéndice del documento.

En cuanto a ubicación geográfica las reglas del modelo nos indican que los

departamentos: Norte de Santander, Santander, Atlántico, Antioquia y Valle son los que

tienen mayor probabilidad de contar con empresas fraudulentas, con nóminas con valor

entre $5’481.000 y $16’443.000, y entre 18 y 21 trabajadores, ubicadas en la clase de

Riesgo 3.

22 Código CIIU.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

47

5. Conclusiones

En este documento se aplicó el enfoque conexionista de redes neuronales basado en

trabajo de Lu, Setiono & Liu (1995) para identificar reglas a partir de un conjunto variables

explicativas permitan clasificar objetos. El método tiene tres fases: entrenamiento, poda y

extracción de reglas. La primera fase consiste en la solución de una red neuronal a través de

un proceso de optimización, en donde se encuentran las matrices de pesos 𝑊 y 𝑉 que

minimizan el error entre las salidas 𝑆𝑝𝑖 del modelo y los datos observados 𝑡𝑝

𝑖 . La segunda

fase consiste en eliminar los nodos redundantes, manteniendo la capacidad de ajuste de la

red y finalmente en la tercera fase se extraen las reglas para separar los objetos en su

correspondiente clase.

Una vez completados los ejercicios de simulación, se tienen dos resultados

empíricos. En primer lugar, en la fase de entrenamiento se evidenció que tiene mayor

importancia el número de iteraciones del proceso de optimización a través de BFGS para

encontrar los pesos 𝑊 y 𝑉, que el ciclo de iteración de la fase de entrenamiento del

modelo. El segundo lugar, la elección de los parámetros juega un papel trascendental en la

cantidad de reglas generadas, porque el proceso de extracción de reglas puede ser

significativamente desgastante con ∑ (𝑘𝑖)𝑘

𝑖=1 posibles soluciones23. Si bien está claro que

algoritmo X2R ayuda a identificar los principales patrones en extracción de reglas, también

es importante resaltar que el investigador debe elegir la configuración correcta de los

parámetros: ℎ, 𝜂2 y 𝜖 24, que permita tener un equilibrio entre una red compleja con

excelente capacidad de ajuste vs una red muy simple con baja capacidad de ajuste. Si la red

es compleja el número de posibles soluciones y reglas se incrementa, al igual que la

dificultad de la etapa de extracción. Por lo tanto, se recomienda calibrar cada parámetro

para hacer más simple la arquitectura de la red pero que a su vez se mantenga la capacidad

de ajuste.

23 Aplicar esta fórmula al ejemplo de empresas fraudulentas con 81 variables explicativas después de

la fase de poda quedan 2.42x1024 posibles soluciones. 24 ℎ : Número de nodos en la capa oculta, 𝜂2: Factor de poda de elementos de la red neuronal, 𝜖:

Tamaño del intervalo para la clasificación de nodos discretos.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

48

Durante el proceso de investigación se verificó el potencial las redes neuronales

para resolver un problema de clasificación en el campo de la economía de la información,

específicamente en el mercado de seguros de riesgos laborales en Colombia, sin embargo,

para fortalecer la capacidad de predicción de las reglas es necesario efectuar múltiples

simulaciones y para ello aún se requiere el desarrollo de códigos que permitan automatizar

el Algoritmo X2R.

Con estos resultados de este documento se amplía el espectro de los posibles

modelos a ser usados para afrontar problemas de clasificación en Colombia, con el uso de

modelos que permiten generar reglas de negocio traducidas a lenguaje natural para la

clasificación de individuos en conjuntos de datos. De igual forma se evidenció existe un

potencial significativo en la construcción de modelos de minería de datos aplicada a los

procesos de suscripción de pólizas de seguros y verificación de reclamaciones, haciendo

posible la automatización y optimización de los procesos de identificación de fraude.

Al incrementar la eficiencia se reducen los costos asociados a la prestación de los

servicios de salud, lo cual se traduce en un beneficio vía reducción de las tarifas o vía

incremento en la calidad del servicio.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

49

6. Anexos

Figura 5. Algoritmo de poda de una Red Neuronal Artificial.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

50

Algoritmo de extracción de Reglas RX25

7. Discretización de los valores de activación vía clúster:

a) H=sum/count

b) Verificar ajuste sustituyendo ∝𝑙𝑚 por los valores de activación, resultados del clúster ∝𝑐 𝑙

𝑚.

c) Si el nivel de ajuste del modelo cae por debajo del nivel aceptado, disminuya el valor de 𝜀 y

regrese al paso 1.

8. Enumerar los valores de activación discretizados y calcule la salida de la red. Generar reglas que

tengan perfecta cobertura de las tuplas para los nodos de activación que permitan las salidas del

modelo.

9. Para los nodos de activación discretizados que aparecen en las reglas encontradas en el paso

anterior, enumere los valores de entrada que los originan y genere reglas perfectas.

10. Generar reglas que relacionen los valores de entrada y los valores de salida, por sustitución de las

reglas encontradas en los pasos anteriores.

Figura 6. Algoritmo de extracción de Reglas RX

25 En el presente documento se hace una generalización del algoritmo descrito en (Lu, Setiono & Liu

1995) para las 𝑚 columnas de la matriz 𝛼 de las h posibles, de igual forma, se incluye una corrección

al descrito en el documento original, dado que la variable de acumulación no corresponde a D si no a

𝑗,̅ y además se incluye un ciclo que permite encontrar la mínima distancia al centro de un intervalo.

1.

a) Para m = 1,2, …, h

o D=1, 𝜕=∝𝑘𝑚 1, sum (1, m) = ∝1

𝑚 , H (1, m) = ∝1𝑚 , 𝜺

o Para i = 2, 3,…, k

▪ Mindistancia=10 2

▪ Para j=1,2,3,..,D

• Si (Distancia<Mindistancia)

o Mindistancia=Distancia

o 𝑗=̅j

• Fin Si

▪ Fin ciclo

▪ Si ( 𝜕(i) − H(𝑗,̅ m) = Mindistancia && 𝜕(i) − H(𝑗,̅ m) ≤ 𝜺)

• count(𝑗,̅m)=count(𝑗,̅m)+1

• sum (𝑗,̅m)=sum_(𝑗,̅m)+ 𝜕(i,1)

▪ Si no

• D=D+1;

• H(D,m)= 𝜕(i);

• count(D,m)=1;

• sum(D,m)=𝜕 (i)

▪ Fin si

o Fin ciclo

Fin ciclo

1 Se selecciona el vector de tamaño 1xk del nodo m. 2 Se fija un valor grande dado que el ciclo almacena el último dato, así cuando el ciclo finaliza se

sustituye este valor por el primer dato evaluado

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

51

Algoritmo X2R: Generador de Reglas

• Ordenar por frecuencia (Datos sin duplicados)

• i=0

• Mientras (Datos sin duplicados es diferente de vacío) {

o Genere Ri para cubrir el patrón más frecuente

o Remueva los patrones cubiertos por Ri

o i=i+1}

• Agrupe las reglas de acuerdo sus etiquetas de clase

• Elimine reglas redundantes

• Determine una regla por defecto

Figura 8. Algoritmo X2R: Generador de Reglas

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

52

Tabla 13. Departamentos de Colombia

Intervalo Departamento

I-2 Amazonas

I-3 Antioquia

I-4 Arauca

I-5 Atlántico

I-6 Bogotá D.C.

I-7 Bolívar

I-8 Boyacá

I-9 Caldas

I-10 Caquetá

I-11 Casanare

I-12 Cauca

I-13 Cesar

I-14 Choco

I-15 Córdoba

I-16 Cundinamarca

I-17 Guainía

I-18 Guaviare

I-19 Huila

I-20 La guajira

I-21 Magdalena

I-22 Meta

I-23 Nariño

I-24 Norte de Santander

I-25 Putumayo

I-26 Quindío

I-27 Risaralda

I-28 San Andrés

I-29 Santander

I-30 Sucre

I-31 Tolima

I-32 Valle

I-33 Vichada

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

53

Tabla 14. Naturaleza

Intervalo Departamento

I-34 Privada

I-35 Pública

Tabla 15. Tipos de documento

Intervalo Tipo de documento

I-36 CC

I-37 CE

I-38 NI

I-39 PA

Tabla 16. Clases de riesgo

Intervalo Clase de Riesgo

I-40 1

I-41 2

I-42 3

I-43 4

I-44 5

Tabla 17. Actividades Económicas

Intervalo Código

CIIU Actividad Económica

I-45 1522201 EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE LECHE, PRODUCTOS LÁCTEOS Y HUEVOS EN ESTABLECIMIENTOS ESPECIALIZADOS INCLUYE LA VENTA SIN AUTO TRANSPORTE DE LECHE

I-46 2512101

EMPRESAS DEDICADAS AL COMERCIO AL POR MAYOR DE MATERIAS PRIMAS PRODUCTOS AGRÍCOLAS, EXCEPTO CAFÉ Y FLORES HACE REFERENCIA SOLAMENTE AL ALMACENAMIENTO Y/O VENTA AL MAYOREO DE SEMILLAS FORRAJES.

I-47 1523101

EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE PRODUCTOS FARMACÉUTICOS, MEDICINALES, Y ODONTOLÓGICOS; ARTÍCULOS DE PERFUMERÍA, COSMÉTICOS Y DE TOCADOR EN ESTABLECIMIENTOS ESPECIALIZADOS HACE REFERENCIA A EMPRESAS DEDICADAS A LA VENTA EN FARMACIAS, DROGUERÍA

I-48 4604201 EMPRESA DEDICADAS AL TRANSPORTE INTERMUNICIPAL DE CARGA POR CARRETERA

I-49 5452102 CONSTRUCCIÓN DE EDIFICACIONES PARA USO RESIDENCIAL INCLUYE

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

54

Intervalo Código

CIIU Actividad Económica

SOLAMENTE A EMPRESAS DEDICADAS A CONSTRUCCIÓN DE CASAS, EDIFICIOS, CAMINOS, FERROCARRILES, PRESAS, CALLES Y/O OLEODUCTOS.

I-50 1504001

EMPRESAS DEDICADAS AL COMERCIO, MANTENIMIENTO Y REPARACIÓN DE MOTOCICLETAS Y DE SUS PARTES, PIEZAS Y ACCESORIOS INCLUYE LA COMERCIALIZACIÓN DE MOTOCICLETAS Y TRINEOS MOTORIZADOS NUEVOS Y USADOS, PARTES PIEZAS Y ACCESORIOS LAS ACTIVIDADES DE MANTENIMIENTO

I-51 5453002 CONSTRUCCIÓN DE OBRAS DE INGENIERÍA CIVIL INCLUYE SOLAMENTE A EMPRESAS DEDICADAS A EL MONTAJE Y/O REPARACIÓN DE OLEODUCTOS

I-52 1523601 EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE MUEBLES PARA EL HOGAR EN ESTABLECIMIENTOS ESPECIALIZADOS

I-53 1523501

EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE ELECTRODOMÉSTICOS EN ESTABLECIMIENTOS ESPECIALIZADOS INCLUYE ARTÍCULOS ELÉCTRICOS, MATERIALES, RECEPTORES DE RADIO Y/O TELEVISIÓN, REFRIGERADORES, LAVADORAS, ESTUFAS Y SIMILARES

I-54 1552101 EXPENDIO A LA MESA DE COMIDAS PREPARADAS, EN RESTAURANTES

I-55 1950001 HOGARES PRIVADOS CON SERVICIO DOMESTICO

I-56 2522302

EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE CARNES (HACE REFERENCIA A EMPRESAS DEDICADAS A AVES DE CORRAL), PRODUCTOS CÁRNICOS, PESCADOS Y PRODUCTOS DE MAR, EN ESTABLECIMIENTOS ESPECIALIZADOS INCLUYE SOLAMENTE CARNICERÍAS, EXPENDIOS DE PESCADOS Y MARIS

I-57 3014003

EMPRESAS DEDICADAS A ACTIVIDADES DE SERVICIOS, AGRÍCOLAS Y GANADEROS, EXCEPTO LAS EMPRESAS DEDICADAS A ACTIVIDADES VETERINARIAS INCLUYE SOLAMENTE LOS BENEFICIOS DE ARROZ Y LAS TRILLADORAS DE GRANO, CABALLERIZAS, ESTABLOS PARA REPARTO CON AUTOTRANSPORTE

I-58 2014002 EMPRESAS DEDICADAS A ACTIVIDADES DE SERVICIOS, AGRÍCOLAS Y GANADEROS, EXCEPTO LAS VETERINARIAS INCLUYE LOS ESTABLOS SIN AUTO TRANSPORTE Y LAS EMPRESAS DE JARDINERÍA Y/O ARREGLOS DE JARDINES

I-59 3851401 EMPRESAS DEDICADAS A ACTIVIDADES DE APOYO DIAGNOSTICO INCLUYE SOLAMENTE LOS LABORATORIOS DE ANÁLISIS QUÍMICOS, BIOLÓGICOS, BANCOS DE SANGRE Y SIMILARES.

I-60 1749901

EMPRESAS DEDICADAS A OTRAS ACTIVIDADES EMPRESARIALES NCP INCLUYE OFICINAS DE NEGOCIOS VARIOS TALES COMO COBRANZAS DE CUENTAS, ACTIVIDADES DE EVALUACIÓN EXCEPTO LAS RELACIONADAS CON BIENES RAÍCES Y NEGOCIOS, ACTIVIDADES DE INTERMEDIACIÓN Y PROMOCIÓN COMERCIO

I-61 2749901 OTRAS EMPRESAS DEDICADAS A ACTIVIDADES EMPRESARIALES NCP INCLUYE LA ELABORACIÓN DE COPIAS FOTOSTÁTICAS, HELIOGRAFÍAS

I-62 2011901

EMPRESAS DEDICADAS A LA PRODUCCIÓN AGRÍCOLA EN UNIDADES NO ESPECIALIZADAS INCLUYE LA AGRICULTURA NO MECANIZADA NI CONTEMPLADA EN OTRAS EMPRESAS DEDICADAS A ACTIVIDADES (SIEMBRA, CULTIVO Y/O RECOLECCIÓN)

I-63 1524401 EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE LIBROS, PERIÓDICOS, MATERIALES Y ARTÍCULOS DE PAPELERÍA Y ESCRITORIO, EN

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

55

Intervalo Código

CIIU Actividad Económica

ESTABLECIMIENTOS ESPECIALIZADOS" INCLUYE LA VENTA DE ARTÍCULOS PARA FILATELIA, VENTA DE PAPEL, ENVASES DE CARTÓN, A OFICINAS DE VENTA

I-64 2013001 EMPRESAS DEDICADAS A LA ACTIVIDAD MIXTA (AGRÍCOLA Y PECUARIA)

I-65 1743001 EMPRESAS DEDICADAS A LA PUBLICIDAD

I-66 3455202 EMPRESAS DEDICADAS A TRABAJOS DE PINTURA Y TERMINACIÓN DE MUROS Y PISOS INCLUYE SOLAMENTE EMPRESAS DEDICADAS A EL PULIDO, PINTURA Y/O ENCERADO DE PISOS

I-67 1801101 ESTABLECIMIENTOS DE EDUCACIÓN PREESCOLAR QUE SUELE IMPARTIRSE EN ESCUELAS DE PÁRVULOS O EN JARDINES INFANTILES INCLUYE GUARDERÍAS

I-68 4524104

EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE ARTÍCULOS DE FERRETERÍA, CERRAJERÍA Y PRODUCTOS DE VIDRIO, EXCEPTO PINTURAS EN ESTABLECIMIENTOS ESPECIALIZADOS INCLUYE SOLAMENTE EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE VENTA DE MATERIALES PARA CONSTRUCCIÓN

I-69 5712201 ALQUILER DE MAQUINARIA Y EQUIPO DE CONSTRUCCIÓN Y DE INGENIERÍA CIVIL CON SUMINISTRO DE OPERARIOS

I-70 3503001 EMPRESAS DEDICADAS AL COMERCIO DE PARTES, PIEZAS (AUTOPARTES) Y ACCESORIOS (LUJOS) PARA VEHÍCULOS AUTOMOTORES

I-71 1522101 EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE FRUTAS Y VERDURAS, EN ESTABLECIMIENTOS ESPECIALIZADOS

I-72 4711102 EMPRESAS DEDICADAS AL ALQUILER DE EQUIPO DE TRANSPORTE TERRESTRE

I-73 5455901 OTROS TRABAJOS DE TERMINACIÓN Y ACABADO

I-74 1523301 EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE PRENDAS DE VESTIR Y SUS ACCESORIOS

I-75 2012301 EMPRESAS DEDICADAS A LA CRÍA ESPECIALIZADA DE AVES DE CORRAL

I-76 1851201

EMPRESAS DEDICADAS A ACTIVIDADES DE LA PRACTICA MEDICA INCLUYE CONSULTORIOS MÉDICOS Y/O ODONTOLÓGICOS CUYAS UNIDADES RADIOLÓGICAS CUMPLAN CON LAS NORMAS DE RADIO PROTECCIÓN VIGENTES.

I-77 5451201 TRABAJOS DE PREPARACIÓN DE TERRENOS PARA OBRAS CIVILES

I-78 1741401

EMPRESAS DEDICADAS A ACTIVIDADES DE ASESORAMIENTO EMPRESARIAL Y EN MATERIA DE GESTIÓN INCLUYE LAS ZONAS FRANCAS DEDICADAS A PROMOCIÓN, CREACIÓN, DESARROLLO Y ADMINISTRACIÓN DEL PROCESO DE INDUSTRIALIZACIÓN DE BIENES Y LA PRESTACIÓN DE SERVICIOS DESTINADOS

I-79 1741201

EMPRESAS DEDICADAS A ACTIVIDADES DE CONTABILIDAD, TENEDURÍA DE LIBROS Y AUDITORIA; ASESORAMIENTO EN MATERIA DE IMPUESTOS" RELACIONADO CON DESPACHOS PÚBLICOS CUYA ACTIVIDAD ADMINISTRATIVA NO ESTÉ INCLUIDA EN OTRA ACTIVIDAD ECONÓMICA, ACTIVIDADES DE REGISTRÓ

I-80 5101001 EXTRACCIÓN Y AGLOMERACIÓN DE HULLA (CARBÓN DE PIEDRA) INCLUYE SOLAMENTE A EMPRESAS DEDICADAS A LA EXPLOTACIÓN DE CARBONERAS,

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

56

Intervalo Código

CIIU Actividad Económica

GASIFICACIÓN DE CARBÓN IN SITU Y PRODUCCIÓN DEL CARBÓN AGLOMERADO

I-81 1181001 FABRICACIÓN DE PRENDAS DE VESTIR, EXCEPTO PRENDAS: PEQUEÑOS TALLERES DE MODAS, SASTRERÍAS, SOMBREROS, CONFECCIONES DE ROPA

I-82 1521101

EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR, EN ESTABLECIMIENTOS NO ESPECIALIZADOS, CON SURTIDO COMPUESTO PRINCIPALMENTE DE ALIMENTOS (VÍVERES EN GENERAL), BEBIDAS Y TABACO INCLUYE LA VENTA DE MERCANCÍAS

I-83 1523201

EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE PRODUCTOS TEXTILES EN ESTABLECIMIENTOS ESPECIALIZADOS INCLUYE PRODUCTOS TEXTILES ELABORADAS CON FIBRAS NATURALES, ARTIFICIALES Y SINTÉTICAS, LOS HILOS, LANAS ETC.

I-84 2553001 EXPENDIO DE BEBIDAS ALCOHÓLICAS PARA EL CONSUMO DENTRO DEL ESTABLECIMIENTO INCLUYE CAFÉS, CANTINAS, BARES, TABERNAS, DISCOTECAS Y SIMILARES

I-85 2749201 EMPRESAS DEDICADAS A ACTIVIDADES DE INVESTIGACIÓN Y SEGURIDAD INCLUYE LOS SERVICIOS DE CONSERJERÍA.

I-86 4502001 MANTENIMIENTO Y REPARACIÓN DE VEHÍCULOS AUTOMOTORES INCLUYE SOLAMENTE EMPRESAS DEDICADAS A SERVICIOS DE EMERGENCIAS PARA VEHÍCULOS DE MOTOR, GRÚAS, MONTA LLANTAS

I-87 1515901 EMPRESAS DEDICADAS AL COMERCIO AL POR MAYOR DE OTROS PRODUCTOS INTERMEDIOS NCP

I-88 3749101

EMPRESAS DEDICADAS A LA OBTENCIÓN Y SUMINISTRO DE PERSONAL INCLUYE SOLAMENTE LAS EMPRESAS DE SERVICIOS TEMPORALES DE SUMINISTRO DE PERSONAL TEMPORAL O DE EMPLEOS TEMPORALES Y LOS CONDUCTORES DE AUTOS PARTICULARES

I-89 2012101 EMPRESAS DEDICADAS A LA CRÍA ESPECIALIZADA DE GANADO VACUNO INCLUYE LA IMPORTACIÓN DE LA CRÍA DE GANADO BOVINO EQUINO Y SIMILARES

I-90 4602101 EMPRESAS DEDICADAS AL TRANSPORTE URBANO COLECTIVO REGULAR DE PASAJEROS

I-91 2521902

EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR EN ESTABLECIMIENTOS NO ESPECIALIZADOS CON SURTIDO COMPUESTO PRINCIPALMENTE POR PRODUCTOS DIFERENTES DE ALIMENTOS (VÍVERES EN GENERAL), BEBIDAS Y TABACOS INCLUYE SOLAMENTE LOS GRANDES ALMACENES - MISCELÁNEAS, ALM

I-92 1524101

EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE ARTÍCULOS DE FERRETERÍA, CERRAJERÍA Y PRODUCTOS DE VIDRIO, EXCEPTO PINTURAS EN ESTABLECIMIENTOS ESPECIALIZADOS INCLUYE LA VENTA DE MAQUINARIA LIGERA E IMPLEMENTOS PARA LA INDUSTRIA EN GENERAL

I-93 2524102

EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE ARTÍCULOS DE FERRETERÍA, CERRAJERÍA Y PRODUCTOS DE VIDRIO, EXCEPTO PINTURAS EN ESTABLECIMIENTOS ESPECIALIZADOS INCLUYE SOLAMENTE MARQUETERÍAS ARTESANALES, VENTA Y/O DEPOSITO DE VIDRIOS, LA VENTA DE MOSAICOS,

I-94 2551101 ALOJAMIENTO EN "HOTELES", "HOSTALES" Y "APARTA HOTELES" HOSPEDAJE DÍA A DÍA

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

57

Intervalo Código

CIIU Actividad Económica

I-95 1513201 EMPRESAS DEDICADAS AL COMERCIO AL POR MAYOR DE PRENDAS DE VESTIR, ACCESORIOS DE PRENDAS DE VESTIR Y ARTÍCULOS ELABORADOS EN PIEL.

I-96 5742101

EMPRESAS DEDICADAS A ACTIVIDADES DE ARQUITECTURA E INGENIERÍA Y ACTIVIDADES CONEXAS DE ASESORAMIENTO TÉCNICO INCLUYE SOLAMENTE EMPRESAS DEDICADAS A ACTIVIDADES DE OBRA DE CONSTRUCCIÓN, DIRECCIÓN DE OBRAS DE CONSTRUCCIÓN, ARQUITECTURA, INGENIERÍA Y AGRIMES

I-97 1513501 EMPRESAS DEDICADAS AL COMERCIO AL POR MAYOR DE PRODUCTOS FARMACÉUTICOS, MEDICINALES, COSMÉTICOS Y DE TOCADOR

I-98 1919901

EMPRESAS DEDICADAS A ACTIVIDADES DE OTRAS ORGANIZACIONES NCP INCLUYE EMPRESAS DEDICADAS A ACTIVIDADES TALES COMO ASOCIACIONES CON FINES CULTURALES, RECREATIVOS Y ARTESANALES Y SERVICIOS DE LA ORGANIZACIÓN DE EVENTOS DE CAPACITACIÓN, SOCIALES Y/O FORMACIÓN

I-99 1521901

EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR EN ESTABLECIMIENTOS NO ESPECIALIZADOS CON SURTIDO COMPUESTO PRINCIPALMENTE POR PRODUCTOS DIFERENTES DE ALIMENTOS (VÍVERES EN GENERAL), BEBIDAS Y TABACOS HACE REFERENCIA A EMPRESAS DEDICADAS A LA VENTA AL MENUDEO

I-100 2155101 EMPRESAS DEDICADAS A LA ELABORACIÓN DE PRODUCTOS DE PANADERÍA INCLUYE LAS EMPRESAS DEDICADAS A MANUFACTURA DE OBLEAS, CONOS PARA HELADOS

I-101 1552201 EXPENDIO, A LA MESA, DE COMIDAS PREPARADAS EN CAFETERÍAS, REFRESCOS Y HELADOS, SALONES DE TÉ

I-102 1523901

EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE PRODUCTOS DIVERSOS NCP, EN ESTABLECIMIENTOS ESPECIALIZADOS TALES COMO: ANTIGÜEDADES Y CURIOSIDADES, ARMAS DE FUEGO, PARQUE, ARTESANÍAS NO CONTEMPLADAS EN OTRAS ACTIVIDADES, ARTÍCULOS DE PROTECCIÓN PERSONAL CO

I-103 2632001 EMPRESAS DEDICADAS AL ALMACENAMIENTO Y DEPOSITO INCLUYE BODEGAS Y ALMACENES DE DEPOSITO, ASÍ COMO ALMACENAMIENTO DE SEMILLAS Y FORRAJES.

I-104 1513101 EMPRESAS DEDICADAS AL COMERCIO AL POR MAYOR DE PRODUCTOS TEXTILES Y PRODUCTOS CONFECCIONADOS PARA USO DOMESTICO.

I-105 1853201

EMPRESAS DE SERVICIOS SOCIALES SIN ALOJAMIENTO INCLUYE ACTIVIDADES SOCIALES DE ASESORAMIENTO, BIENESTAR, ALBERGUE, ORIENTACIÓN Y ACTIVIDADES SIMILARES PRESTADAS A PERSONAS Y FAMILIAS EN SUS HOGARES Y EN OTROS LUGARES, LA PRESTACIÓN DIRECTA DE BIENESTAR SO

I-106 1701001

ACTIVIDADES INMOBILIARIAS REALIZADAS CON BIENES PROPIOS O ARRENDADOS LA COMPRA, VENTA Y ALQUILER Y EXPLOTACIÓN DE BIENES INMUEBLES PROPIOS O ARRENDADOS, HACE REFERENCIA A EMPRESAS DEDICADAS A LA VENTA DE TERRENOS. TALES COMO LOTES DE CEMENTERIOS, EXPLOTACIÓN

I-107 5281101 FABRICACIÓN DE PRODUCTOS METÁLICOS PARA USO ESTRUCTURAL

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

58

Intervalo Código

CIIU Actividad Económica

INCLUYE SOLAMENTE A EMPRESAS DEDICADAS A LA FABRICACIÓN Y MONTAJE DE ESTRUCTURAS EN HIERRO

I-108 1659901

OTROS TIPOS DE INTERMEDIACIÓN FINANCIERA NCP HACE REFERENCIA A EMPRESAS DEDICADAS A LAS TRANSACCIONES POR CUENTA PROPIA DE CORREDORES DE BOLSA, LAS INVERSIONES EN BIENES INMUEBLES EFECTUADAS PRIMORDIALMENTE POR CUENTA DE OTROS INTERMEDIARIOS FINANCIEROS Y

I-109 3341001

EMPRESAS DEDICADAS A LA FABRICACIÓN DE VEHÍCULOS AUTOMOTORES Y SUS MOTORES INCLUYE ARMADO, PINTURA Y/O REPARACIÓN DE AUTOMOTORES, AUTOMÓVILES, CAMIONES, LANCHAS, MOTOCICLETAS Y SIMILARES

I-110 1702001

EMPRESAS DEDICADAS A ACTIVIDADES INMOBILIARIAS REALIZADAS A CAMBIO DE UNA RETRIBUCIÓN O POR CONTRATA INCLUYE LA COMPRA VENTA, ALQUILER, ADMINISTRACIÓN Y TASACIÓN DE BIENES INMUEBLES A CAMBIO DE LA RETRIBUCIÓN O POR CONTRATA, LAS ZONAS FRANCAS QUE PRINCIPAL

I-111 3851101

EMPRESAS DEDICADAS A ACTIVIDADES DE LAS INSTITUCIONES PRESTADORAS DE SERVICIOS DE SALUD, CON INTERNACIÓN INCLUYE HOSPITALES GENERALES, CENTROS DE ATENCIÓN MÉDICA CON AYUDAS DIAGNOSTICAS, INSTITUCIONES PRESTADORAS DE SERVICIOS DE SALUD, CENTROS ESPECIALIZA

I-112 1722001

EMPRESAS DEDICADAS A CONSULTORÍA EN PROGRAMAS DE INFORMÁTICA Y SUMINISTRO DE PROGRAMAS DE INFORMÁTICA INCLUYE. EDICIÓN DE SOFTWARE, LAS ACTIVIDADES RELACIONADAS CON EL ANÁLISIS, EL DISEÑO Y LA PROGRAMACIÓN DE SISTEMAS LISTOS PARA SER UTILIZADOS, ELABORACIÓN

I-113 2181002

EMPRESAS DEDICADAS A LA FABRICACIÓN DE PRENDAS DE VESTIR, EXCEPTO PRENDAS DE PIEL INCLUYE LA MANUFACTURA DE GUANTES DE TELA Y/O PIEL, IMPERMEABLES, LIGAS Y TIRANTES, FABRICAS Y/O GRANDES ALMACENES DE CONFECCIÓN DE ROPA Y SASTRERÍAS

I-114 1806001 ESTABLECIMIENTOS DE EDUCACIÓN NO FORMAL INCLUYE PROGRAMAS DE ALFABETIZACIÓN PARA ADULTOS ETC.

I-115 3505101

EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE COMBUSTIBLE PARA AUTOMOTORES INCLUYE SOLAMENTE LAS ESTACIONES DE SERVICIO PARA AUTOMOTORES, LAS ESTACIONES Y/O EXPENDIOS DE GASOLINA, PETRÓLEO, TRACTORINA

I-116 1014001 EMPRESAS DEDICADAS A ACTIVIDADES DE SERVICIOS, AGRÍCOLAS Y GANADEROS, EXCEPTO LAS ACTIVIDADES VETERINARIAS INCLUYE EL ALMACÉN Y/O DEPOSITO DE CAFÉ

I-117 2552901 OTROS TIPOS DE EXPENDIO No DE ALIMENTOS PREPARADOS

I-118 2158901 EMPRESAS DEDICADAS A LA ELABORACIÓN DE OTROS PRODUCTOS ALIMENTICIOS INCLUYE LA FABRICACIÓN DE ESPECIAS Y LA FABRICACIÓN ARTESANAL DE ALIMENTOS INVOLUCRANDO EL ENVASE Y/O ENLATADO.

I-119 4292902 EMPRESAS DEDICADAS A LA FABRICACIÓN DE OTROS TIPOS DE MAQUINARIA DE USO ESPECIAL NCP INCLUYE SOLAMENTE LA FABRICACIÓN DE MÁQUINAS Y EQUIPOS PARA ELABORACIÓN DE CAUCHO O PLÁSTICO Y

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

59

Intervalo Código

CIIU Actividad Económica

PARA LA FABRICACIÓN DE PRODUCTOS DE ESOS MATERIALES TALES COMO EXTRUSORAS O

I-120 1639001 EMPRESAS DEDICADAS A ACTIVIDADES DE OTRAS AGENCIAS DE TRANSPORTE INCLUYE AGENCIAS DE TRANSPORTES MARÍTIMOS, AÉREOS, TERRESTRES

I-121 1659301

ACTIVIDADES DE LAS COOPERATIVAS FINANCIERAS Y FONDOS DE EMPLEADOS HACE REFERENCIA A EMPRESAS DEDICADAS A LA DISTRIBUCIÓN DE FONDOS SIN FINES DE LUCRO, ENTRE SUS ASOCIADOS PARA LA COMPRA DE BIENES Y SERVICIOS, ASÍ COMO LAS ACTIVIDADES DE LOS FONDOS DE EMPLEO

I-122 5454302 TRABAJOS DE INSTALACIÓN DE EQUIPOS LAS EMPRESAS DEDICADAS A ACTIVIDADES DE CONSTRUCCIÓN NECESARIAS PARA HABILITAR LAS EDIFICACIONES Y LAS OBRAS CIVILES

I-123 2011101 EMPRESAS DEDICADAS A LA PRODUCCIÓN ESPECIALIZADA DEL CAFÉ

I-124 1741101 EMPRESAS DEDICADAS A ACTIVIDADES JURÍDICAS INCLUYE LAS OFICINAS Y/O DESPACHOS PROFESIONALES QUE DESARROLLAN ACTIVIDADES DE TIPO JURÍDICO

I-125 2742102 EMPRESAS DEDICADAS A ACTIVIDADES DE ARQUITECTURA E INGENIERÍA Y ACTIVIDADES CONEXAS DE ASESORAMIENTO TÉCNICO INCLUYE DECORACIÓN DE INTERIORES

I-126 2851302 EMPRESAS DEDICADAS A ACTIVIDADES DE LA PRACTICA ODONTOLÓGICA INCLUYE LABORATORIOS DE MECÁNICA DENTAL

I-127 2523902

EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE PRODUCTOS DIVERSOS NCP, EN ESTABLECIMIENTOS ESPECIALIZADOS INCLUYE SOLAMENTE LOS ALMACENES Y/O MERCADOS POR DEPARTAMENTOS CON VENTA AL DETAL, VENTA DE EXTINTORES DE INCENDIO, VENTA DE CARBONERÍAS SIN AUTO TRA

I-128 2514101 EMPRESAS DEDICADAS AL COMERCIO AL POR MAYOR DE MATERIALES DE CONSTRUCCIÓN, FERRETERÍA Y VIDRIO DISTRIBUCIÓN SIN AUTO TRANSPORTE

I-129 2012201 EMPRESAS DEDICADAS A LA CRÍA ESPECIALIZADA DE GANADO PORCINO

I-130 4749302 EMPRESAS DEDICADAS A ACTIVIDADES DE LIMPIEZA DE EDIFICIOS INCLUYE SOLAMENTE EMPRESAS DEDICADAS A LOS SERVICIOS DE DESINFECCIÓN Y FUMIGACIÓN

I-131 4222002

EMPRESAS DEDICADAS A LA FABRICACIÓN DE IMPRESIÓN POR CONTRATA INCLUYE SOLAMENTE EMPRESAS DEDICADAS A LA FABRICACIÓN DE ARTÍCULOS ESTAMPADOS EN PAPEL, LIBROS, REVISTAS, PERIÓDICOS, FORMAS CONTINUAS, TALONARIOS, SELLOS POSTALES, PAPEL MONEDA, TARJETAS DE CR

I-132 3156101 TRILLA DE CAFÉ HACE REFERENCIA A EMPRESAS DEDICADAS A LA MOLIENDA

I-133 1911201 EMPRESAS DEDICADAS A ACTIVIDADES DE ORGANIZACIONES PROFESIONALES INCLUYE LAS ASOCIACIONES ACADÉMICAS Y PROFESIONALES

I-134 5749303 EMPRESAS DEDICADAS A ACTIVIDADES DE LIMPIEZA DE EDIFICIOS INCLUYE SOLAMENTE A EMPRESAS DEDICADAS A LOS SERVICIOS DE LIMPIEZA

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

60

Intervalo Código

CIIU Actividad Económica

EXTERIOR DE FACHADAS Y/O VENTANAS

I-135 4454301 TRABAJOS DE INSTALACIÓN DE EQUIPOS INCLUYE SOLAMENTE LA INSTALACIÓN DE SISTEMAS DE AIRE ACONDICIONADO, VENTILACIÓN

I-136 1523401

EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE TODO TIPO DE CALZADO, ARTÍCULOS DE CUERO Y SUCEDÁNEOS DEL CUERO, EN ESTABLECIMIENTOS ESPECIALIZADOS INCLUYE LA VENTA DE ARTÍCULOS PARA ZAPATERÍA

I-137 3343001 EMPRESAS DEDICADAS A LA FABRICACIÓN DE PARTES, PIEZAS Y ACCESORIOS (AUTOPARTES) PARA VEHÍCULOS AUTOMOTORES Y PARA SUS MOTORES

I-138 4604102 EMPRESAS DEDICADAS A TRANSPORTE MUNICIPAL DE CARGA POR CARRETERA

I-139 3159101

DESTILACIÓN, RECTIFICACIÓN Y MEZCLA DE BEBIDAS ALCOHÓLICAS; PRODUCCIÓN DE ALCOHOL ETÍLICO A PARTIR DE SUSTANCIAS FERMENTADAS INCLUYE SOLAMENTE EMPRESAS DEDICADAS A LA FABRICACIÓN DE VINOS, ALCOHOLES, AGUARDIENTE Y/O LICORES

I-140 3201001 EMPRESAS DEDICADAS AL ASERRADO, ACEPILLADO E IMPREGNACIÓN DE LA MADERA INCLUYE SOLAMENTE EMPRESAS DEDICADAS A LAS MADERERÍAS, PREPARACIÓN DE MADERA, IMPERMEABILIZACIÓN Y/O INMUNIZADO

I-141 2642301 EMPRESAS DEDICADAS A PRESTAR SERVICIOS DE TRASMISIÓN DE PROGRAMAS DE RADIO Y TELEVISIÓN INCLUYE LAS ESTACIONES REPETIDORAS DE SEÑALES DE TELEVISIÓN, RADIO Y SIMILARES

I-142 3289201

TRATAMIENTO Y REVESTIMIENTO DE METALES; TRABAJOS DE INGENIERÍA MECÁNICA EN GENERAL REALIZADOS A CAMBIO DE UNA RETRIBUCIÓN O POR CONTRATA INCLUYE SOLAMENTE EMPRESAS DEDICADAS A LAS PLANTAS PULIDORAS DE METALES

I-143 1851301

EMPRESAS DEDICADAS A ACTIVIDADES DE LA PRACTICA ODONTOLÓGICA INCLUYE LAS ACTIVIDADES DE CONSULTA Y TRATAMIENTO REALIZADO POR ODONTÓLOGOS EN INSTITUCIONES PRESTADORAS DE SERVICIOS DE SALUD SIN INTERNACIÓN

I-144 2552401 EXPENDIO, POR AUTOSERVICIO, DE COMIDAS PREPARADAS EN CAFETERÍAS

I-145 1804401 ESTABLECIMIENTOS QUE PRESTAN EL SERVICIO DE EDUCACIÓN BÁSICA PRIMARIA Y BÁSICA SECUNDARIA EN LA MISMA UNIDAD FÍSICA

I-146 3631001 EMPRESAS DEDICADAS A LA MANIPULACIÓN DE CARGA INCLUYE SOLAMENTE ESTIBADORES, COTEROS, PALETIZADORES EXCEPTO CARGUE Y DESCARGUE DE EMBARCACIONES AÉREAS, MARÍTIMAS Y/O FLUVIALES

I-147 3155102 EMPRESAS DEDICADAS A LA ELABORACIÓN DE PRODUCTOS DE PANADERÍA INCLUYE SOLAMENTE FABRICACIÓN DE GALLETAS, PASTAS ALIMENTICIAS, ELABORACIÓN DE PAN Y PASTELES

I-148 2011501 EMPRESAS DEDICADAS A LA PRODUCCIÓN ESPECIALIZADA DE CEREALES Y OLEAGINOSAS

I-149 2852001 EMPRESAS DEDICADAS A ACTIVIDADES VETERINARIAS INCLUYE LA ZOOTECNIA, CRÍA DE ANIMALES DOMÉSTICOS, Y EMPRESAS DEDICADAS A ACTIVIDADES PECUARIAS Y/O VETERINARIA EN GENERAL

I-150 2551201 ALOJAMIENTO EN "RESIDENCIAS", "MOTELES" Y " AMOBLADOS" HOSPEDAJE INFERIOR A UN DÍA

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

61

Intervalo Código

CIIU Actividad Económica

I-151 3742102

EMPRESAS DEDICADAS A ACTIVIDADES DE ARQUITECTURA E INGENIERÍA Y ACTIVIDADES CONEXAS DE ASESORAMIENTO TÉCNICO INCLUYE SOLAMENTE LAS EMPRESAS DEDICADAS A EL TRABAJO DE CAMPO DE HIDROLOGÍA Y/O METEOROLOGÍA, TOPOGRAFÍA, AGRIMENSURA Y/O ESTUDIOS CATASTRALES.

I-152 4454202

TRABAJOS DE ELECTRICIDAD INCLUYE SOLAMENTE EMPRESAS DEDICADAS A LOS TRABAJOS ESPECIALIZADOS DE INSTALACIÓN DE ALUMBRADO Y SEÑALIZACIÓN ELÉCTRICA DE CARRETERAS Y LOS TRABAJO DE INSTALACIÓN DE CENTRALES DE ENERGÍA, TRANSFORMADORES, SISTEMAS DE ALARMA.

I-153 5289103 FORJA, PRENSADO, ESTAMPADO Y LAMINADO DE METAL; PULVIMETALURGIA INCLUYE SOLAMENTE A EMPRESAS DEDICADAS A LAS PLANTAS DE LAMINACIÓN.

I-154 1930901 EMPRESAS DEDICADAS A OTRAS ACTIVIDADES DE SERVICIOS NCP INCLUYE LOS BAÑOS TURCOS

I-155 2851202 EMPRESAS DEDICADAS A ACTIVIDADES DE LA PRACTICA MEDICA INCLUYE LOS SERVICIOS MÉDICOS Y/O PARAMÉDICOS ASISTENCIALES DOMICILIARIOS EXCEPTO SERVICIOS DE PREVENCIÓN Y/O PROMOCIÓN

I-156 3410001 EMPRESAS DEDICADAS A LA CAPTACIÓN, DEPURACIÓN Y DISTRIBUCIÓN DE AGUA INCLUYE LA EMPRESAS DE SERVICIOS DE ACUEDUCTO Y/O ALCANTARILLADO, LAS PLANTAS DE TRATAMIENTO DE AGUAS BLANCAS.

I-157 3524101

EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE ARTÍCULOS DE FERRETERÍA, CERRAJERÍA Y PRODUCTOS DE VIDRIO, EXCEPTO PINTURAS EN ESTABLECIMIENTOS ESPECIALIZADOS INCLUYE SOLAMENTE LA VENTA DE HIERROS

I-158 2753001 EMPRESAS DEDICADAS A ACTIVIDADES DE SEGURIDAD SOCIAL DE AFILIACIÓN OBLIGATORIA INCLUYE LOS SERVICIOS DE PREVENCIÓN DE RIESGOS PROFESIONALES Y/O AMBIENTALES

I-159 2672101 EMPRESAS DEDICADAS A ACTIVIDADES AUXILIARES DE LOS SEGUROS INCLUYE LOS SERVICIOS DE AJUSTADORES DE SEGUROS

I-160 1505201 EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE LUBRICANTES (ACEITES, GRASAS), ADITIVOS Y PRODUCTOS DE LIMPIEZA PARA VEHÍCULOS AUTOMOTORES

I-161 2551901 EMPRESAS DEDICADAS A OTROS TIPOS DE ALOJAMIENTO NCP INCLUYE CASAS DE HUÉSPEDES, PENSIONES, RESIDENCIAS ESTUDIANTILES, ALBERGUES U HOGARES JUVENILES.

I-162 2712201 EMPRESAS DEDICADAS AL ALQUILER DE MAQUINARIA Y EQUIPO DE CONSTRUCCIÓN Y DE INGENIERÍA CIVIL

I-163 2020101 EMPRESAS DEDICADAS A LA SILVICULTURA Y EXPLOTACIÓN DE LA MADERA

I-164 1671901

ACTIVIDADES AUXILIARES DE LA ADMINISTRACIÓN FINANCIERA NCP HACE REFERENCIA A EMPRESAS DEDICADAS A TODAS LAS ACTIVIDADES AUXILIARES DE LA INTERMEDIACIÓN FINANCIERA NO CLASIFICADA EN OTRA PARTE, ASÍ COMO EL SERVICIO DE ASESORES FINANCIEROS, ASESORES Y CORRED

I-165 1515301 EMPRESAS DEDICADAS AL COMERCIO AL POR MAYOR DE PRODUCTOS QUÍMICOS BÁSICOS, PLÁSTICOS Y CAUCHO EN FORMAS PRIMARIAS Y PRODUCTOS QUÍMICOS DE USO AGROPECUARIO

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

62

Intervalo Código

CIIU Actividad Económica

I-166 4602201 EMPRESAS DEDICADAS AL TRANSPORTE INTERMUNICIPAL COLECTIVO REGULAR DE PASAJEROS

I-167 3172001 EMPRESAS DEDICADAS A LA TEJEDURA DE PRODUCTOS TEXTILES INCLUYE SOLAMENTE LA FABRICACIÓN DE GASAS, VENDAS, ALGODÓN Y SIMILARES, TELAS EN GENERAL

I-168 5371001 RECICLAJE DE DESPERDICIOS Y DE DESECHOS METÁLICOS

I-169 1524301

EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE MUEBLES PARA OFICINA, MAQUINARIA Y EQUIPO DE OFICINA, COMPUTADORES Y PROGRAMAS DE COMPUTADOR, EN ESTABLECIMIENTOS ESPECIALIZADOS INCLUYE LA VENTA DE MÁQUINAS DE ESCRIBIR, COSER, CALCULAR

I-170 3151102 EMPRESAS DEDICADAS A PRODUCCIÓN, TRANSFORMACIÓN Y CONSERVACIÓN DE CARNE Y DE DERIVADOS CÁRNICOS INCLUYE SOLAMENTE LOS MATADEROS

I-171 1751501 EMPRESAS DEDICADAS A ACTIVIDADES AUXILIARES DE SERVICIOS PARA LA ADMINISTRACIÓN PUBLICA EN GENERAL

I-172 3517002

EMPRESAS DEDICADAS AL MANTENIMIENTO Y REPARACIÓN DE MAQUINARIA Y EQUIPO. INCLUYE SOLAMENTE TALLERES ELECTROMECÁNICOS, LA REPARACIÓN DE MAQUINARIA PESADA, LA REPARACIÓN, CARGA Y/O VENTA DE ACUMULADORES

I-173 3924102

EMPRESAS DEDICADAS A ACTIVIDADES DEPORTIVAS Y OTRAS EMPRESAS DEDICADAS A ACTIVIDADES DE ESPARCIMIENTO INCLUYE TODAS LAS ACTIVIDADES DEPORTIVAS PROFESIONALES DE FUTBOL, TENIS, BALONCESTO, ATLETISMO, BEISBOL.ETC.

I-174 1801201

ESTABLECIMIENTOS DE EDUCACIÓN BÁSICA PRIMARIA INCLUYE AQUELLOS DONDE SE DICTAN LOS PROGRAMAS DE ALFABETIZACIÓN PARA NIÑOS QUE NO ASISTEN A UN CENTRO EDUCATIVO, LA EDUCACIÓN ESPECIAL DIRIGIDA A NIÑOS Y JÓVENES CON LIMITACIONES O CAPACIDADES EXCEPCIONALES.

I-175 4511302

EMPRESAS DEDICADAS AL COMERCIO AL POR MAYOR A CAMBIO DE UNA RETRIBUCIÓN O POR CONTRATA DE PRODUCTOS MANUFACTURADOS INCLUYE SOLAMENTE EMPRESAS DEDICADAS AL COMERCIO AL POR MAYOR DE PRODUCTOS QUÍMICOS EXCEPTO LOS MUTAGENICOS, TERATOGENICOS Y CANCERIGENOS.

I-176 1527201 EMPRESAS DEDICADAS A LA REPARACIÓN DE ENSERES DOMÉSTICOS INCLUYE TAPICERÍAS

I-177 1804101 ESTABLECIMIENTOS QUE PRESTAN EL SERVICIO DE EDUCACIÓN PREESCOLAR Y BÁSICA PRIMARIA EN LA MISMA UNIDAD FÍSICA

I-178 5452201 CONSTRUCCIÓN DE EDIFICACIONES PARA USO NO RESIDENCIAL

I-179 1721001

EMPRESAS DEDICADAS A CONSULTORÍA EN EQUIPO DE INFORMÁTICA INCLUYE LOS SERVICIOS DE CONSULTORES EN TIPOS Y CONFIGURACIONES DE LOS EQUIPOS DE INFORMÁTICA CON O SIN APLICACIÓN DE LOS CORRESPONDIENTES PROGRAMAS DE INFORMÁTICA.

I-180 2050201 EMPRESAS DEDICADAS A ACTIVIDADES DE SERVICIOS RELACIONADOS CON LA PESCA INCLUYE LOS SERVICIOS DE ADMINISTRACIÓN DE GRANJAS PISCÍCOLAS Y ACUÍCOLA

I-181 4604401 EMPRESAS DEDICADAS AL ALQUILER DE VEHÍCULOS DE CARGA CON CONDUCTOR

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

63

Intervalo Código

CIIU Actividad Económica

I-182 1522301 EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE CARNES, PRODUCTOS CÁRNICOS, PESCADOS Y PRODUCTOS DE MAR,

I-183 3519002 EMPRESAS DEDICADAS AL COMERCIO AL POR MAYOR DE PRODUCTOS DIVERSOS NCP INCLUYE SOLAMENTE EMPRESAS DEDICADAS A LA VENTA DE MATERIALES PARA CONSTRUCCIÓN CON AUTOTRANSPORTE

I-184 4514102 EMPRESAS DEDICADAS AL COMERCIO AL POR MAYOR DE MATERIALES DE CONSTRUCCIÓN, FERRETERÍA Y VIDRIO INCLUYE SOLAMENTE LA VENTA DE MATERIALES PARA CONSTRUCCIÓN CON AUTOTRANSPORTE

I-185 4641201

EMPRESAS DEDICADAS A ACTIVIDADES DE CORREO DISTINTAS DE LAS EMPRESAS DEDICADAS A ACTIVIDADES POSTALES NACIONALES INCLUYE SOLAMENTE EMPRESAS DEDICADAS A CORREOS, MENSAJERÍA, TRÁMITES Y SIMILARES

I-186 5203001 FABRICACIÓN Y MONTAJE DE PARTES Y PIEZAS DE CARPINTERÍA PARA EDIFICIOS Y CONSTRUCCIONES

I-187 4242202 EMPRESAS DEDICADAS A LA FABRICACIÓN DE PINTURAS, BARNICES Y REVESTIMIENTOS SIMILARES, INCLUYE SOLAMENTE EMPRESAS DEDICADAS A LA FABRICACIÓN TINTAS PARA IMPRENTA

I-188 2174101

EMPRESAS DEDICADAS A LA CONFECCIÓN DE ARTÍCULOS CON MATERIALES TEXTILES NO PRODUCIDOS EN LA MISMA UNIDAD, EXCEPTO PRENDAS DE VESTIR INCLUYE LAS CONFECCIONES EN TELA CON EXCEPCIÓN DE COLCHONES.

I-189 1742101

EMPRESAS DEDICADAS A ACTIVIDADES DE ARQUITECTURA E INGENIERÍA Y ACTIVIDADES CONEXAS DE ASESORAMIENTO TÉCNICO INCLUYE ACTIVIDADES DE DIRECCIÓN DE OBRAS DE CONSTRUCCIÓN, AGRIMENSURA Y DE EXPLOTACIÓN Y PROSPECCIÓN GEOLÓGICAS, ASÍ COMO LA PRESTACIÓN DE ASESORA

I-190 3924902

OTRAS EMPRESAS DEDICADAS A ACTIVIDADES DE ESPARCIMIENTO. REPRODUCCIÓN DE MATERIALES GRABADOS POR CONTRATA INCLUYE SOLAMENTE LAS EMPRESAS DEDICADAS A LOS SERVICIOS DE ORGANIZACIÓN DE EVENTOS CULTURALES Y/O RECREATIVOS MASIVOS

I-191 3158101 EMPRESAS DEDICADAS A LA ELABORACIÓN DE CACAO, CHOCOLATE Y PRODUCTOS DE CONFITERÍA INCLUYE LA MOLIENDA Y/O FABRICACIÓN DE PRODUCTOS DE CACAO, DULCES, CHOCOLATES Y SIMILARES

I-192 3454101 INSTALACIONES HIDRÁULICAS Y TRABAJOS CONEXOS INCLUYE SOLAMENTE EMPRESAS DEDICADAS A PLOMERÍAS

I-193 3642101 SERVICIOS TELEFÓNICOS INCLUYE SOLAMENTE EMPRESAS DEDICADAS A TELECOMUNICACIONES

I-194 1804301 ESTABLECIMIENTOS QUE PRESTAN EL SERVICIO DE EDUCACIÓN PREESCOLAR, BÁSICA PRIMARIA - BÁSICA SECUNDARIA Y MEDIA DE CARÁCTER ACADÉMICO O TÉCNICO EN LA MISMA UNIDAD FÍSICA

I-195 1660101

PLANES DE SEGUROS GENERALES HACE REFERENCIA A EMPRESAS DEDICADAS A LOS SEGUROS INCLUSO EL REASEGURO DISTINTOS DE LOS SEGUROS DE VIDA EJEMPLO SEGUROS CONTRA ACCIDENTES Y CONTRA INCENDIOS ETC, ASÍ COMO LOS PLANES DE MEDICINA PREPAGADA

I-196 1524601 EMPRESAS DEDICADAS AL COMERCIO AL POR MENOR DE EQUIPO ÓPTICO Y DE PRECISIÓN EN ESTABLECIMIENTOS ESPECIALIZADOS INCLUYE LA VENTA

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

64

Intervalo Código

CIIU Actividad Económica

DE ARTÍCULOS DE ÓPTICA

I-197 1741301 EMPRESAS DEDICADAS A LA INVESTIGACIÓN DE MERCADOS Y REALIZACIÓN DE ENCUESTAS DE OPINIÓN PUBLICA

I-198 2512701 EMPRESAS DEDICADAS AL COMERCIO AL POR MAYOR DE BEBIDAS Y PRODUCTOS DEL TABACO HACE REFERENCIA A EMPRESAS DEDICADAS A BEBIDAS EMBOTELLADAS EN GENERAL, DEPOSITO Y/O VENTA AL MAYOREO.

I-199 4604301 EMPRESAS DEDICADAS AL TRANSPORTE INTERNACIONAL DE CARGA POR CARRETERA

I-200 4456001 ALQUILER DE EQUIPO PARA CONSTRUCCIÓN Y DEMOLICIÓN DOTADO DE OPERARIOS

I-201 1512501 EMPRESAS DEDICADAS AL COMERCIO AL POR MAYOR DE PRODUCTOS ALIMENTICIOS, EXCEPTO CAFÉ TRILLADO

I-202 3181003 EMPRESAS DEDICADAS A LA FABRICACIÓN DE PRENDAS DE VESTIR, EXCEPTO PRENDAS DE PIEL INCLUYE SOLAMENTE FABRICACIÓN MECANIZADA DE CORSÉS, FAJAS ELÁSTICAS, SOMBREROS DE FIELTRO

I-203 2153001 EMPRESAS DEDICADAS A LA ELABORACIÓN DE PRODUCTOS LÁCTEOS INCLUYE ELABORACIÓN DE HELADOS Y LA EMPRESAS DEDICADAS A LA FABRICACIÓN DE ARTESANAL DE PRODUCTOS Y/O DERIVADOS LÁCTEOS

I-204 3642601 SERVICIOS RELACIONADOS CON LAS TELECOMUNICACIONES

I-205 1804201 ESTABLECIMIENTOS QUE PRESTAN EL SERVICIO DE EDUCACIÓN PREESCOLAR Y BÁSICA PRIMARIA Y BÁSICA SECUNDARIA EN LA MISMA UNIDAD FÍSICA

I-206 2222001

EMPRESAS DEDICADAS A ACTIVIDADES DE IMPRESIÓN POR CONTRATA INCLUYE LA IMPRESIÓN DE AVISOS EN PLACAS METÁLICAS, ESTAMPADO, FABRICACIÓN DE CALCOMANÍAS, LA MANUFACTURA DE CUADERNOS, LIBRETAS EN BLANCO SOBRES, SIMILARES Y/O VENTA AL MAYOREO DE PAPEL

I-207 1515101 EMPRESAS DEDICADAS AL COMERCIO AL POR MAYOR DE COMBUSTIBLES SÓLIDOS, LÍQUIDOS, GASEOSOS Y PRODUCTOS CONEXOS"

I-208 2361101 EMPRESAS DEDICADAS A LA FABRICACIÓN DE MUEBLES PARA EL HOGAR INCLUYE CARPINTERÍAS Y EBANISTERÍAS (FABRICACIÓN DE ARTESANAL)

I-209 5701001 EMPRESAS DEDICADAS A ACTIVIDADES INMOBILIARIAS REALIZADAS CON BIENES PROPIOS O ARRENDADOS INCLUYE SOLAMENTE A EMPRESAS DEDICADAS A ACONDICIONAMIENTO DE TERRENOS

I-210 2152101

EMPRESAS DEDICADAS A LA ELABORACIÓN DE ALIMENTOS COMPUESTOS PRINCIPALMENTE DE FRUTAS, LEGUMBRES Y HORTALIZAS INCLUYE EL DESFIBRE, SECADO Y/O RAYADO DE COCO, LA ELABORACIÓN ARTESANAL DE CONSERVAS ALIMENTICIAS, LOS CONCENTRADOS DE FRUTAS

I-211 4453001 CONSTRUCCIÓN DE OBRAS DE INGENIERÍA CIVIL INCLUYE SOLAMENTE EMPRESAS DEDICADAS A LOS SERVICIOS DE DRAGADO

I-212 4603201 EMPRESAS DEDICADAS AL TRANSPORTE COLECTIVO NO REGULAR DE PASAJEROS

I-213 4261002

EMPRESAS DEDICADAS A LA FABRICACIÓN DE VIDRIO Y DE PRODUCTOS DE VIDRIO INCLUYE SOLAMENTE EMPRESAS DEDICADAS A LA FABRICACIÓN Y/O GRABADO DE ARTÍCULOS EN VIDRIO, LA FABRICACIÓN DE EMPLOMADOS, VITRALES

I-214 1804601 ESTABLECIMIENTOS QUE PRESTAN EL SERVICIO DE EDUCACIÓN BÁSICA

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

65

Intervalo Código

CIIU Actividad Económica

SECUNDARIA Y MEDIA DE CARÁCTER ACADÉMICO Y/O TÉCNICO EN LA MISMA UNIDAD FÍSICA

I-215 1659601

OTROS TIPOS DE CRÉDITO HACE REFERENCIA A EMPRESAS DEDICADAS A LA INTERMEDIACIÓN FINANCIERA POR INSTITUCIONES QUE NO PRACTICAN LA INTERMEDIACIÓN MONETARIA Y CUYA FUNCIÓN PRINCIPAL ES CONCEDER PRESTAMOS PARA LA COMPRA DE BIENES Y SERVICIOS, VIVIENDA ETC. LA

I-216 2242901 EMPRESAS DEDICADAS A LA FABRICACIÓN DE OTROS PRODUCTOS QUÍMICOS NCP INCLUYE LA FABRICACIÓN DE ESENCIAS

I-217 3342001 EMPRESAS DEDICADAS A LA FABRICACIÓN DE CARROCERÍAS PARA VEHÍCULOS AUTOMOTORES; INCLUYE LA FABRICACIÓN DE REMOLQUES Y SEMIRREMOLQUES, FABRICACIÓN Y/O REPARACIÓN DE CARROCERÍAS

I-218 3192601 EMPRESAS DEDICADAS A LA FABRICACIÓN DE PARTES DEL CALZADO INCLUYE LA FABRICACIÓN DE OJETES PARA ZAPATOS

I-219 3369401 EMPRESAS DEDICADAS A LA FABRICACIÓN DE JUEGOS Y JUGUETES

I-220 5454902 OTROS TRABAJOS DE ACONDICIONAMIENTO

I-221 3551902 OTROS TIPOS DE ALOJAMIENTO NCP HACE REFERENCIA A EMPRESAS DEDICADAS A LAS EMPRESAS DE SERVICIOS DE COCHES-DORMITORIOS Y/O COMEDORES A BORDO DE FERROCARRILES

I-222 5281201 FABRICACIÓN DE TANQUES, DEPÓSITOS Y RECIPIENTES DE METAL INCLUYE SOLAMENTE A EMPRESAS DEDICADAS A LA CONSTRUCCIÓN DE TORRES DE PETRÓLEO, TANQUE ELEVADOS, FUNICULARES Y/O CABLES AÉREOS.

I-223 1804501 ESTABLECIMIENTOS QUE PRESTAN EL SERVICIO DE EDUCACIÓN BÁSICA PRIMARIA - BÁSICA SECUNDARIA Y MEDIA DE CARÁCTER ACADÉMICO Y/ O TÉCNICO EN LA MISMA UNIDAD FÍSICA

I-224 4300002

EMPRESAS DEDICADAS A LA FABRICACIÓN DE MAQUINARIA DE OFICINA, CONTABILIDAD E INFORMÁTICA INCLUYE SOLAMENTE EMPRESAS DEDICADAS A EQUIPO DE REPRODUCCIÓN PARA OFICINAS, FABRICACIÓN DE MÁQUINAS QUE CLASIFICAN, EMPAQUETAN O CUENTAN MONEDAS, EXPENDEDORAS AUTOMA

I-225 1749101 EMPRESAS DEDICADAS A LA OBTENCIÓN Y SUMINISTRO DE PERSONAL INCLUYE AGENCIAS DE EMPLEO

I-226 5272902 INDUSTRIAS BÁSICAS DE OTROS METALES NO FERROSOS

I-227 4712102 EMPRESAS DEDICADAS AL ALQUILER DE MAQUINARIA Y EQUIPO AGROPECUARIO

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

66

Bibliografía

Aguilar, B., Saraí (2005). “Fórmulas para el cálculo de la muestra en

investigaciones de salud Salud en Tabasco”, vol. 11, núm. 1-2, enero-agosto, 2005, pp.

333-338.

Arango, A., M y Misas, M. (2004). “La Demanda de Especies Monetarias en

Colombia: Estructura y Pronostico”, Banco de la República, Borradores de economía, No.

309.

Arrow, K.J., (1963). “Uncertainty & the welfare economics of medical care”,

American Economic Review 53, pp. 941–969.

Arrow, K.J., (1965). “Insurance, Risk & Resource Allocation”. Aspects of the

Theory of Risk-Bearing. Yrjö Jahnsson Foundation, Helsinki, pp. 134–143 (Reprinted in

Arrow, K.J., 1971. Essays in the Theory of Risk Bearing. Elsevier Publishing Company

Inc.).

Arrow, K.J., (1974). “Optimal insurance and generalized deductibles”.

Scandinavian Actuarial Journal 1, 1–42.

Arrow, K.J., Fischer, A.C., (1974). “Environmental preservation, uncertainty and

irreversibility”. Quarterly Journal of Economics 88, 312–319.

Borch, K., (1960). “The safety loading of reinsurance premiums”. Skandinavisk

Aktuarietidskrift, 163–184.

Borch, K., (1961). “The utility concept applied to the theory of insurance”. Astin

Bulletin 1, 245–255.

Borch, K., 1962. “Equilibrium in a reinsurance market”. Econometrica 30, 424–444.

Artı́s, M, Ayuso, M, & Guillén, M (1999). “Modelling Different Types of

Automobile Insurance Fraud Behaviour in the Spanish Market”, Insurance: Mathematics

and Economics 24(1-2): 67–81.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

67

Belhadji E.B., Dionne G., & Tarkhani F. (2000). “A Model for the Detection of

Insurance Fraud.”, The Geneva Papers 25(4): 517–38.

Bertsimas, D., R. Freund. (2005). “Data, Models and Decisions”, Dynamic Ideas,

Belmont, MA.

De la Espriella, C (2012). "Fraude en seguros, Una aproximación al caso

colombiano". Disponible en:

http://www.fasecolda.com/files/7413/9101/0544/parte_i.captulo_15_fraude_en_seguros.pdf

J.E. Dennis Jr. & R.B. Schnabel (1983), “Numerical Methods for Uncon- strained

Optimization and Nonlinear Equations”, Englewood Cliffs, N.J.: Prentice Hall, 1983.

Derrig, R (2002). "Insurance Fraud". Source: The Journal of Risk and Insurance,

Vol. 69, No. 3, pp. 271-287. Disponible en: http://www.jstor.org/stable/1558678

Derrig, R A, & Ostaszewski, M (2016). “Fuzzy Techniques of Pattern Recognition

in Risk and Claim Classification”, The Journal of Risk and Insurance, Vol. 62, No. 3,

Symposium on Insurance Solvency and Finance (Sep .,1.” 62(3): 447–82.

Derrig, R. A., Weisberg, I, & Chen, X, (1994), “Behavioral Factors and Lotteries

Under No-Fault with a Monetary Threshold: A Study of Massachusetts Automobile

Claims”, Journal of Risk & Insurance, 61: 245-275.

Dionne, G, & Harrington, S, (2014). Handbook of the Economics of Risk and

Uncertainty Chapter 5 – Insurance and Insurance Markets. Elsevier B.V.

http://www.sciencedirect.com/science/article/pii/B9780444536853000052.

Finaly, S (2011), “Multiple classifier architectures and their application to credit

risk assessment”, European Journal of Operational Research, Volume 210, Issue 2, Pages

368–378.

Golmohammadi, D, & Radnia, (2016). “Prediction Modeling and Pattern

Recognition for Patient Readmission.” International Journal of Production Economics 171:

151–61. http://dx.doi.org/10.1016/j.ijpe.2015.09.027.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

68

R.L. Grossman, C. Kamath, P. Kegelmeyer, V. Kumar, R. Namburum (2013). “Data

Mining for Scientific and Engineering Applications”, Data Mining for Scientific and

Engineering Applications, Springer Science & Business Media, volume 2.

Hand, D. J., & W. E. Henley (1997). “Statistical Classification Methods in

Consumer Credit Scoring: A Review.” Journal of the Royal Statistical Society: Series A

(Statistics in Society) 160(3): 523–41. http://www.blackwell-

synergy.com/doi/abs/10.1111/j.1467-985X.1997.00078.x.

He, H. Wang,J. Graco, W. Hawkins, S (1997). "Application of neural networks to

detection of medical fraud", Expert Systems with Applications, Vol 13, Issue 4, pp 329 –

336.

Herbrich, R, Keilbach, M, Bollmann, P, Obermayer, K (1999), “Neural Networks in

Economics: Background, Applications and New Developments”, Advances in

Computational Economics, volume 11, pp 169-196.

Herland, M, Khoshgoftaar, T, & Wald R (2014), “A review of data mining using big

data in health informatics”, Journal Of Big Data, volume 1, issue 1, pp 2.

Hinton, E (1989), “A penalty-function approach for pruning feedforward neural

networks”, Artificial Intelligence, volume 40., issue 1-3, pp 185-234.

Lu, H, Setiono R, Liu, H (1995), "Neuro Rule: A Connectionist Approach to Data

Mining". Proceedings of the Twenty-First International Conference on Very Large Data

Bases, pp 478-489.

Huan JL, Pai V, Teredesai AM, Yu (2013), IEEE Workshop on BigData In

Bioinformatics and Health Care Informatics. http://www.ittc.ku.edu/~jhuan/BBH/

Derrig, R (2002), “Insurance Fraud”, Journal of Risk and Insurance, Vol. 69, No. 3

(Sep., 2002), pp. 271-287

Iregui, A, Melo, L, Ramírez, M,(2013), “Rigidez a la baja en los salarios y

respuestas de las empresas a una desaceleración económica: evidencia de una encuesta a

empresas colombianas”, Reportes de Investigación, 2013.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

69

Jalil, M & Misas, M (2006), “Evaluación de pronósticos del tipo de cambio

utilizando redes neuronales y funciones de perdida asimétricas”, Banco de la República ,

Borradores de economía, No 376.

Jones, A (2000). 1 Handbook of Health Economics Chapter 6 Health Econometrics.

Elsevier Science B.V. http://dx.doi.org/10.1016/S1574-0064(00)80165-1.

Kambatla, K, Kollias, G, Kumar, V, Grama, A, (2014), “Trends in big data

analytics”, Journal of Parallel and Distributed Computing, 2014, volume 74, Issue 7, pp

2561-2573.

Klerfors, D. (1998), “Artificial Neural Networks: What are they?, How do they

work?, In what areas are they used?”, Saint Louis University, School of Business &

Administration.

Krugman, P (2009). The Return of Depression Economics and the Crisis of 2008.

W.W.Norton Company Limited.

Lemus J, Corredor A, Gutiérrez J (2012), “Fragility Determinants of the Private

Corporate Sector in Colombia”, Banco de la República, Temas de Estabilidad Financiera,

No 66 2012.

Lessmann, S.,Baesens B, Seowd H, Thomas C (2015), “Benchmarking state-of-the-

art classification algorithms for credit scoring: An update of research”, European Journal of

Operational Research, No 247, pp 124–136.

J. Li, K. Huang, J. Jin, J. Shi (2008) , “A survey on statistical methods for health

care fraud detection”, Journal of Health Care Management Science 11 (3), pp 275–287.

Lloyd,S. (1957). Least squares quantization in pcm. IEEE Transactions on

Information Theory, 28:129–137.

Aral, K, Güvenir, H, Sabuncuoĝlu, I, Akar, A (2012) “A prescription fraud

detection model”, Computer methods and programs in biomedicine, Vol 106 , Issue 1, pp

37–46.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

70

Liao, H, Wang Bin, & Weyman-Jones, T (2007). “Neural Network Based Models

for Efficiency Frontier Analysis: An Application to East Asian Economies’ Growth

Decomposition.”, Global Economic Review 36(4): pp 361–84. Disponible en:

http://www.tandfonline.com/doi/abs/10.1080/12265080701694561.

Liu, H, & Tan, S(1995), “X2R: A Fast Rule Generator.” Proceedings of the IEEE

International Conference on Systems, Man and Cybernetics: 1631–35.

Lu H, Setiono R, & Liu H, (1996), “Effective Data Mining Using Neural Networks”

Hongjun, IEEE transactions on knowledge and data engineering, vol. 8, no. 6, pp 957.

Major, J, & Riedingerl, D (2016). “EFD : A Hybrid Knowledge / Statistical-Based

System for the Detection of Fraud”, American Risk and Insurance Association, Stable

URL : http://www.jstor.org/stable/1558680 REFERENCES Linked Ref.” 69(3): 309–24.

Misas M & López E. (2009), “La formación de precios en las empresas

colombianas: evidencia a partir de una encuesta directa”, Banco de la Republica,

Borradores de economía, No 569. Disponible en:

http://www.banrep.gov.co/docum/ftp/borra569.pdf

Misas, M., E. López, C. Arango & N. Hernández (2003). “La Demanda de Efectivo

en Colombia: Una Caja Negra a la Luz de las Redes Neuronales”, Banco de la República,

Borradores de Economía, No 268.

Misas M, López E & Querubín P, (2002)," La inflación en Colombia: una

aproximación desde las redes neuronales". Disponible en:

http://www.banrep.gov.co/docum/ftp/borra199.pdf

Paleologo, G,Elisseeff, A. & Antonini, G (2010). “Subagging for credit scoring

models”, European Journal of Operational Research, Volume 201, Issue 2, Pages 490–499.

Patidar, R. Sharma, L (2011). "Credit card fraud detection using neural network" [en

línea]. International Journal of soft computing and engineering. ISSN: 2231-2307, Vol 1.

Disponible en:

http://www.ijsce.org/attachments/File/NCAI2011/IJSCE_NCAI2011_025.pdf

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

71

Pavlidis, N., Dimitris, D., Tasoulis, K., Adams, N., & Hand, D., (2012). “Adaptive

Consumer Credit Classification.”, Journal of the Operational Research Society 63(12):

1645–54. http://dx.doi.org/10.1057/jors.2012.15.

Picón, C., (2011). “¿Son más corruptos los países menos abiertos a los mercados

internacionales?”, Revista de economía del caribe, No 8, pp 45-79.

Powers, D (2007). “Evaluation: From Precision, Recall and F-Factor to ROC,

Informedness, Markedness & Correlation.”, School of Informatics and Engineering

Flinders University • Adelaide • Australia, Technical Report SIE-07-001.

Setiono, R,(1997).“A penalty-function approach for pruning feedforward neural

networks”, Neural Computation, vol 9, issue 1, pages 185-204.

Restrepo, M (2006). “Evaluación asimétrica de una red neuronal artificial:

Aplicación al caso de la inflación en Colombia!”, Banco de la República, Borradores de

economía, No 377.

Viaene, S., Derrig, R., Baesens, B., & Dedene, G., (2016). “A Comparison of State-

of-the-Art Classification Techniques for Expert Automobile Insurance Claim Fraud

Detection”, The Journal of Risk and Insurance, Vol . 69 , No . 3.” 69(3): 373–421.

Brockett, P., Xia, X., & Derrig, R., (2016), “Using Kohonen’s Self-Organizing

Feature Map to Uncover Automobile Bodily Injury Claims”. American Risk and Insurance

Association Stable URL : Http://www.jstor.org.” 65(2): 245–74.

Russell, S & Norvig, P (2003). “Artificial Intelligence: A Modern Approach”,

Prentice Hall, (second edition).

Salazar, J (2009). “Evaluación de pronóstico de una red neuronal sobre el PIB en

Colombia”, Banco de la República, Borradores de economía, No 575.

Tan, P., Steinbach, M., & Kumar, V. (2006). “Classification: Basic Concepts,

Decision Trees, and Model Evaluation.”, Introduction to Data Mining 67(17): 145–205.

http://www-users.cs.umn.edu/~kumar/dmbook/index.php.

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

72

Bertsimas, D., Bjarnadóttir, M., Kane, M., Kryder, C., Pandey, R., Vempala, S., &

Wang, G (2008), “Algorithmic Prediction of Health-Care Costs”, Operations Research in

Health Care (Nov. - Dec., 2008), Vol. 56, No. 6, , pp. 1382-1392.

Torres, J (2006).“Modelos para la inflación básica de bienes transables y no

transables en Colombia”, Banco de la República, Borradores de economía, No 365.

Villamil, J (2009). “Aproximación no lineal al modelo de overshooting usando

redes neuronales multlcapa para el tipo de cambio dólar-peso”, Cuadernos de Economia,

Universidad Nacional de Colombía, Volumen 28, Núm 50.

Weisberg, H. & Derrig, R. (1998). "Quantitative Methods for detecting fraudulent

Automobile Bodily Injury Claims", [en línea]. Disponible en:

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.486.7588&rep=rep1&type=pdf

Whittaker, J, Whitehead C, & Somers M.(2006). “A Dynamic Scorecard for

Monitoring Baseline Performance with Application to Tracking a Mortgage Portfolio.”

Journal of the Operational Research Society 58(7): 911–21. http://www.palgrave-

journals.com/doifinder/10.1057/palgrave.jors.2602226.

Yuan Q, Nsoesie EO, Lv B, Peng G, Chunara R, Brownstein JS (2013),

“Monitoring influenza epidemics in China with search query from Baidu”. PLoS ONE 8(5):

e64323. [doi: 10.1371/journal.pone.0064323]

Association of Certifiead Fraud Examiners. 2015. "What is Fraud?" [En línea].

Disponible en: http://www.acfe.com/fraud-101.aspx [Accessed 17 Nov. 2015]

Bancoldex. "Programa de prevención de Riesgos de Fraude y Corrupción"[en línea].

Versión 4. [Fecha de consulta: 05 de Noviembre de 2015]. Disponible en

http://www.bancoldex.com/documentos/4667_Programa_de_Prevencion_Riesgos_de_Frau

de_y_Corrupcion.pdf

Circular Externa 041 de 2007. Superintendencia de Colombia. "Capitulo XXIII

Reglas relativas a la administración del riesgo operativ" [en línea]. Disponible en:

http://www.fasecolda.com/files/4713/8437/8023/anexo_cir_ext_041_de_2007.pdf

Facultad de Ciencias Económicas y Administrativas

Maestría en Economía

73

Fasecolda. "Cuidado con la afiliación irregular a Riesgos Laborales" [En línea]12 de

Mayo de 2015 [fecha de consulta: 22 de Junio de 2015]. disponible en:

http://www.fasecolda.com/index.php/sala-de-prensa/noticias/2015/sector-mayo-12-2015