Prediccion de fraude con tecnologias innovadoras / Predicting fraud with innovative technologies

23
Predicción del fraude con tecnologías innovadoras Aranjuez, Julio 2012

description

Ponencia de Luis Vergara, Catedrático del Departamento de Comunicaciones, Universidad Politécnica de Valencia; y Fernando Esponda, Director de Investigación Sm4rt Predictive Systems. Presentation by Luis Vergara, Professor, Department of Communications, Polytechnic University of Valencia; and Fernando Esponda, Research Director Sm4rt Predictive Systems. Curso de Verano / Summer Course CIGTR/URJC 2012.

Transcript of Prediccion de fraude con tecnologias innovadoras / Predicting fraud with innovative technologies

  • 1.Prediccin del fraude con tecnologas innovadoras Aranjuez, Julio 2012

2. Indice: 1. Ideas generales sobre reconocimiento de formas aplicado a la deteccin del fraude 2. Descripcin de Numenta 3. Descripcin de inFusion 4. Conclusiones 3. 1. Ideas generales sobre reconocimiento de formas aplicado a la deteccin del fraude 4. Planteamiento del problema (1) Fraude? Registros asociados a cada operacin ? R= comercio ciudad cdigos identificadores importe mtodo entrada 5. Planteamiento del problema (2) Podemos abordarlo como un problema de reconocimiento de formas Las mquinas pueden observar su entorno, aprender y distinguir formas ofreciendo decisiones acertadas y razonables de la clase a la que pertenecen Una forma puede ser cualquier descripcin de un objeto que cambie cuando cambia la clase a la que pertenece 6. Planteamiento del problema (3) Algunos ejemplos y nuestro caso Problema Aplicacin Forma de entrada Clases Bioinformtica Anlisis de secuencias Secuencia ADN o protenas Conocer tipos de genes Data mining Bsqueda de patrones representativos Puntos en espacios multidimensionales Clusters compactos y bien separados Clasificacin de documentos Bsqueda en internet Documentos de texto Categoras semnticas (negocios, deportes) Anlisis de imgenes de documentos Lectura para invidentes Imagen de documentos Caracteres alfanumricos, palabras Automatizacin industrial Inspeccin de circuitos impresos Intensidad o rango de imagen Producto defectuoso o no defectuoso Recuperacin multimedia de BD Bsqueda en internet Videos Categoras de video (accin, debates) Reconocimientos de patrones biomdicos Identificacin personal Cara, huellas digitales, retina Autorizacin para el acceso a zonas Adquisicin remota Prediccin meteorolgica Imagen multiespectral Tipos de suelo Reconocimiento de voz Centralitas telefnicas automticas Forma de onda Palabras dictadas o habladas Prediccin de fraude Deteccin de operaciones fraudulentas con tarjeta bancaria Registro de la operacin Fraude o no fraude 7. Etapa 1 Conversor a nmeros Seleccin de los mejores Etapa 2 Detector Esquema general Registros alfanumricos de cada transaccin Forma numrica (caractersticas) Probabilidad /score Etapa 3 Umbralizacin Decisin R= comercio ciudad cdigos identificadores importe mtodo entrada 1 2 N x x x x 0 1s 1 0 H H s t 0 1 u Estructura y entrenamiento? Valor de t que limita el nmero de falsas alarmas? 8. Entrenamiento del detector (1) Etapa 1 Detector Umbralizacin Partimos de una serie de formas etiquetadas para entrenar al detector Qu score asignamos a una nueva forma sin etiquetar? X fraude no fraude Caracterstica 1 Caracterstica2 x x x x x x x x x x x x ? 9. Entrenamiento del detector (2) La mayora de mtodos pertenece a una de las siguientes tres categoras: Caracterstica 1 Caracterstica2 x x x x x x x x x x x x 1. Medimos la densidad de poblacin (normalizada) de una y de otra clase en las cercanas del valor a etiquetar, el score es proporcional a la densidad: fraude fraude nofraude d s d d Los distintos mtodos se diferencian en la forma que miden las densidades de poblacin: Histogramas Mtodos Gaussianos Mtodos no-Gaussianos 10. Entrenamiento del detector (3) Caracterstica 1 Caracterstica2 x x x x x x x x x x x x 2. Medimos distancias a formas representativas de cada de cada poblacin Los distintos mtodos se diferencian en la forma que eligen los puntos representativos de cada poblacin: La media o centroide (nearest mean) Varios vectores que expanden el subespacio de cada poblacin (subspace methods) Bsquedas exhaustivas de los mejores vectores (gran variedad) nofraude fraude nofraude d s d d Podemos generar el score sustituyendo densidad de poblacin por las inversas de las distancias en la frmula anterior 11. Entrenamiento del detector (4) Caracterstica 1 Caracterstica2 x x x x x x x x x x x x 3. Establecemos fronteras de separacin de las dos poblaciones Los distintos mtodos se diferencian en la frontera que eligen para separar las dos poblaciones: Lineal (Linear Discriminant Analysis) Cuadrtica ( Quadratic Discriminant Analysis) Arbitraria (Redes Neuronales) ptimizada localmente (Support Vector Machine) max 0.5 2 fraude fraude d s d Podemos generar el score midiendo el cociente de la distancia a la frontera (positiva si es la zona fraude y viceversa) con una distancia mxima de referencia 12. Otros aspectos importantes Cmo elegimos el conjunto de entrenamiento? Cada cunto tiempo se actualiza el diseo del detector? Estructura en rbol o global? Fusin de detectores? Funcin objetivo a minimizar? 13. 2. Descripcin Numenta 14. 3. Descripcin in-Fusin 15. El GRUPO DE TRATAMIENTO DE SEAL del Instituto de Telecomunicaciones y Aplicaciones Multimedia de la Universidad Politcnica de Valencia Disea detectores y clasificadores automticos en una variedad de aplicaciones: ensayos no destructivos deteccin por imagen infrarroja vigilancia y monitorizacin basada en sonido biomedicina, La algortmica es de aplicacin inmediata en deteccin de fraudes con tarjeta bancaria 16. Una arquitectura general de fusin de detectores: in-Fusion 17. Por qu fusin? Caracterstica 1 Caracterstica2 x x x x x x x x x x x x Una interpretacin simple: Podemos construir fronteras ms complejas a base de detectores ms simples Falsas alarmas detector 1 Falsas alarmas detector 2 18. Fusin soft y fusin hard (1) Detector 1 Detector 2 1s Algoritmo de fusin soft 2s sEtapa 1 Caracterstic as Etapa 3 umbralizacin Soft Etapa 2 Detector 1 Algoritmo de fusin hard 2s s Etapa 1 Caracterstic as umbralizacin1 Hard 1s umbralizacin2 u 1u 2u u Etapa 2 Etapa 3 Etapa 2 Detector 2 19. Fusin soft y fusin hard (2) La fusin soft es preferible a la fusin hard al no tener prdidas de informacin en pasos intermedios La fusin soft ptima, en caso de independencia estadstica, lleva a reglas de fusin simples La fusin soft ptima en caso de dependencia estadstica es ms compleja de disear que la fusin hard: La fusin hard puede ser optimizada tambin ajustando los umbrales de cada detector independientemente 0 1 0,1 i i s u 20. Simulacin de fusin asumiendo independencia de los scores bajo ambas hiptesis: fraudes (rojo) y no fraudes (verde) -4 -2 0 2 4 -4 -3 -2 -1 0 1 2 3 4 Detector 1 -4 -2 0 2 4 -4 -3 -2 -1 0 1 2 3 4 Detector 2 -4 -2 0 2 4 -4 -3 -2 -1 0 1 2 3 4 Soft ptima -4 -2 0 2 4 -4 -3 -2 -1 0 1 2 3 4 Soft independiente -4 -2 0 2 4 -4 -3 -2 -1 0 1 2 3 4 Hard 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Detector 1 Detector 2 Soft Optimal Soft independence Hard Separacin de poblaciones para una prob. de falsa alarma de 10% Curvas de Probabilidad de deteccin en funcin de probabilidad de falsa alarma 21. Simulacin de fusin asumiendo independencia de los scores en no-fraudes y fuerte dependencia en fraudes Separacin de poblaciones para una prob. de falsa alarma de 10% -4 -2 0 2 4 -4 -3 -2 -1 0 1 2 3 4 Detector 1 -4 -2 0 2 4 -4 -3 -2 -1 0 1 2 3 4 Detector 2 -4 -2 0 2 4 -4 -3 -2 -1 0 1 2 3 4 Soft ptima -4 -2 0 2 4 -4 -3 -2 -1 0 1 2 3 4 Soft independiente -4 -2 0 2 4 -4 -3 -2 -1 0 1 2 3 4 Hard 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Detector 1 Detector 2 Soft Optimal Soft independence Hard Curvas de Probabilidad de deteccin en funcin de probabilidad de falsa alarma 22. Simulacin de fusin asumiendo independencia de los scores en fraudes y fuerte dependencia en no-fraudes Separacin de poblaciones para una prob. de falsa alarma de 10% -4 -2 0 2 4 -4 -2 0 2 4 Detector 1 -4 -2 0 2 4 -4 -2 0 2 4 Detector 2 -4 -2 0 2 4 -4 -2 0 2 4 Soft ptima -4 -2 0 2 4 -4 -2 0 2 4 Soft independiente -4 -2 0 2 4 -4 -2 0 2 4 Hard 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Detector 1 Detector 2 Soft Optimal Soft independence Hard Curvas de Probabilidad de deteccin en funcin de probabilidad de falsa alarma 23. 4. Conclusiones