Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude...

Post on 06-Jul-2020

7 views 0 download

Transcript of Maurits Cornelis Escher · 2016-03-03 · 1 de 54 Redes parenclíticas y variables de fraude...

1 de 54

Redes parenclíticasy

variables de fraudePresentación de los avances realizados en investigac ión (IT RF&S)

R. Criado, M. Romance, M. Zanin - Jornadas BBVA, 4 de julio de 2014

“ Las leyes de la matemática no son meramente invenci ones o creaciones humanas, simplemente "son". Existen independientemente del i ntelecto humano. Lo más que puede hacer un hombre de inteligencia aguda es desc ubrir que esas leyes están allí y llegar a conocerlas”.

Maurits Cornelis Escher

2 de 54

Índice

1. Introducción2. Presentación de los datos3. Análisis de los datos.4. Networks and Parenclitic Networks5. Meta-Networks6. Aplicación al fraude con tarjetas

3 de 54

Introducción

4 de 54

• Algoritmo de cifrado FPE (Format Preserving Encryption) (tokenización), certificación de los algoritmos, sistemas frontera…

• Gestión del riesgo digital mediante redes complejas de intencionalidad

• Teoría de la seguridad de la información (sistemas de información).

Proyectos

1. Introducción

5 de 54

• Algoritmo de cifrado FPE (Format Preserving Encryption) (tokenización), certificación de los algoritmos, sistemas frontera…

• Gestión del riesgo digital mediante redes complejas de intencionalidad

• Teoría de la seguridad de la información (sistemas de información).

• Prevención del fraude con redes parenclíticas

Proyectos

1. Introducción

6 de 54

1. Introducción

7 de 54

Presentación de

los datos

8 de 54

Datos de transacciones realizadas en España con tarjeta de crédito y débito durante 2011 y 2012, distinguiendo entre transacciones lícitas y no lícitas .

(cada mes 10 Gigabytes, aproximadamente 250 Gb en total).

2. Presentación de los datos

9 de 54

Análisis

de

los datos

10 de 54

3. Análisis de los datos

11 de 54

3. Análisis de los datos

December 2011

12 de 54

3. Análisis de los datos

13 de 54

3. Análisis de los datos

14 de 54

3. Análisis de los datos

15 de 54

Networks and Parenclitic Networks

16 de 54

4. Networks and parenclitic networks

•Teoría de redes: Internet (800 millones de nodos).•Barabasi and co-workers: Nature (1999) Redes Scale-Free.Se pretende reproducir comportamientos universales basados en modelos sencillos (homeofilia-homeostasis)

1. Physical networks (social, technological,…)2. Functional networks3. Parenclitic networks

17 de 54

1. Introducción

18 de 54

4. Networks and parenclitic networks

No se puede mostrar la imagen en este momento.No se puede mostrar la imagen en este momento.

No se puede mostrar la imagen en este momento.

19 de 54

4. Networks and parenclitic networks

( )P k k γ−�

20 de 54

•REDES PARENCLÍTICAS: Herramienta de predicción y clasificación. (parenclisis <-> desviación)

•Generaliza el paradigma de las redes neuronales (perceptrón multicapa) de base conexionista.

• A partir de un conjunto “patrón”, permite detectar y/o predecir, por ejemplo, en su aplicación a las redes biomédicas, la presencia de enfermedades o el desarrollo futuro de las mismas, y en su aplicación a la DETECCIÓN DE FRAUDE EN TARJETAS , las operaciones ilícitas en base a ciertas características de las mismas.

4. Networks and parenclitic networks

21 de 54

•El punto de partida es la representación en una red compleja de los datos, en la que la importancia de las correlaciones(interacciones o relaciones) entre las diferentes características o elementos que componen la red es o bien la misma, o bien mayor que la influencia de cada una de estas características “por separado”.

4. Networks and parenclitic networks

22 de 54

•La idea análisis de sangre, consiste en asociar a cada nuevo individuo (persona-análisis de sangre, transacción hecha con tarjeta, …) una red compleja que refleje sus características (cada nodo es una característica diferente)

•Para ello, es necesario trabajar previamente con los datos obtenidos a partir de un GRUPO DE CONTROL (es decir, personas saludables, o personas enfermas, transacciones lícitas, transacciones ilícitas,…) de manera que podamos representar en una RED PATRÓN las relaciones “normales” entre cada par de estas características.

Descripción de la metodología

4. Networks and parenclitic networks

23 de 54

•Un conjunto de “n” individuos, todos ellos con “p” características, y una colección de “m” clases.

Descripción de la metodología

4. Networks and parenclitic networks

24 de 54

4. Networks and parenclitic networks

{ }1 , ..., na a

{ }1 , ..., mG G

{ }1 2,G G

{ }1 , ..., px x

{ }1 , ..., px x 1( , ..., ) 0pf x x = 1 23 0x x− =

25 de 54

•Un conjunto de “n” individuos, todos ellos con “p” características, y una colección de “m” clases.

•Esta información se recoge en una matriz D de p filas (una por cada característica) y n columnas (una por cada sujeto). De este modo la característica “i-esima” del individuo “s” es el elemento dis de la matriz D.

•Proyectamos entonces, para cada par de características , “i” y “j” en el plano “i-j” obteniendo un punto por cada individuo del grupo de control:

Descripción de la metodología

4. Networks and parenclitic networks

26 de 54

•A continuación realizamos un ajuste lineal, (podríamos utilizar otro tipo de ajuste) obteniendo que el valor de la característica “j” para el individuo sano “s” puede obtenerse a partir de la característica “i”, según una fórmula del tipo siguiente:

4. Networks and parenclitic networks

i

j

27 de 54

•Es posible, entonces, considerar el valor medio de estos errores y sus desviaciones típicas.

,ij

sjs ij ij is

ij ij

d a b d

a b coeficientes resultado de hacer el ajuste lineal

vector conteniendo los m errores del ajuste

ε

ε

= + +

=

=

4. Networks and parenclitic networks

28 de 54

•El siguiente paso es crear una red para cada nuevo sujeto (o transacción). Para ello, proyectamos el valor obtenido de cada par de características de este nuevo sujeto en el plano i-j correspondiente, y calculamos “su distancia” a la recta que ajusta los datos anteriores en el plano i-j: v v v

ij ij ij i je a b t t= + −•Es decir, siendo los valores ti

y tj los de las correspondientes características I y j del nuevo individuo, sería razonable que si está sano (es una transacción lícita) el valor de esa distancia fuese cero o un valor muy pequeño.

4. Networks and parenclitic networks

29 de 54

•Construimos ahora la red compleja asociada al nuevo individuo, en la que las características “i” y “j” estarán unidas por la arista que tendrá como peso asociado a o, si se prefiere, por un valor que represente de una manera más fidedigna dicha anormalidad, como por ejemplo:

vije

•Ahora se puede construir una red (que ya no será completa) estableciendo un umbral sobre los pesos de las aristas. Por ejemplo, si el peso es inferior a 0.5 la arista se elimina de la red que representa a la nueva transacción (o individuo), y si es superior a dicho valor, permanece.

vij ij

ijij

eZ

εσ−

=

4. Networks and parenclitic networks

30 de 54

•La “anormalidad” del individuo (o transacción) respecto del grupo patrón viene representada por esa red.

4. Networks and parenclitic networks

31 de 54

•El análisis de la estructura (topología) de la red obtenida nos proporciona información relevante: Por una parte, si los datos corresponden a una PERSONA SALUDABLE (TRANSACCIÓN LÍCITA), es esperable que cada par de valores correspondientes a las características estén próximas a los valores de los correspondientes ajustes lineales obtenidos para el grupo de control.

•Por consiguiente, la red correspondiente a este sujeto (transacción) tendrá pocas aristas, más debidas al “ruido” en la medida que a una diferencia propiamente dicha, y por consiguiente, nos dará una topología aleatoria (random).

4. Networks and parenclitic networks

32 de 54

•Por el contrario, si la PERSONA ESTÁ ENFERMA (o se trata de una transacción ILÍCITA) obtendremos valores anormales en algunas de estas relaciones; las topologías resultantes serán fácilmente identificables por un nº anormalmente alto de aristas, y por estructuras “tipo estrella”, cuyos centros señalarán las características responsables de la enfermedad.

•La topología de la red se puede estudiar también a partir de parámetros globales de la misma: densidad de aristas, clustering coefficient, ….

4. Networks and parenclitic networks

33 de 54

Extraido del artículo de M. Zanin et al “ Knowledge Discovery in Spectral Data by Means of Co mplex Networks”Metabolites 2013, 3(1), 155-167; doi:10.3390/metabo3010155

34 de 54

Meta-Networks

35 de 54

5. Meta-Networks

Transacciones fraudulentas•Bajo número de características: El número de parámetros disponiblespara describir cada transacción es muy bajo, menor de 10.

•Presencia de relaciones de orden superior

Desarrollo de la metodología de meta-redes

36 de 54

5. Meta-Networks

Meta

META-REDES:

¿Cómo añadir nuevos links para mejorar la capacidad de predicción?

VER VIDEO

37 de 54

Rationale for binning:

•Low-weighted links do not represent significant facts•Reduction of noise•Reduced computational cost

5. Meta-Networks

38 de 54

• Selección del umbral para binarizar• 45% de links más fuertes (binarizamos con ellos)

5. Meta-Networks

Medimos:

39 de 54

Multiple instances (subjects)

5. Meta-Networks

40 de 54

5. Meta-Networks

1/40

03/4

Multiple instances (subjects)

41 de 54

New subject

5. Meta-Networks

42 de 54

-En este punto: Medidas estructurales sobre la red (grado,…) para clasificar.

- Selección de métricas por fuerza bruta o por “feature selection” (tendremos una por cada dimensión).

- Algoritmos de clasificación estándar para obtener una única métrica (varios procedimientos).

5. Meta-Networks

43 de 54

Matriz pesada (148x148 sensores) de correlaciones en tre pares de nodos (sensores) (ejemplo de persona con formación superior).

44 de 54

Matriz (binarizada) 148x148 sensores) de correlacione s entre pares de nodos (sensores) (pares de sensores con correlación signi ficativa)

45 de 54

Red binarizada representada (red funcional asociadaA la tarea) (representación binarizada)Pesada-> binarizada-> matriz de adyacencia-> rep. sim ple

46 de 54

47 de 54

links que han participado en una clasificacion dece nte

48 de 54

• Datos de magnetoencefalografia, 148 sensores,

• Miden el campo magnético generado por las neuronas al resolver ciertos problemas (tarea de memoria: 5 letras, te van presentando letras y tienes que presionar un botón cuando aparece una de las 5 Iniciales.

• Ante una única aparición de una de las 5 letras, cuales sensores se activan. Queda grabado cuando la persona esta procesando (va a dar al botón).

49 de 54

•Los dos grupos de personas son sanos, pero en el primer grupo son personas mayores con estudios superiores, y el otro personas mayores sin estudios superiores.

• HIPÓTESIS: Reserva cognitiva si ha ido a la universidad.

Enfermedad neurodegenerativa-> a la enfermedad le cuesta atacarte (pero es una hípótesis).

Los datos muestran que efectivamente existeuna reserva cognitiva.

50 de 54

Aplicación al fraude con tarjetas

51 de 54

6. Aplicación al fraude con tarjetas

1. Tiempo entre transacciones2. Dinero3. Tipo de tarjeta (crédito, débito)4. nº de operaciones/mes del usuario de la tarjeta5. Gastos mensuales del usuario de la tarjeta6. Tipo de tienda o comercio7. Tipo de autorización (firma/pin)8. Si es “on line”.

• Ubicación geográfica.

Número limitado de variables significativas:

52 de 54

6. Aplicación al fraude con tarjetas

Aplicación de meta-redes a datos de fraude

Para el análisis de cada transacción, serán realizados los siguientes pasos :

1. Creación de una red parenclítica para cada operación disponible;2. Creación de una meta-red desde cada red parenclítica;3. Extracción de métricas topológicas;4. Aplicación de algoritmos de data mining para la creación de un modelo predictivo.

Resultado: Descripción del modelo predictivo, y de su eficiencia.

53 de 54

OTRAS PUBLICACIONES PREVISTAS

• Mejora de los modelos existentes de “Money flow”.

• Meta-redes: Paper teórico y aplicación a detección precoz de enfermedades.

• Meta-redes: Aplicación a datos de fraude. Descripción del modelo predictivo y de su eficiencia.

• Data-set público: principales características (previa anonimización)