Ponència 'Datos masivos y aprendizaje automático...

43
DATOS MASIVOS Y APRENDIZAJE AUTOMÁTICO CONCEPTOS Y APLICACIONES EN JUSTICIA Ricardo Baeza-Yates NTENT & UPF

Transcript of Ponència 'Datos masivos y aprendizaje automático...

Page 1: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

C

DATOS MASIVOS Y APRENDIZAJE AUTOMÁTICO

CONCEPTOS Y APLICACIONES

EN JUSTICIA

Ricardo Baeza-Yates

NTENT & UPF

Page 2: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

AGENDA

• Big Data y Aprendizaje Automático

• Oportunidades• Desafíos

• Ruido y spam• Sesgos y más sesgos• Escasez: la cola alargada • Privacidad• Ética y legalidad

• Aplicaciones en la justicia• Caso de estudio: Fianzas en NY• Epílogo

Page 3: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Datos Masivos (Big Data)

§ Capturar, transferir, almacenar, buscar, compartir, analizar y visualizar grandes cantidades de datos en un tiemporazonable

§ Gran volumen y crecimiento§ De petabytes a exabytes § Mayoría de datos semi o no estructurados

frente a datos estructurados§ Diversidad

§ Tipos, formatos, complejidad, temas, etc.

3

Page 4: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Big Data: 5 “V”

6

Cualidad Problema de datos

Problema de computación

Problemahumano

Volumen Escala,Redundancia

Escalabilidad Sobrecarga de Información

Variedad Heterogeneidad,Complejidad

Adaptabilidad,Extensibilidad

Complejidad

Veracidad Exhaustividad, Sesgo, Escasez, Ruido, Spam

Fiabilidad,Confianza

Sesgo, Escasez, Ruido, Spam

Velocidad Tiempo real En línea Sobrecarga de Información

Valor Utilidad,Privacidad

Depende del objetivo

Privacidad,Ética y legalidad

Page 5: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Oportunidades

§ Decisiones verdaderamente basadas en datos§ Optimización global§ Aprender, predecir, prescribir§ (Tus) datos personales§ ….....

7

4-traders.com

Page 6: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Aprendizaje Automático

• La inteligencia artificial ha vuelto

• ¿Por qué?• Más datos (Big Data)• Más capacidad de

procesamiento(GPUs, TPUs)• Aprendizaje profundo (redes

neuronales de muchas capas)

• Aplicaciones en todas partes• Economía compartida• Coches sin conductor• Salud personalizada• Robots mejorados• …..

9

Page 7: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Una Pregunta Social

AlgoritmoDatoscon

problemas¿Neutral?

¿Justo?

Mismosproblemas

Page 8: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

¿Qué Significa Ser Justo?

Page 9: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

La Percepción de Justicia

Ingeniería en Universidad de Chile4000 estudiantes20% mujeres800 al año Acción afirmativa: 5% final sólo mujeresà Equidad social, injusticia individualDespués de 5 años à 25%

Diferencia: 1 sola pregunta más correcta de matemáticas

Resultado: 32% de mujeres

Page 10: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Declaración de ACM en 2017 sobre la Transparencia y Responsabilidad de los Algoritmos

1. Conscientes2. Acceso y corrección3. Responsables (Accountability)4. Interpretables5. Procedencia de los datos6. Auditables7. Validables y comprobables

No necesitan ser perfectos, sólo mejores que nosotros

Page 11: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Ruido y “Spam”

• El ruido puede provenir de muchas fuentes:§ Instrumentos de medición (IoT)§ El modo de interpretar los datos

§ Spam está en todas partes

§ La sabiduría de la multitud puede mitigar ambos problemas (J. Surowiecki, 2004)

§ ¿Qué hacemos cuando la mayoría está mal?

15

Page 12: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Redundancia y sesgo

§ ¿Existen dependencias entre los datos?§ Si es así, las características que discriminan se

pueden inferir§ ¿Existen duplicados?

§ Si es así, los resultados serán sesgados§ Duplicación semántica es más difícil de detectar

§ ¿Existen sesgos? ¡muchos!§ Género (caso de “la manada”)§ Económico (empresarios vs. pobres)§ Clase/Político (Urdangarin vs. Valtonyc)§ Racial (no sólo en EE.UU.)

16

Page 13: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,
Page 14: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,
Page 15: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,
Page 16: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,
Page 17: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Sesgo de Género

Page 18: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Sesgo de Género

[E. Graells-Garrido et al,. “First Women, Second Sex: Gender Bias in Wikipedia”. ACM Hypertext’15]

Page 19: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Sesgo de Actividad: ¿Sabiduría de unos pocos?

[Baeza-Yates & Saez-Trumper, ACM Hypertext 2015]

¿Que porcentaje de usuarios activos genera la mitad del contenido?

Page 20: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Empresas

Datos

DatosMasivos

Datos normales/pequeños

Escasez: La Cola Alargada de Datos

Page 21: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Potenciación de la Escasez

La “Burbuja de filtros”, Eli Pariser• Evitar el síndrome que aumenta la pobreza

de los que ya son pobres• Evitar el “EFECTO TUNEL” • ¿Cómo exponer visiones opuestas?

35

Soluciones:• Diversidad• Novedad• Serendipia• Vertiente opuesta

Page 22: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

• La distribución de cola alargada (long tail) no es sólo importante para el comercio electrónico, sino porque todos nosotros estamos representados en ella

• Personalización frente a ContextualizaciónRecordar que la interacción de los usuarios también se ajusta a un modelo de distribución de cola alargada

Personas

Agregación en la Cola Alargada

Tareas

Page 23: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Ejemplo: de Fotos a Regiones

[Thomee et al, Demo at CHI 2014]

Page 24: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Riesgos para la Privacidad

• El código postal, la fecha de nacimiento y el género son suficientes para identificar al 87% de los ciudadanos estadounidenses que utilizan bases de datos públicas [Sweeney, 2001]• K-anonimato [Sweeney, 2001]

Elimina o generaliza los atributos hasta que todas las entradas sean IDÉNTICAS al menos a otras (k-1) entradas

• La Comisión Federal de Comercio de los EE.UU.: las políticas de privacidad deben “gestionar la propia recopilación de datos y no solo el uso que se haga de ellos” (2010)• Directiva de protección de datos en la UE (GDPR)

40

Page 25: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Incidente de AOL

• El usuario número 4417749 realizó cientos de búsquedas en tres meses sobre temas que iban desde «dedos entumecidos” a «hombres solteros De 60 años”.

• Otras consultas: “paisajistas en Lilburn, Ga,” varias consultas personas sobre personas cuyo apellido era Arnold y “viviendas vendidas en Shadow Lake, Condado de Awinnett, Georgia.”

• Estos datos fueron suficientes para identificar a ThelmaArnold, una viuda de 62 años que vivía en Lilburn, Ga., que realizaba frecuentes búsquedas sobre los problemas médicos de sus amigos y que ama a sus tres perros.

A Face Is Exposed for AOL Searcher No. 4417749*, Por MICHAEL BARBARO y TOM ZELLER Jr, The New York Times, 9 de Agosto de 2006

41

*Se desvela la cara de la buscadora de AOL número 4417749

Page 26: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Riesgos de Privacidad: Consultas

• PERFIL: [Jones, Kumar, Pang, Tompkins, CIKM 2007]• Género: 84 %• Edad (±10): 79 %• Ubicación (Cód. Postal): 35 %

• CONSULTAS VANIDOSAS: [Jones et al, CIKM 2008]• Nombre parcial: 8,9 %• Nombre completo: 1,2 %

Page 27: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Riesgos de Privacidad: Juegos

Privacy Project: New York Times, Diciembre 2019

Page 28: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Ética y Legalidad• El retorno de la Frenología• Predicción de criminales usando caras (Shanghái, 2016)• Predicción de homosexualidad (Stanford, 2017)

• Video vigilancia y reconocimiento facial• Corte francesa detiene iniciativa de una región para

video monitorizar dos escuelas secundarias (2020)• Competencia• Consentimiento• Proporcionalidad

• Armas automatizadas• España es uno de los 11 países

que se niega a prohibirlas• Artículo 22 de GDPR• ¿Podemos llegar a consenso?

45

Page 29: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Aplicaciones en la Justicia§ COMPAS (Northpointe): Perfilación de criminales§ creado para apoyar, no para sentenciar§ Datos: criminales, estilo de vida, personalidad,

familia & sociales§ Propublica (2016):

§ sesgo racial de 2 a 1§ 80% error en crímenes violentos y 37% en general (2 años)§ Discriminación de pobres – Bearden vs. georgia§ Inconsistencia en predicciones

§ ¿Es un algoritmo secreto ético?

47

Page 30: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

§ Gotham & others (Palantir)§ Perfilador de criminales§ Los Angeles (2009) – vía fundación policíaca§ Nueva york (2011) – nunca aprobado por el

concejo§ Nueva Orleans (2012) – secreto hasta 2014 § Dinamarca (2016)§ Un error y una persona pasa a ser

discriminada§ PSA (Laura & John Arnold Foundation):

§ Medición de seguridad pública49

Aplicaciones en la Justicia

Page 31: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

§ Predpol (Chicago & IIT)§ Otro perfilador de criminales§ Sesgo geográfico – círculo vicioso

50

Aplicaciones en la Justicia

Page 32: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Análisis de la Justicia

§ Predicción de violencia doméstica§ Jueces: 80%, algoritmo: 90%

§ Predicción de asilo para refugiados§ Exactitud del 82%§ Sólo 1/3 depende de información del caso

§ Predicción de consenso en apelaciones§ 50% depende del caso y 50% de la persona

§ Predicción de sentencias (casi 70%)§ Fotos del proceso (+1.8%)§ Audio del proceso (+2.0%)

52

Page 33: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Caso de Estudio: Fianzas

53

Acusado/a ¿Fianza?

Si y paga¿Reincide?¿Se presenta al juicio?

No

Juicio

Cárcel

Si y no puede pagar

No sabemos que habría pasado si no

hubiera ido a la cárcel

Page 34: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Decisiones humanas vs. Predicciones artificiales

§ Casi 760 mil datos de Nueva York (2008 a 2013)

§ Se podría decrecer la tasa criminal en 24.7% manteniendo la tasa de cárcel o

§ Se podría decrecer la tasa de cárcel en 41.9% manteniendo la misma tasa criminal

§ Los jueces dejan libres al 49% del 1% de los criminales más peligrosos que no se presentan en un 56% y reinciden en un 62% de los casos

[Kleinberg et al, JQE, 237—293, 2018]

Page 35: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Datos y metodología

55

Page 36: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Algoritmo y Variables

56

§ GBDT: Arboles de decisión avanzados§ Variables (18):

§ Edad§ Delito actual y su nivel

§ Arma de fuego§ Drogas

§ Delitos históricos y su nivel§ Arma de fuego§ Arrestos§ No aparición en el juicio§ Penas de cárcel

Page 37: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

¿Cuál es la diferencia?

58

Page 38: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Discriminación Racial

62

Page 39: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Los Algoritmos no tienen Ruido

63

Page 40: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

Dilema

¿Un algoritmo con sesgo o

un/a juez/a con ruido?

64

Page 41: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

è 61 analistas, 29 equipos: 20 si y 9 no (Univ. of Virginia, COS)

Es Difícil Obtener la Verdad a Partir de los Datos (Sesgo Profesional)

Page 42: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

El Futuro• Sistema más integrado• Sin privacidad• Grados en ciencia de datos• Algoritmos transparentes• Decisiones humanas con apoyo de IA• Seguros de software• Ética para robots• Medicina personalizada• Trabajadores del conocimiento remotos• Humanidad aumentada

• Por ahora el cambio tecnológico sigue siendo bueno

• Pero ¿evolucionará hacia algo como Solaria? (el sol desnudo, Asimov)

• ¡Si existen extraterrestres agradables ahí fuera, que vengan pronto, por favor!

Page 43: Ponència 'Datos masivos y aprendizaje automático ...cejfe.gencat.cat/web/.content/home/formacio/gestcon/altres_activitats/45egc_baeza.pdfDatos Masivos (Big Data) §Capturar, transferir,

¿Preguntas?

Recuerde, lo importante son los datos correctos!

Agradecimientos:• Rubén Egote• Francesc Caminal

“Las personas más fácilde manipular son aquellasque creen que no pueden ser manipuladas” (Harari)