Post on 25-Mar-2020
Copyright © SAS Inst itute Inc. A l l r ights reserved.
El camino quecomenzando en la Estadísticapasa por la Minería de Datosy llega a la Inteligencia Artificial
Sergio Uassouf
▪ Explíqueme como lo hace
▪ Muéstreme como funciona
Vacuna contra el humoSi piensas que los usuarios de tus programas son unos idiotas,
sólo los idiotas usarán tus programas (Linus Torvalds, creador del Linux)
Todo lo que le contaré es verdad,pero en 45 minutos no puedo contarle toda la verdad
Mi Objetivo Personal
❑ Desde los inicios de la informática un computador, ya sea personal o empresarial está compuesto de 3 componentes principales.
MEMORIA
UNIDADES DEALMACENAMIENTO
UNIDADES DEPROCESAMIENTO
Comienzo de los Tiempos Informáticos
Disk
RAM
CPU CPU
Alan Turing1912-1954
John Von Neumann1903-1957
❑ Desde los inicios de la informática un computador, ya sea personal o empresarial está compuesto de 3 componentes principales.
MEMORIA
UNIDADES DEALMACENAMIENTO
UNIDADES DEPROCESAMIENTO
Comienzo de los Tiempos Informáticos
Disk
RAM
CPU CPU
NANOSEGUNDOS,PERO SE BORRA
MILISEGUNDOS,PERO NO SE BORRA
IF-THEN-ELSE
¡¡¡ HAGAMOSLEUN MERECIDOHOMENAJE !!!
Sistemas Distribuidos => ¡¡¡ Networking !!!
❑ Un modelo determinístico arroja un único resultado para un conjunto de variables de entrada determinado.
La batalla de la decisión¿Determinístico o Probabilístico?
❑ Un modelo probabilístico arroja un conjunto de resultados posibles indicando la probabilidad de ocurrencia de cada resultado.
La batalla de la decisión¿Determinístico o Probabilístico?
Nacimiento de la EstadísticaGodofredo Achenwall
Elbing, Prusia Oriental(1719-1772)
Principales Técnicas AnalíticasComienzo de la Historia: Estadística - Regresiones
Y = X2
Principales Técnicas AnalíticasComienzo de la Historia: Estadística - Regresiones
Y = X + 3
Principales Técnicas AnalíticasComienzo de la Historia: Estadística - Regresiones
Por ejemplo…
¿Cómo se relacionan la edad, el
género, el estado civil, el lugar de
residencia, los ingresos, la profesión, ….
Con la propensión a que
▪ Acepten la oferta de mi producto…
▪ Estén por irse de mi empresa…
▪ Estén cometiendo fraudes…
▪ Estén lavando dinero.
Principales Técnicas AnalíticasComienzo de la Historia: Estadística - Regresiones
1 unit
units
Response
(Y)
Predictor (X)
❑ La respuesta o variable
dependiente (Y) es la variable
que se quiere predecir.
❑ Los predictores o variables
independientes (X) explican la
variación de la respuesta.
Encuentra la función que relaciona valores que conocemos
(variable independiente o predictor) con los valores que
estamos buscando (variable dependiente o respuesta).
Principales Técnicas AnalíticasComienzo de la Historia: Estadística - Regresiones
X
X
*
**
*
**
** *
*
*
*
*
Y
*
**
*
2
1
❑ Considere el modelo de dos
variables Y = 0 + 1X1 + 2X2 +
❑ Donde Y es la respuesta o variable
dependiente.
❑ X1 y X2 son los predictores o
variables independientes.
❑ 0, 1, 2 son los párámetros a
determinar.
❑ es el término de error.
Inteligencia - Definiciones
▪ El origen etimológico del
concepto de inteligencia hace
referencia a quien sabe elegir: la
inteligencia posibilita la selección
de las alternativas más
convenientes para la resolución
de un problema.
▪ Capacidad de generar
información nueva combinando
la que recibimos del exterior con
aquella de la que disponemos en
nuestra memoria.
▪ Descripción de tipos de
inteligencia múltiples (por temas).
▪ Capacidad que tenemos los seres
humanos para adaptarnos con éxito a los cambios que van
apareciendo en nuestro entorno.
▪ Habilidad para juzgar bien, para comprender bien y para razonar
bien.
▪ Repertorio completo de
habilidades, conocimientos,
sistemas de aprendizaje
considerados de naturaleza
intelectual.
Inteligencia ArtificialDefinición… ¿¿¿Hmmmm???
▪ Construcción de
sistemas que puedan
ejecutar tareas
propias de seres
humanos en forma inteligente.
▪ Construcción de
sistemas que puedenpensar y actuar como
humanos.
Inteligencia Artificial: ¿Porqué renace ahora?De la biblioteca de mi juventud
Inteligencia Artificial: ¿Porqué renace ahora?De la biblioteca de mi juventud
Inteligencia Artificial: ¿Porqué renace ahora?Ley de Moore
22 cores
1,54 TB RAM
Disk
CPUCPU
RAM
Disk
RAM
CPUCPU
Disk
RAM
CPU CPU
Disk
RAM
CPU CPU
Disk
RAM
CPU CPU
Disk
RAM
CPU CPU
Disk
RAM
CPU CPU
Disk
RAM
CPU CPU
Inteligencia Artificial: ¿Porqué renace ahora?Big Data = Procesamiento Masivamente Paralelo
❑ 1024 bytes = 1 Kilobyte
❑ 1024 KB = 1 Megabyte
❑ 1024 MB = 1 Gigabyte
❑ 1024 GB = 1 Terabyte
❑ 1024 TB = 1 Petabyte
❑ 1024 PB = 1 Exabyte
❑ 1024 EB = 1 Zettabyte
❑ 1024 ZB = 1 Yottabyte
❑ 1 YB = 1024 bytes
❑ Una página = 2000 caracteres / bytes
❑ Novela de 400 páginas ≈ 1 MB.
❑ 1 TB = 1.000.000 libros(o 200 películas)
❑ Cada libro 23 x 14 x 3 cms ≈ 1000 cm3
❑ 1.000.000 libros = 1000 mts3 o sea un cubo de 10 mts de lado
Big Data - ¿Cuánto Espacio Físico Ocupa 1 PB?
De la Estadística a la Minería de Datos yla Inteligencia Artificial: Árboles de Decisión
De la Estadística a la Minería de Datos yla Inteligencia Artificial: Árboles de Decisión
De la Estadística a la Minería de Datos yla Inteligencia Artificial: Árboles de Decisión
De la Estadística a la Minería de Datos yla Inteligencia Artificial: Árboles de Decisión
❑ Cada rama del árbolrepresenta una elecciónentre alternativas.
❑ Cada hoja representa unaclasificación o decisión.
❑ Por ejemplo, si debemosdecidir si a una persona le ofrecemos o no un crédito.
Inteligencia Artificiales la ciencia de entrenar sistemas para
emular tareas humanas medianteel Aprendizaje y la Automatización
Entenderel Contexto
Aprender Patrones InterpretarLenguaje e Imágenes
Machine Learninges la ciencia de crear sistemas que
aprenden de los datos con algoritmos de aprendizaje que iteran hasta lograr una
aproximación satisfactoria…
Entenderel Contexto
Aprender Patrones InterpretarLenguaje e Imágenes
Machine Learning…en otras palabras, el programa esconstruído automáticamente por el
algoritmo de aprendizaje
Entenderel Contexto
Aprender Patrones InterpretarLenguaje e Imágenes
De la Minería de Datos a la Inteligencia ArtificialMachine Learning ≈ Redes Neuronales
Nuestra dificultad para entender el funcionamiento del cerebroradica en que para hacerlo utilizamos el mismo cerebro
Inteligencia ArtificialMachine Learning ≈ Redes Neuronales
NIVEL SALARIAL
OCUPACION
SALDO
PROMEDIO
Nivel Salarial = 0,3; Saldo Promedio = 0,2; Ocupación = 0,9 → Buen pagador
0,3
0,9
0,2
Inteligencia ArtificialMachine Learning ≈ Redes Neuronales
NIVEL SALARIAL
OCUPACION
SALDO
PROMEDIO
0,3
0,2
0,9
Nivel Salarial = 0,3; Saldo Promedio = 0,2; Ocupación = 0,9 → Buen pagador
Inteligencia ArtificialMachine Learning ≈ Redes Neuronales
NIVEL SALARIAL
OCUPACION
SALDO
PROMEDIO
Nivel Salarial = 0,2; Saldo Promedio = 0,2; Ocupación = 0,5 → Mal pagador
0,2
0,5
0,2
Inteligencia ArtificialMachine Learning ≈ Redes Neuronales
NIVEL SALARIAL
OCUPACION
SALDO
PROMEDIO
0,2
0,2
0,5
Nivel Salarial = 0,2; Saldo Promedio = 0,2; Ocupación = 0,5 → Mal pagador
https://mattmazur.com/2015/03/17/a-step-by-step-backpropagation-example/
Inteligencia ArtificialMachine Learning ≈ Redes Neuronales
NIVEL SALARIAL
OCUPACION
SALDO
PROMEDIO
0,5
0,7
0,3
Nivel Salarial = 0,5; Saldo Promedio = 0,3; Ocupación = 0,7
Inteligencia ArtificialMachine Learning ≈ Redes Neuronales
NIVEL SALARIAL
OCUPACION
SALDO
PROMEDIO
Nivel Salarial = 0,5; Saldo Promedio = 0,3; Ocupación = 0,7
0,7
0,3
0,5
Nivel Salarial = 0,5; Saldo Promedio = 0,3; Ocupación = 0,7 → Buen pagadorNivel Salarial = 0,5; Saldo Promedio = 0,3; Ocupación = 0,7 → Mal pagador
Inteligencia ArtificialDeep Learning ≈ Redes Neuronales de Varias Capas Ocultas
Company Conf ident ia l – For Internal Use OnlyCopyright © SAS Inst itute Inc. A l l r ights reserved.
Aprendizaje AutomatizaciónImágenes ¿Es usted?
Transacciones ¿Está cometiendo fraude?
Usuarios y Clientes ¿Necesita nuestros servicios?
Imágenes Médicas ¿Hay enfermedad?
Lenguajes ¿Qué está consultando?
Emails ¿Es un spam?
Inteligencia Artificial
Reconocimiento de Caracteres Manuscritos
Reconocimiento de Caracteres Manuscritos
Reconocimiento de Caracteres Manuscritos
Convolutional Neural Networks
(CNN)
Auto Encoder (AE)
Recurrent Neural Networks (RNN)
Deep FF Neural Network (DNN)
SAS Deep Learning – Tipos de Redes Neuronales
Recapitulando Principales Técnicas Analíticas
REGRESIONESARBOLES DE
DECISION
REDES
NEURONALES
Recapitulando Principales Técnicas Analíticas
❑ Velocidad de aplicación del modelo
❑ Velocidad de entrenamiento
❑ Tolerancia al ruido
❑ Explicabilidad
Programación por Código en Lenguaje SAS…
… O en el Lenguaje de su Preferencia
Programación Gráfica o Desarrollo Visual
Todos los lenguajes
Todas lasinterfaces
Histórico oen tiempo
real
On-Premise o en la Nube
No distribuido
o en paralelo
SAS Viya – Única Plataforma Analítica IntegralPara satisfacer las necesidades de todos los tipos de usuarios
Caso de Uso GeneralMensaje Electoral Personalizado
¿Cerramos la inmigración o la abrimos?
¿Economía de mercado o con intervención
estatal?
¿Acepta o rechaza la
interrupción del embarazo?
¿Represión o aceptación de
manifestaciones públicas?
¿Fútbol gratuito o pago?
¿Seguridad con tendencia
garantista o punitiva?
¿Promueve o rechaza los
planes asistenciales?
Caso de Uso GeneralMensaje Electoral Personalizado
¿Cerramos la inmigración o la abrimos?
¿Economía de mercado o con intervención
estatal?
¿Acepta o rechaza la
interrupción del embarazo?
¿Represión o aceptación de
manifestaciones públicas?
¿Fútbol gratuito o pago?
¿Seguridad con tendencia
garantista o punitiva?
¿Promueve o rechaza los
planes asistenciales?
Caso de Uso GeneralMensaje Electoral Personalizado
¿Cerramos la inmigración o la abrimos?
¿Economía de mercado o con intervención
estatal?
¿Acepta o rechaza la
interrupción del embarazo?
¿Represión o aceptación de
manifestaciones públicas?
¿Fútbol gratuito o pago?
¿Seguridad con tendencia
garantista o punitiva?
¿Promueve o rechaza los
planes asistenciales?
Casos de Uso Gubernamentales
“Obama y Trump usaron el Big Data para lavar cerebros”Por Martin Hilbert
http://www.theclinic.cl/2017/01/19/martin-hilbert-experto-redes-digitales-obama-trump-usaron-big-data-lavar-cerebros/
Teniendo entre 100 y 250 likes tuyos en Facebook, se puede predecir
tu orientación sexual, tu origen étnico, tus opiniones religiosas y
políticas, tu nivel de inteligencia y de felicidad, si usas drogas, si tus
papás son separados o no. Con 150 likes, los algoritmos pueden
predecir el resultado de tu test de personalidad mejor que tu pareja.
Y con 250 likes, mejor que tú mismo.
Sin escuchar tus conversaciones ni saber con quién hablas, sino sólo
con qué frecuencia y con qué duración usas tu celular, se puede hacer
ingeniería reversa y reproducir el 85% de tus resultados de un censo:
si eres hombre o mujer, cuál es tu rango de ingresos, si tienes niños, si
estás casado, tu origen étnico.
Casos de Uso GubernamentalesCenso Poblacional
Para despedirme permitame decirle que…
Todo lo que le conté es estrictamente cierto,
Puede encarar todo (casi todo) tipo de problemasque su creatividad imagine,
Pero es un tanto más complejoque lo que pude explicar en estos pocos minutos.
Company Conf ident ia l – For Internal Use OnlyCopyright © SAS Inst itute Inc. A l l r ights reserved.
QUEDAMOS A SU DISPOSICIONPARA BRINDARLE
EXPLICACION O DEMO EN SU EMPRESA
PRUEBAS DE CONCEPTO
SAS Video Portal / SAS Free Software Trials
sergio.uassouf@sas.com SAS El Rincón del Dinosaurio
❑ Un byte = 8 bits; Una letra ocupa un byte
Big Data: ¿Cuan grande tiene que serlo grande para ser grande?
❑ C o r o01000011 01101111 01110010 01101111 00100000
❑ C u m p a01000011 01110101 01101101 01110000 01100001
❑ Una letra ocupa un byte.
❑ "Una manzana grande y roja" ocupa 24 bytes.
❑ Cada pixel ocupa 3 bytes.
"Una imagen vale más que mil palabras"
¡Hmmmm!
❑ La imagen de la manzana grande y roja ocupa 1000000 bytes = 1 MB.
Big Data: ¿Cuan grande tiene que serlo grande para ser grande?
Pero ocupa 40.000 veces más espacio
(si está en baja definición, si no ocupa mucho más)
❑ 1024 bytes = 1 Kilobyte
❑ 1024 KB = 1 Megabyte
❑ 1024 MB = 1 Gigabyte
❑ 1024 GB = 1 Terabyte
❑ 1024 TB = 1 Petabyte
❑ 1024 PB = 1 Exabyte
❑ 1024 EB = 1 Zettabyte
❑ 1024 ZB = 1 Yottabyte
❑ 1 YB = 1024 bytes
❑ Una página = 2000 caracteres / bytes
❑ Novela de 400 páginas ≈ 1 MB.
❑ 1 TB = 1.000.000 libros(o 200 películas)
❑ Cada libro 23 x 14 x 3 cms ≈ 1000 cm3
❑ 1.000.000 libros = 1000 mts3 o sea un cubo de 10 mts de lado
Big Data: ¿Cuan grande tiene que serlo grande para ser grande?
❑ 1024 bytes = 1 Kilobyte
❑ 1024 KB = 1 Megabyte
❑ 1024 MB = 1 Gigabyte
❑ 1024 GB = 1 Terabyte
❑ 1024 TB = 1 Petabyte
❑ 1024 PB = 1 Exabyte
❑ 1024 EB = 1 Zettabyte
❑ 1024 ZB = 1 Yottabyte
❑ 1 YB = 1024 bytes
❑ Una transacción de cajero automático o home banking = 200 bytes.
❑ 1 TB = 5.000.000.000 de transacciones
❑ Red Link + Banelco ejecutan aprox. 20.000.000 de transacciones por día
❑ 1 TB almacena 250 días de transacciones de Link y Banelco
Entonces... ¿Qué es Big Data?
Big Data: ¿Cuan grande tiene que serlo grande para ser grande?
Big Data: Definición "Estratégica" o de "Marketing"