1 Introduccion a La Mineria de Datos y KDD

49
 1 Unidad 1 Minería de Datos y Proceso de Descubrimiento del Conocimiento en Bases de Datos (KDD)

Transcript of 1 Introduccion a La Mineria de Datos y KDD

Page 1: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 1/49

 

1

Unidad 1

Minería de Datos y Procesode Descubrimiento del

Conocimiento en Bases deDatos (KDD)

Page 2: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 2/49

 

2

Dato Información Base de Datos: modelo relacional, SQL

 

Conceptos Importantes

•• InformaciónInformación –– comocomo recursorecurso dede lala organizaciónorganización::

Minería de Datos

Sistema de Informaci n (OLTP)

Dato InformaciónSistema OLTP

Base de Datos

Page 3: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 3/49

 

3

Conceptos Importantes

•• ConocimientoConocimiento –  – nuevonuevo recursorecurso dede lalaorganizaciónorganización:: Datos Internos (legacy systems) y Externos Conocimiento

 

Minería de Datos

Datos

ExternosConocimientoConocimientoConocimientoConocimientoMinería de Datos

Datos Internos

DWArchivosBDs

Data Warehouse: modelo multidimensional Nuevos Sistemas de Información (OLAP, DM, etc.)

 

Page 4: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 4/494

• Conocido también como descubrimiento de la

información, permite moverse a través de losconjuntos de datos para encontrar las tendencias,patrones y correlaciones que pueden guiar la toma

DefiniciónMinería de Datos

e ec s ones es ra g cas.• La idea es que el usuario inicie el proceso deminería de datos y espere el resultado final, el que

puede ser parcial o aproximado, y susceptible deser ajustado mediante una serie de consultasinteractivas.

 

Page 5: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 5/49 5

• Descubrimiento de nuevos modelos que

permitan predecir comportamiento futuro(modelos predictivos).

ObjetivosMinería de Datos

entenderlos mejor (modelos descriptivos).

• Verificación de una hipótesis referida a los límitesdel sistema.

 

Page 6: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 6/49 6

Minería de Datos

DatosPreparación

de Datos Algoritmo de

Minería de Datos

 Análisis deResultados

Comparación de la Minería “normal” y la de Datos

                   

Page 7: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 7/49 7

Minería de DatosMinería de DatosMinería de DatosMinería de Datos

Dirigida por el DescubrimientoDirigida por el DescubrimientoDirigida por el DescubrimientoDirigida por el DescubrimientoDirigida por laDirigida por la VerificaVerificaciónciónDirigida por laDirigida por la VerificaVerificaciónción

SQLSQLSQLSQL GeneradorGenerador SQLSQLGeneradorGenerador SQLSQL DescripDescripciónciónDescripDescripciónción PredicPrediccciióónnPredicPrediccciióónn

Taxonomía de las TécnicasMinería de Datos

Query ToolsQuery ToolsQuery ToolsQuery Tools

OLAPOLAPOLAPOLAP

ClasificaClasificacióciónnClasificaClasificacióciónn RegresiRegresióónn EstadísticaEstadísticaRegresiRegresióónn EstadísticaEstadística

Árbol deÁrbol de DecisiDecisiónónÁrbol deÁrbol de DecisiDecisiónón

Inducción deInducción de RReglaseglasInducción deInducción de RReglaseglas

RedesRedes NeurNeuronalesonalesRedesRedes NeurNeuronalesonales

SegmentaciónSegmentaciónSegmentaciónSegmentación

AsociAsociaciónaciónAsociAsociaciónación

AsociaciónAsociación SeSeccuenuenccialialAsociaciónAsociación SeSeccuenuenccialial

VisualizaVisualizacióciónnVisualizaVisualizacióciónn

 

Page 8: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 8/49 8

#Ej Sueldo Casado Coche Hijos Alq/Prop Sindic. Bajas/Año Antigüedad Sexo

1 10000 Sí No 0 Alquiler No 7 15 H

2 20000 No Sí 1 Alquiler Sí 3 3 M

3 15000 Sí Sí 2 Prop Sí 5 10 H

4 30000 Sí Sí 1 Alquiler No 15 7 M

5 10000 Sí Sí 0 Prop Sí 1 6 H

6 40000 No Sí 0 Al uiler Sí 3 16 M

Taxonomía de las Técnicas: ejemplo descriptivoMinería de Datos

7 25000 No No 0 Alquiler Sí 0 8 H8 20000 No Sí 0 Prop Sí 2 6 M

9 20000 Sí Sí 3 Prop No 7 5 H

10 30000 Sí Sí 2 Prop No 1 20 H

11 50000 No No 0 Alquiler No 2 12 M

12 8000 Sí Sí 2 Prop No 3 1 H

13 20000 No No 0 Alquiler No 27 5 M14 10000 No Sí 0 Alquiler Sí 0 7 H

15 8000 No Sí 0 Alquiler No 3 2 H

 

Page 9: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 9/49 9

cluster 1: 5 examplesSueldo : 22600Casado : No -> 0.8

Sí -> 0.2Coche : No -> 0.8

Sí -> 0.2 

cluster 2: 4 examplesSueldo : 22500Casado : No -> 1.0Coche : Sí -> 1.0Hijos : 0

 Alq/Prop :-

cluster 3: 6 examplesSueldo : 18833Casado : Sí -> 1.0Coche : Sí -> 1.0Hijos : 2 Alq/Prop :

-

Taxonomía de las Técnicas: ejemplo descriptivo(2)

Minería de Datos

9

 

 Alq/Prop : Alquiler -> 1.0Sindic. : No -> 0.8Sí -> 0.2

Bajas/Año : 8 Antigüedad : 8Sexo : H -> 0.6

M -> 0.4

.

Prop -> 0.25Sindic. : Sí -> 1.0Bajas/Año : 2

 Antigüedad : 8Sexo : H -> 0.25

M -> 0.75

.

Prop -> 0.83Sindic. : No -> 0.67Sí -> 0.33

Bajas/Año : 5 Antigüedad : 8Sexo : H -> 0.83

M -> 0.17

• GRUPO 1: Sin hijos y de alquiler. Poco sindicalizados. Muchas bajas.• GRUPO 2: Sin hijos y con coche. Muy sindicalizados. Pocas bajas. Normalmente de alquiler y muje

• GRUPO 3: Con hijos, casados y con coche. Propietarios. Poco sindicados. Hombres.

 

Page 10: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 10/4910

Taxonomía de las Técnicas: ejemplo predictivoMinería de Datos

 

Page 11: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 11/49 11

Ejemplo:• Cierto número de pacientes sufren la misma

enfermedad, pero se tratan con un abanico demedicamentos.

Minería de DatosUn breve ejemplo…

• Cinco medicamentos diferentes estándisponibles, y dichos pacientes han respondidode manera distinta a ellos.

• Pregunta: ¿qué medicamento es apropiado paraun nuevo paciente?.

 

Page 12: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 12/4912

Primer Paso: ACCEDIENDO LOS DATOS• Se leen los datos, por ejemplo de un archivo condelimitadores.• Se nombran los campos

Minería de DatosUn breve ejemplo…

• Se pueden combinar los datos; por ejemploañadiendo un nuevo atributo llamado Na/K.age edad

sex sexo

BP presión sanguínea (High, Normal, Low)Cholesterol colesterol (Normal, High)

Na concentración de sodio en la sangre.

K concentración de potasio en la sangre.

drug medicamento al cual el paciente respondió

satisfactoriamente.

 

Page 13: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 13/4913

Segundo Paso: FAMILIARIZACIÓN CON LOSDATOS• Los datos sevisualizan…

Minería de DatosUn breve ejemplo…

 

Page 14: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 14/4914

• …para seleccionar campos o filtrar los datos.• …para ver propiedades de los datos. Por

ejemplo, la proporción de casos respondió acada medicamento.

Minería de DatosUn breve ejemplo…

 

Page 15: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 15/49

15

•…para encontrar relaciones. Por ejemplo, larelación entre sodio y potasio se muestra en ungráfico de puntos.

Minería de DatosUn breve ejemplo…

• Se puede observar que pacientes con altocuociente Na/K responden mejor almedicamento Y.

 

Page 16: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 16/49

16

Tercer Paso: CONSTRUCCIÓN DEL MODELO

• Se filtran los camposno deseados.•

Minería de DatosUn breve ejemplo…

para los atributos.• Se genera un flujo detrabajo, para terminar

en el modelo deseado.

 

Page 17: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 17/49

17

• …y la herramienta entrega sus resultados.

Las reglas extiendenel mismo criterio que

Minería de DatosUn breve ejemplo…

previamente, o sea,el medicamento Y  esrecomendable para

los pacientes con altocuociente Na/K. Perose añaden nuevasreglas al resto.

 

Page 18: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 18/49

18

• Realidad actual nuevas necesidades en elanálisis de grandes volúmenes de datos.• Tanto la cantidad como la variedad de los datos

almacenados en bases de datos aumenta constante-

Proceso KDD

men e.• Una parte importante de dichos datos considera

información histórica (memoria histórica, útil parapredecir información futura).

• Análisis estadístico tradicional no escala bien, a

grandes volúmenes de datos.

 

Page 19: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 19/49

19

Proceso KDD• Es el proceso de usar la base de datos enconjunto con cualquier selección, proprocesa-miento, sub-muestreo , y transformaciones de ella;para aplicar métodos (algoritmos) de minería de

datos y enumerar patrones desde ella; y paraevaluar los productos de la minería de datos queidentifican el subconjunto de patrones enumeradosque llegarán a ser el “conocimiento”.

 

Page 20: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 20/49

20

• KDD nace como interfaz y se nutre de diferentesdisciplinas:• Estadística

Relación con otras DisciplinasProceso KDD

20

• ases e atos.• Inteligencia artificial (aprendizaje automático)

• visualización de datos.

• computación paralela / distribuida.• interfaces usuarias

 

Page 21: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 21/49

21

Proceso KDD

 

Page 22: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 22/49

22

Proceso KDD• El descubrimiento de conocimiento puede ser:

• de Descripción: patrones para explicar lo quesucede en un formato entendible por el serhumano.

• de Predicción: patrones para predecircomportamientos futuros.

 

Page 23: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 23/49

23

Proceso KDD

 

Page 24: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 24/49

24

Proceso KDD1) Desarrollar un entendimiento del dominio de la

aplicación, y el conocimiento previo relevante, eidentificar el objetivo del proceso KDD desde laperspectiva del cliente.

2) Crear un conjunto de datos objetivo:seleccionando un conjunto de datos, oenfocándose sobre un conjunto de variables omuestras de datos, sobre el cual el descubrimientodeberá hacerse.

 

Page 25: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 25/49

25

Proceso KDD3) Limpiar los datos y Preprocesarlos: operaciones

básicas como eliminar del ruido; recolectar de lainformación necesaria para modelar o contabilizarel ruido; decidir sobre estrategias para manejar

campos de datos perdidos; contabilizar lainformación en las secuencias de tiempo ycambios.

 

Page 26: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 26/49

26

12M65431

12-m-65421

 “12m65421” 

 “12m65421” 

 “ ” 

12M65431

códigodel país

zona deventas

número deproducto

código devendedor

Código de producto = 12M65431345

h , m

cm

inches

1,000 GBP

FF 9,990

f , m

hombre, mujer

alumno(RUT, nombre, dirección, carrera)

vs.

alumno(RUT, nombre, calle, número, ciudad, carrera)

 

Page 27: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 27/49

27

Proceso KDD4) Reducir los datos y Proyectarlos: encontrar

características útiles para representar los datosdependiendo de los objetivos del trabajo. Usarmétodos de transformación o de reducción de la

multidimensionalidad, para disminuir el númeroefectivo de variables bajo consideración o bien,encontrar representaciones invariantes de losdatos.

12

3 4      T      b    c    o .

      C      l    s     t    r      l .

      T    n    s    n .

      O      b    s      d .

      A      l    c      l .

      P    r    c      d .

      S     t    r    s    s

      R    s    g

S1

S3

S5

S7

S9

S11

S13

Factores

Casos

 

Page 28: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 28/49

28

Proceso KDD5) Crear un conjunto de datos objetivo: selec-

cionando un conjunto de datos, o enfocándosesobre un conjunto de variables o muestras dedatos, sobre el cual el descubrimiento deberá

hacerse.

 

Page 29: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 29/49

29

Proceso KDD6) Comparar los objetivos de la primera etapa del

proceso KDD con los de un método particular deminería de datos:

• Asociación

• Segmentación• Clasificación• Regresión• Pronósticos

7) Elegir el o los algoritmos de minería de datos,de acuerdo al método escogido para identificar lospatrones en los datos.

 

Page 30: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 30/49

30

Proceso KDD8) Minería de Datos: para buscar los patrones

en una forma de representación particular o en unconjunto de ellas (reglas o árboles de clasificación,regresión, segmentación, etc.).

 

Page 31: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 31/49

31

Proceso KDD9) Interpretar los patrones obtenidos, posible-

mente retornando a pasos anteriores. Esta etapatambién puede implicar la visualización de losmodelos/patrones obtenidos, o la visualización de

los datos dados por éstos.Entwicklung DQ

70,0

75,0

80,0

85,0

90,0

95,0

100,0

August September

Monat

     %

NL Süd

PZ NÜR1

PZ MÜ1

PZ MÜ2

TB

 

Page 32: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 32/49

32

Proceso KDD10) Consolidar el conocimiento descubierto: incor-

porándolo en otro sistema para accionesadicionales, o simplemente documentándolo yreportándolo a las partes interesadas. También

incluye chequear y resolver potenciales conflictoscon el conocimiento previamente creido o extraido.

 

Page 33: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 33/49

33

• Ventas / Marketing:

 Análisis de las canastas (carritos) de compra

Segmentación de los clientes para ofrecer promocio-

Minería de Datos y Proceso KDD Algunas Aplicaciones Generales

,

 Análisis de resultados de campañas

Generación de patrones de compra para el envío demensajes más exactos a la audiencia

 

Page 34: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 34/49

34

Minería de Datos y Proceso KDD Algunas Aplicaciones Generales

• Banca / Finanzas:

Detección de patrones de uso fraudulento de tarjetasde crédito

Predicción de clientes con alta probabilidad de fuga

Determinación de los gastos en tarjeta de crédito porgrupos

  Análisis de las correlaciones entre indicadoresfinancieros

 

Page 35: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 35/49

35

• Salud y Medicina:

Identificación de terapias médicas satisfactorias paradiferentes enfermedades

Minería de Datos y Proceso KDD Algunas Aplicaciones Generales

patologías Estudio de factores (genéticos, precedentes, hábitos,alimenticios, etc.) de riesgo/salud en distintaspatologías

Segmentación de pacientes para una atención másinteligente según su grupo

 

Page 36: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 36/49

36

• Salud y Medicina (2):

Predicciones temporales de los centros asistencialespara el mejor uso de recursos, consultas, salas yhabitaciones

Minería de Datos y Proceso KDD Algunas Aplicaciones Generales

  Análisis de rendimientos de campañas deinformación, prevención, sustitución de fármacos, etc.

Generación de patrones para el diagnóstico y laasignación de tratamientos adecuados

 

Page 37: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 37/49

37

• Procesos Industriales:

Extracción de modelos sobre comportamiento decompuestos

Minería de Datos y Proceso KDD Algunas Aplicaciones Generales

Predicción de fallos

Generación de modelos de calidad.

Estimación de composiciones óptimas en mezclas.

Extracción de modelos de costos y de producción.

 

Page 38: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 38/49

38

Caso 1: Universidad.Se hizo un estudio sobre los recién titulados de la carrera deIngeniería en Sistemas Computacionales del Instituto Tecnológico deChihuahua II, en Méjico (Rodas, 2001). Se quería observar si susrecién titulados se insertaban en actividades profesionales

Minería de DatosEjemplos de su Aplicación

re ac ona as con sus es u os y, en caso nega vo, se usca a sa er

el perfil que caracterizó a los exalumnos durante su estancia en launiversidad. El objetivo era saber si con los planes de estudio de launiversidad y el aprovechamiento del alumno se hacía una buenainserción laboral o si existían otras variables que participaban en elproceso. Dentro de la información considerada estaba el sexo, laedad, la escuela de procedencia, el desempeño académico, la zonaeconómica donde tenía su vivienda y la actividad profesional, entreotras variables. Mediante la aplicación de conjuntos aproximados sedescubrió que...

 

Page 39: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 39/49

39

... existían cuatro variables que determinaban la adecuada inserciónlaboral, que son citadas de acuerdo con su importancia: zonaeconómica donde habitaba el estudiante, colegio de donde provenía,nota al ingresar y promedio final al salir de la carrera. A partir de

Minería de DatosEjemplos de su Aplicación

es os resu a os, a un vers a en r que acer un es u o

socioeconómico sobre grupos de alumnos que pertenecían a lasclases económicas bajas para dar posibles soluciones, debido a quetres de las cuatro variables no dependían de la universidad.

 

Page 40: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 40/49

40

Caso 2: Investigación Espacial.Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II) coleccionó tres terabytes de imágenes que conteníanaproximadamente dos millones de objetos en el cielo. Tres milfotografías fueron digitalizadas a una resolución de 16 bits por píxel

Minería de DatosEjemplos de su Aplicación

con . x . p xe es por magen. o e vo era ormar un

catálogo de todos esos objetos. El sistema Sky Image Cataloguingand Analysis Tool (SKYCAT) se basa en técnicas de agrupación(clustering ) y árboles de decisión para poder clasificar los objetos enestrellas, planetas, sistemas, galaxias, etc. con una alta confiabilidad(Fayyad y otros, 1996). Los resultados han ayudado a los astrónomosa descubrir dieciséis nuevos quásars. Estos quásars son difíciles deencontrar y permiten saber más acerca de los orígenes del universo.

 

Page 41: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 41/49

41

Caso 3: Club Deportivo.En el 2003, el AC de Milán comenzó a usar redes neuronales paraprevenir lesiones y optimizar el acondicionamiento de cada atleta.Esto ayudará a seleccionar el fichaje de un posible jugador o a alertaral médico del equipo de una posible lesión. El sistemaes alimentado

Minería de DatosEjemplos de su Aplicación

por a os e ca a uga or, re ac ona os con su ren m en o,

alimentación y respuesta a estímulos externos, que se obtienen yanalizan cada quince días. El jugador lleva a cabo determinadasactividades que son monitoreadas por veinticuatro sensoresconectados al cuerpo y que transmiten señales de radio queposteriormente son almacenadas en una base de datos. Actualmenteel sistema dispone de 5.000 casos registrados que permiten predeciralguna posible lesión…

 

Page 42: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 42/49

42

… con lo anterior, el club intenta ahorrar dinero evitando comprar jugadores que presenten una alta probabilidad de lesión, lo que haríaincluso renegociar su contrato. Por otra parte, el sistema pretendeencontrar las diferencias entre las lesiones de atletas de ambos

Minería de DatosEjemplos de su Aplicación

sexos, as como sa er s una e erm na a es n se re ac ona con e

estilo de juego de un país concreto donde se practica el fútbol.

 

Page 43: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 43/49

43

Minería de DatosOtras áreas

• Datos complejos: geográficos, temporales…

• basada en Modelos Evolutivos: algoritmosgenéticos…

• basada en Lógica Difusa.

 

Page 44: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 44/49

44

Minería de DatosOtras áreas

• Minería de Textos:

búsqueda de conocimiento en grandes colecciones dedocumentos no estructurados

, ,

técnicas de recuperación de información, además detécnicas estadísticas y lingüísticas

 

Page 45: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 45/49

45

Minería de DatosOtras áreas

• Minería de Textos (2):

el trabajo varía dependiendo de la representación dela información:• “Bag of Words”   : cada palabra constituye una posición de un

vec or y e va or correspon e con a can a e veces que a

aparecido.• N-gramas o frases: permite tener en cuenta el orden de laspalabras. Trata mejor frases negativas “... excepto ...”, “... pero no ...”, que tomarían en otro caso las palabras que le siguen comorelevantes.

• Representación relacional (primer orden): permite detectarpatrones más complejos (si la palabra X  está a la izquierda de lapalabra Y  en la misma frase...).

• Categorías de conceptos.

 

Page 46: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 46/49

46

• Minería del Web:

se refiere al proceso de descubrir información oconocimiento potencialmente útil y previamentedesconocido a partir de datos de la Web.

Minería de DatosOtras áreas

combina técnicas de la Minería de Datos, con aquéllaspropias de la Recuperación de Información, Procesa-miento del Lenguaje Natural, Tecnologías del WWW yde Agentes, entre otros.

 

Page 47: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 47/49

47

• Minería del Web (2): se puede organizar en

bases a las siguientes fases… Descubrimiento de recursos: localización de

documentos relevantes o no usuales en la red

Minería de DatosOtras áreas

Extracción de información determinada a partir de undocumento (HTML, XML, texto, ps, PDF, LaTeX…)

Generalización: descubrir patrones generales a partirde sitios web individuales: segmentación, asociacionesentre documentos, etc.

 Análisis, validación e interpretación de los patrones

 

Page 48: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 48/49

48

Minería de DatosOtras áreas

• Minería del Web (3): tipos…

a) Minería del Contenido: considerando…

de Textos: si los documentos son textuales

de Hypertextos: si hay enlaces a otros documentoso a sí mismos

de Marcas (Markup): si los documentos son

semiestructurados de Multimedios: imágenes, audio, vídeo, ...

 

Page 49: 1 Introduccion a La Mineria de Datos y KDD

5/9/2018 1 Introduccion a La Mineria de Datos y KDD - slidepdf.com

http://slidepdf.com/reader/full/1-introduccion-a-la-mineria-de-datos-y-kdd 49/49

49

Minería de DatosOtras áreas

• Minería del Web (4): tipos…

b) Minería de la Estructura: se intenta descubrir unmodelo a partir de la topología de enlaces de la red.Este modelo puede ser útil para clasificar o agrupardocumentos

c) Minería del Uso: se intenta extraer información(hábitos, preferencias, etc. de los usuarios o contenidosy relevancia de documentos) a partir de las sesiones y

comportamientos de los usuarios y navegantes.