D1 Data Mining.pdf

14
Introducción al Data Introducción al Data Mining Mining © Fernando Berzal, © Fernando Berzal, [email protected] [email protected] Introducción al Data Introducción al Data Mining Mining ¿Qué es la minería de datos? ¿Qué es la minería de datos?  Aplicaciones  Aplicaciones KDD ( KDD (Knowledge Knowledge Dis cov ery Disc over y in in Databases Databases) ) El proceso de extracción de conocimiento El proceso de extracción de conocimiento Cact er mult idisci linar Cact er mult idisci linar Técnicas de minería de datos Técnicas de minería de datos Modelos descriptivos y modelos predictivos Modelos descriptivos y modelos predictivos Clasificación de las técnicas de minería de datos Clasificación de las técnicas de minería de datos Fuentes de datos Fuentes de datos Evaluación de resultados Evaluación de resultados Sistemas de minería de datos Sistemas de minería de datos 1

Transcript of D1 Data Mining.pdf

  • Introduccin al Data Introduccin al Data MiningMining Fernando Berzal, Fernando Berzal, [email protected]@acm.org

    Introduccin al Data Introduccin al Data MiningMining

    Qu es la minera de datos?Qu es la minera de datos?

    AplicacionesAplicaciones

    KDD (KDD (KnowledgeKnowledge DiscoveryDiscovery in in DatabasesDatabases)) El proceso de extraccin de conocimientoEl proceso de extraccin de conocimiento

    Carcter multidisciplinarCarcter multidisciplinar Carcter multidisciplinarCarcter multidisciplinar

    Tcnicas de minera de datosTcnicas de minera de datos Modelos descriptivos y modelos predictivosModelos descriptivos y modelos predictivos

    Clasificacin de las tcnicas de minera de datosClasificacin de las tcnicas de minera de datos

    Fuentes de datosFuentes de datos

    Evaluacin de resultadosEvaluacin de resultados

    Sistemas de minera de datosSistemas de minera de datos

    11

  • Qu es la minera de datos?Qu es la minera de datos?

    Extraccin de patrones (conocimiento) Extraccin de patrones (conocimiento) en en grandesgrandes bases de datos.bases de datos.

    22

    Qu es la minera de datos?Qu es la minera de datos?

    Extraccin de Extraccin de conocimientoconocimientoen grandes bases de datos.en grandes bases de datos.

    RequisitosRequisitos

    No trivialNo trivial

    ImplcitoImplcito

    PreviamentePreviamente desconocidodesconocido

    PotencialmentePotencialmente tiltil

    33

  • Qu es la minera de datos?Qu es la minera de datos?

    DefinicionesDefiniciones

    NonNon--trivial extraction of implicit, previously unknown trivial extraction of implicit, previously unknown and potentially useful information from data.and potentially useful information from data.

    FrawleyFrawley, , PiatetskyPiatetsky--Shapiro & Shapiro & MatheusMatheus: : FrawleyFrawley, , PiatetskyPiatetsky--Shapiro & Shapiro & MatheusMatheus: : Knowledge Discovery in Databases: An Overview. Knowledge Discovery in Databases: An Overview. MIT Press, 1991.MIT Press, 1991.

    Exploration and analysis, by automatic or Exploration and analysis, by automatic or semisemi--automatic means, of large quantities of data in automatic means, of large quantities of data in order to discover meaningful patterns.order to discover meaningful patterns.

    Berry & Berry & LinoffLinoff: : Data Mining Techniques. Data Mining Techniques. Wiley, 1997Wiley, 1997

    44

    Qu es la minera de datos?Qu es la minera de datos?

    How can I analyze this data?

    55

    Data rich,Information poor

    Knowledge

    Conocimiento(patrones interesantes)

  • AplicacionesAplicaciones

    MarketMarket basketbasket analysisanalysis (compras)(compras)

    Perfiles de usuario en la WebPerfiles de usuario en la Web

    Segmentacin de clientesSegmentacin de clientes

    Deteccin de fraudes / intrusosDeteccin de fraudes / intrusos

    66

    KDD KDD ((KnowledgeKnowledge DiscoveryDiscovery in in DatabasesDatabases))

    Extraccin de conocimiento en bases de datosExtraccin de conocimiento en bases de datos77

  • KDD KDD ((KnowledgeKnowledge DiscoveryDiscovery in in DatabasesDatabases))

    El proceso de extraccin de conocimientoEl proceso de extraccin de conocimiento

    Limpieza de datosLimpieza de datos(eliminacin de ruido e inconsistencias)(eliminacin de ruido e inconsistencias)

    Integracin de datosIntegracin de datos(combinacin de mltiples fuentes de datos)(combinacin de mltiples fuentes de datos)

    Reduccin/Seleccin de datosReduccin/Seleccin de datos Reduccin/Seleccin de datosReduccin/Seleccin de datos(identificacin de datos relevantes para el problema)(identificacin de datos relevantes para el problema)

    Transformacin de datosTransformacin de datos(preparacin de los datos para su anlisis)(preparacin de los datos para su anlisis)

    Minera de datosMinera de datos(tcnicas de extraccin de patrones y medidas de inters)(tcnicas de extraccin de patrones y medidas de inters)

    Presentacin de resultadosPresentacin de resultados(tcnicas de visualizacin y de representacin del conocimiento)(tcnicas de visualizacin y de representacin del conocimiento)

    88

    KDD KDD ((KnowledgeKnowledge DiscoveryDiscovery in in DatabasesDatabases))

    Extraccin de conocimiento en bases de datos:Extraccin de conocimiento en bases de datos:

    99

  • KDD KDD ((KnowledgeKnowledge DiscoveryDiscovery in in DatabasesDatabases))

    Carcter multidisciplinarCarcter multidisciplinar

    Bases de datos Estadstica

    Evaluacin de resultadosEvaluacin de resultadosResumen de datosResumen de datosGestin de grandes cantidades de datosGestin de grandes cantidades de datos

    1010

    Data Mining

    IA Visualizacin

    AprendizajeAprendizajeRepresentacin del conocimientoRepresentacin del conocimiento

    Presentacin de resultadosPresentacin de resultados

    KDD KDD ((KnowledgeKnowledge DiscoveryDiscovery in in DatabasesDatabases))

    I keep saying the sexy job in the next ten years will be I keep saying the sexy job in the next ten years will be statisticians. People think Im joking, but who wouldve statisticians. People think Im joking, but who wouldve

    guessed that computer engineers wouldve been the sexy guessed that computer engineers wouldve been the sexy job of the 1990s? The ability to take datajob of the 1990s? The ability to take datato be able to to be able to understand it, to process it, to extract value from it, to understand it, to process it, to extract value from it, to

    visualize it, to communicate itvisualize it, to communicate itthats going to be a hugely thats going to be a hugely visualize it, to communicate itvisualize it, to communicate itthats going to be a hugely thats going to be a hugely important skill in the next decadesimportant skill in the next decades

    Because now we really do have essentially free and Because now we really do have essentially free and ubiquitous data. So the complimentary scarce factor is the ubiquitous data. So the complimentary scarce factor is the ability to understand that data and extract value from it.ability to understand that data and extract value from it.

    Hal R. VarianHal R. VarianGoogles Chief EconomistGoogles Chief Economist

    Professor of Information Sciences, Business, and EconomicsProfessor of Information Sciences, Business, and Economicsat the University of California at Berkeley at the University of California at Berkeley

    1111

  • KDD KDD ((KnowledgeKnowledge DiscoveryDiscovery in in DatabasesDatabases))

    Extraccin de conocimiento en bases de datos:Extraccin de conocimiento en bases de datos:

    1212

    Tcnicas de minera de datosTcnicas de minera de datos

    Modelos de minera de datosModelos de minera de datos

    1313

  • Tcnicas de minera de datosTcnicas de minera de datos

    Clasificacin de los modelos de minera de datosClasificacin de los modelos de minera de datos

    En funcin de su propsito general:En funcin de su propsito general:

    Modelos descriptivosModelos descriptivos Modelos descriptivosModelos descriptivos(describen el comportamiento de los datos de forma (describen el comportamiento de los datos de forma que sea interpretable por un usuario experto).que sea interpretable por un usuario experto).

    Modelos predictivosModelos predictivos(adems de describir los datos, se utilizan para (adems de describir los datos, se utilizan para predecir el valor de algn atributo desconocido).predecir el valor de algn atributo desconocido).

    1414

    Tcnicas de minera de datosTcnicas de minera de datos

    EjemplosEjemplos

    Reglas de asociacin (modelo descriptivo)Reglas de asociacin (modelo descriptivo)Los compradores de paales tambin suelen comprar cerveza.Los compradores de paales tambin suelen comprar cerveza.

    ClusteringClustering (modelo descriptivo)(modelo descriptivo) ClusteringClustering (modelo descriptivo)(modelo descriptivo)

    Segmentacin de los clientes de un hipermercado:Segmentacin de los clientes de un hipermercado:

    -- Clientes ocasionales que gastan mucho.Clientes ocasionales que gastan mucho.

    -- Clientes habituales con presupuesto limitado.Clientes habituales con presupuesto limitado.

    -- Clientes ocasionales con presupuesto limitado.Clientes ocasionales con presupuesto limitado.

    Clasificacin (modelo predictivo):Clasificacin (modelo predictivo):-- Datagramas que corresponden a intentos de intrusin.Datagramas que corresponden a intentos de intrusin.

    -- Perfil de un cliente de alto riesgo para prstamos bancarios.Perfil de un cliente de alto riesgo para prstamos bancarios. 1515

  • Tcnicas de minera de datosTcnicas de minera de datos

    Algunas tcnicas de minera de datosAlgunas tcnicas de minera de datos

    Caracterizacin o resumenCaracterizacin o resumen

    Discriminacin o contrasteDiscriminacin o contraste

    Patrones frecuentes, asociaciones y correlacionesPatrones frecuentes, asociaciones y correlaciones Patrones frecuentes, asociaciones y correlacionesPatrones frecuentes, asociaciones y correlaciones

    Clasificacin y prediccinClasificacin y prediccin

    Deteccin de agrupamientos (Deteccin de agrupamientos (clusteringclustering))

    Deteccin de anomalas (Deteccin de anomalas (outliersoutliers))

    Anlisis de tendencias (series temporales)Anlisis de tendencias (series temporales)

    1616

    Tcnicas de minera de datosTcnicas de minera de datos

    Las tcnicas de minera de datosLas tcnicas de minera de datos

    tambin se pueden clasificar atendiendo atambin se pueden clasificar atendiendo a

    el tipo de datos que hay que analizarel tipo de datos que hay que analizar el tipo de datos que hay que analizarel tipo de datos que hay que analizar

    el tipo de conocimiento que se obtieneel tipo de conocimiento que se obtiene

    el tipo de herramienta que se utilizael tipo de herramienta que se utiliza

    el dominio de aplicacinel dominio de aplicacin1717

  • Fuentes de datosFuentes de datos

    Fuentes de datosFuentes de datos

    1818

    Fuentes de datosFuentes de datos

    Fuentes de datosFuentes de datos

    Bases de datos relacionalesBases de datos relacionales

    Bases de datos multidimensionales (DW)Bases de datos multidimensionales (DW)

    Bases de datos transaccionalesBases de datos transaccionales Bases de datos transaccionalesBases de datos transaccionales

    Series temporales, secuencias y data Series temporales, secuencias y data streamsstreams

    Datos estructurados (grafos, redes sociales)Datos estructurados (grafos, redes sociales)

    Datos espaciales y espaciotemporalesDatos espaciales y espaciotemporales

    Textos e hipertextos (p.ej. Web)Textos e hipertextos (p.ej. Web)

    Bases de datos multimedia (p.ej. Imgenes)Bases de datos multimedia (p.ej. Imgenes)

    1919

  • Evaluacin de resultadosEvaluacin de resultados

    Evaluacin de resultadosEvaluacin de resultados

    2020

    Evaluacin de resultadosEvaluacin de resultados

    Un resultado es interesante siUn resultado es interesante si

    es comprensible (por seres humanos)es comprensible (por seres humanos)

    es vlido con cierto grado de certezaes vlido con cierto grado de certeza

    es potencialmente tiles potencialmente til es potencialmente tiles potencialmente til

    es novedoso o sirve para validar una hiptesises novedoso o sirve para validar una hiptesis

    El inters de los resultados se puede evaluarEl inters de los resultados se puede evaluar

    objetivamente (criterios estadsticos)objetivamente (criterios estadsticos)

    subjetivamente (perspectiva del usuario)subjetivamente (perspectiva del usuario)

    2121

  • Sistemas de minera de datosSistemas de minera de datos

    ArquitecturaArquitecturatpicatpica

    Evaluacin de patrones

    Interfaz de usuario

    2222

    Base de datos o data warehouse

    Motor de minera de datos

    DB DW WWW

    Base de Base de conocimientoconocimiento

    Limpieza, integracin, seleccin y transformacin de datos

    Sistemas de minera de datosSistemas de minera de datos

    Descripcin de una tarea de minera de datos:Descripcin de una tarea de minera de datos:

    Datos relevantesDatos relevantes(lo que hay que analizar) (lo que hay que analizar)

    Tipo de conocimientoTipo de conocimiento Tipo de conocimientoTipo de conocimiento(lo que se desea obtener) (lo que se desea obtener)

    Conocimiento previo Conocimiento previo ((backgroundbackground knowledgeknowledge, para guiar el proceso), para guiar el proceso)

    Medidas de intersMedidas de inters(para evaluar los resultados obtenidos) (para evaluar los resultados obtenidos)

    Tcnicas de representacinTcnicas de representacin(para representar los resultados obtenidos)(para representar los resultados obtenidos)

    2323

  • Sistemas de minera de datosSistemas de minera de datos

    Software de minera de datosSoftware de minera de datos

    KNIME KNIME http://www.knime.org/http://www.knime.org/

    RapidMinerRapidMinerhttp://rapidminer.com/http://rapidminer.com/http://rapidminer.com/http://rapidminer.com/

    WekaWekahttp://www.cs.waikato.ac.nz/ml/weka/http://www.cs.waikato.ac.nz/ml/weka/

    R R http://www.rhttp://www.r--project.org/project.org/

    SPSS SPSS ModelerModelerhttp://www.spss.com/software/modeler/http://www.spss.com/software/modeler/

    SAS Enterprise SAS Enterprise MinerMinerhttp://www.sas.com/http://www.sas.com/ 2424

    Temas de investigacinTemas de investigacin

    Tcnicas eficientes de minera de datosTcnicas eficientes de minera de datos EscalabilidadEscalabilidad

    Tcnicas incrementalesTcnicas incrementales

    Algoritmos paralelosAlgoritmos paralelos

    Incorporacin de conocimiento previoIncorporacin de conocimiento previo

    Evaluacin de resultados (inters)Evaluacin de resultados (inters)

    Interaccin con el usuarioInteraccin con el usuario Tcnicas interactivas (a distintos niveles de abstraccin)Tcnicas interactivas (a distintos niveles de abstraccin)

    Tcnicas de presentacin y visualizacin de resultadosTcnicas de presentacin y visualizacin de resultados

    Anlisis de nuevos tipos de datosAnlisis de nuevos tipos de datos Estructuras complejas (grafos, redes sociales)Estructuras complejas (grafos, redes sociales)

    Bases de datos heterogneasBases de datos heterogneas

    2525

  • PangPang--NingNing Tan, Tan, Michael Michael SteinbachSteinbach& & VipinVipin KumarKumar::IntroductionIntroduction toto Data Data MiningMiningAddisonAddison--WesleyWesley, 2006. , 2006.

    BibliografaBibliografa

    AddisonAddison--WesleyWesley, 2006. , 2006. ISBN 0321321367ISBN 0321321367

    JiaweiJiawei Han Han & & MichelineMicheline KamberKamber: : Data Data MiningMining: : ConceptsConcepts and and TechniquesTechniquesMorgan Morgan KaufmannKaufmann, 2006., 2006.ISBN 1558609016ISBN 1558609016 2626

    RevistasRevistas ACM ACM TransactionsTransactions onon KnowledgeKnowledge DiscoveryDiscovery fromfrom Data (TKDD)Data (TKDD)

    IEEE IEEE TransactionsTransactions onon KnowledgeKnowledge and Data and Data EngineeringEngineering (TKDE)(TKDE)

    Data Data MiningMining and and KnowledgeKnowledge DiscoveryDiscovery (DMKD)(DMKD)

    ACM ACM SIGKDD SIGKDD ExplorationsExplorations

    Data Data & & KnowledgeKnowledge EngineeringEngineering (DKE(DKE))

    Bibliografa (investigacin)Bibliografa (investigacin)

    Data Data & & KnowledgeKnowledge EngineeringEngineering (DKE(DKE))

    KnowledgeKnowledge and and InformationInformation SystemsSystems (KAIS)(KAIS)

    CongresosCongresos KDD KDD (ACM SIGKDD International (ACM SIGKDD International ConferenceConference onon KDD)KDD)

    ICDM ICDM (IEEE International (IEEE International ConferenceConference onon Data Data MiningMining))

    SDM SDM (SIAM Data (SIAM Data MiningMining ConferenceConference))

    PKDD PKDD ((PrinciplesPrinciples and and PracticesPractices of KDD)of KDD)

    SIGMOD SIGMOD (Management of Data)(Management of Data)

    CIKM CIKM ((InformationInformation and and KnowledgeKnowledge ManagementManagement))2727