5 1 GD5 ArbolClasificacion

download 5 1 GD5 ArbolClasificacion

of 3

Transcript of 5 1 GD5 ArbolClasificacion

  • 8/18/2019 5 1 GD5 ArbolClasificacion

    1/3

     

    BI & CRMGestión de Datos para Inteligencia de Negocios - 5

    Arboles de Clasificación

    Profesor: Luis Felipe Chumbiauca

    1. Introducción

    La Inteligencia de Negocios, definida como el conjunto de estrategias y procesos quetransforman Datos en Conocimiento, para una mejor toma de decisiones en unaOrganización, tiene como elemento especializado Data Discovery Knowledge oMinería de Datos.

    La minería de datos (DM, Data Mining ) consiste en la extracción no trivial deinformación que reside de manera implícita en los datos. Esta información erapreviamente desconocida y será útil para tomar decisiones que apoyen decididamenteen el logro de la ventaja competitiva de la empresa u organización.

    La minería de datos prepara, sondea y explora los datos para extraer informaciónoculta en ellos.

    La Minería de Datos produce cinco tipos de información:

    • Asociaciones

     – Ocurrencias vinculadas a un solo evento. – Cuando se compra una bebida gaseosa de cola, el 65% de las veces se

    compra frituras en bolsa.

    • Secuencias

     – Vincula dos o más eventos en el tiempo. – De cada 100 personas que compran una casa, 65 compran un TV en los

    siguientes dos meses.

    • Clasificación

     – Segmentación de grupos con objetivos específicos.

    • Agrupamiento

     – Similar a clasificación pero no está definido el nombre del grupo al quepertenecen.

     – Perfil de cliente que compra artículos deportivos y aguas gaseosas.

    • Pronósticos – Se generan modelos para predecir el comportamiento. – Determinar los clientes que tienen una probabilidad de compra mayor a 65%

    de un producto.

    Un Árbol de Clasificación es una colección jerárquica de reglas que describe cómodividir una lista grande de registros en grupos sucesivos más pequeños.

    Para aplicar la Técnica de Análisis de Arboles de Clasificación se debe organizar losdatos en Training Data-Set  y Validate Data-Set .

    El primero se usa para crear el Modelo y las reglas. El segundo sirve para validar el

    Modelo obtenido.

  • 8/18/2019 5 1 GD5 ArbolClasificacion

    2/3

    Gestión de Datos para Inteligencia de Negocios-5-Arboles de ClasificaciónLuis Felipe Chumbiauca, ME

    2

    2. Objetivo

    El desarrollo del presente caso debe lograr que el Participante adquiera habilidadespara crear un Árbol de Clasificación, a partir de un Data Set, Validar su desempeño yaplicar el conocimiento obtenido en un Problema de Negocio de Empresa.

    3. Creación del Árbol - Modelaje

    El Archivo de Datos 5-2 GD5-Datos.xlsx, contiene el Data Set para la elaboración del Árbol de Clasificación. El Data Set deber ser dividido en 30% para entrenamiento ygeneración del Modelo (Reglas) y 70% para Validación.

    Las Variables Atributos son:

    EstCiv:  Estado Civil Variable Binaria C=casado S=soltero

    Sexo:  Variable Binaria M=masculino F=Femenino

    Edad:  Variable continua 20 a 40 años de edadTotGas:  Promedio Gasto Mensual - Variable Continua - 350 a 1,150 Soles

    La Variable Objetivo es “Compro” : 1=Si compró, 0=No compró.

    El Árbol de Clasificación y las consecuentes Reglas, deberán elaborarse empleando latécnica de Split de incremento de pureza utilizando como medida el Gini Index, usandoel Data Set de entrenamiento (30% de los datos).

    Pregunta 1: Determine las Reglas del Modelo y sus probabilidades de compra.

    Pregunta 2: Cuál es la Tasa de Selección del Modelo.

    4. Validación del Modelo – medición de desempeño del modelo

    Luego de obtener el Árbol y las reglas correspondientes, con ayuda del Data SetValidate (70%) deberá medir el desempeño del modelo.

    Los parámetros que se obtienen, a partir de la Matriz de Clasificación, indicarán si elmodelo tiene un buen desempeño.

    Parámetros:

     – Precisión: Tasa de aciertos (1 y 0) – Precisión compro: Tasa de aciertos Compra (1)

     – Error: Tasa de errores – Sensibilidad: Capacidad de predecir eventos – Especificidad: Capacidad de predecir No eventos

     – Tasa de Selección: Es aquella proporción que el modelo estima queCompra.

    !"#$"%& ( )*+,*-. / )*+,*-,0+,0-.  !""#" ! #$%&$'( ) #*%&*'&$%&$'( 

    !"#$%&%'%()( + ,- . / ,- 0 123 !"#$%&'&%&()( + ,- . / 01 2 013 

  • 8/18/2019 5 1 GD5 ArbolClasificacion

    3/3

    Gestión de Datos para Inteligencia de Negocios-5-Arboles de ClasificaciónLuis Felipe Chumbiauca, ME

    3

    5. Aplicación del Conocimiento Obtenido

    El Modelo de Clasificación obtenido debe ser aplicado al siguiente problema deNegocio:

    Se desea llevar a cabo una campaña de Marketing sobre una población total de 40,000clientes, con características similares al Data Set proporcionado.

    Costo Fijo Campaña: S/. 8,500.00Población: 50,000 clientesCosto Individual: S/. 3.50Beneficio Individual Neto: S/. 25.00

    La Campaña de MK tendrá un costo fijo de S/ 8,500.00 La “Promoción”, para cadacliente tendrá un costo individual de S/ 3.50 . Si El Cliente compra el productopromocionado, el beneficio neto será de S/ 25.00 por cada compra. Se asume que

    cada cliente sólo compra Un producto.Pregunta 3 Cuál es la Tasa de Precisión del Modelo, para predecir solamente la

    “Compra”?

    Pregunta 4 Si dispone de 45,000 soles para la Campaña. Que cantidad de clientesdeberán recibir la promoción? Cuál será el Beneficio esperado?

    Pregunta 5 Cuál es monto máximo a invertir en la Campaña, si se desea lograr elmáximo beneficio?

    6. Presentación

    a. El Caso deberá ser resuelto en un Archivo Excel, tomando como referencia lasolución del Archivo “Modelo”.

    i. Nombre: GD5-ArbolClas-GrupoNroX.xlsxii. Deberá ser subido a la Carpeta respectiva disponible en Esan Virtual,

    antes de las 1900 horas del día de la siguiente clase.b. Adicionalmente se deberá elaborar un Archivo en Office Word, Informe

    ejecutivo, con la carátula de ESAN:i. Nombre: GD5-Informe-GrupoNroXX.docxii. Deberá ser subido a la Carpeta respectiva disponible en Esan Virtual,

    antes de las 1900 horas del día de la siguiente clase.

    iii. El Informe deberá ser entregado impreso, engrapado (No en folder) yla primera hoja visible deberá ser la carátula, para calificación, antesdel inicio de la siguiente clase.

    iv. Usar el modelo de carátula disponible en Esan Virtual.

    7. Bibliografía de Referencia

    Minería de Datos con Excel y Sql

    http://www.youtube.com/watch?v=43mS9M1ZjU8

    Luis Felipe Chumbiauca, ME