Unidad2 Bases De Datos Para L Toma De Desiciones

2.1 ALMACÉN DE DATOS (DATA WAREHOUSE)

Un Almacén de Datos (o Data Warehouse) es una gran colección de datos que recoge información de múltiples sistemas fuentes u operacionales dispersos, y cuya actividad se centra en la Toma de Decisiones -es decir, en el análisis de la información- en vez de en su captura.

Una vez reunidos los datos de los sistemas fuentes se guardan durante mucho tiempo, lo que permite el acceso a datos históricos; así los almacenes de datos proporcionan al usuario una interfaz consolidada única para los datos, lo que hace más fácil escribir las consultas para la toma de decisiones.

Diferencias entre Base de Datos y Almacén de Datos

BASE DE DATOS OPERACIONAL ALMACÉN DE DATOS

DATOS OPERACIONALES DATOS DEL NEGOCIO PARA INFORMACIÓN

ORIENTADO A APLICACIÓN ORIENTADO AL SUJETO

ACTUAL ACTUAL + HISTÓRICO

DETALLADA DETALLADA + RESUMIDA

CAMBIA CONTINUAMENTE ESTABLE

Data Warehousing es el proceso que facilita la creación y explotación de un Almacén de Datos. Los Sistemas de Data Warehousing incluyen funcionalidades como: Integración de bases de datos heterogéneas (relacionales, documentales, geográficas, archivos, etc.)

Ejecución de consultas complejas no predefinidas visualizando el resultado en forma gráfica y en diferentes niveles de agrupamiento y totalización de datos. Agrupamiento y desagrupamiento de datos en forma interactiva. Análisis del problema en términos de dimensiones. Control de calidad de datos.

CARACTERÍSTICAS DEL ALMACÉN DE DATOS

Organizado en torno a temas. La información se clasifica en base a los aspectos que son de interés para la empresa.

Integrado. Es el aspecto más importante. La integración de datos consiste en convenciones de nombres, codificaciones consistentes, medida uniforme de variables, etc.

Dependiente del tiempo. Esta dependencia aparece de tres formas: La información representa los datos sobre un horizonte largo de tiempo. Cada estructura clave contiene (implícita o explícitamente) un elemento de tiempo (día, semana, mes, etc.).

2.1.2 ARQUITECTURA DATA WAREHOUSE

La estructura básica de la arquitectura Data Warehouse incluye:

Datos operacionales. Origen de datos para el componente de almacenamiento físico del Almacén de Datos.

Extracción de datos. Selección sistemática de datos operacionales usados para formar parte del Almacén de Datos. Transformación de datos. Procesos para sumarizar y realizar cambios en los datos operacionales.

Carga de datos. Inserción de datos en el Almacén.

Almacén. Almacenamiento físico de datos de al arquitectura Data Warehouse. Herramienta de acceso. Herramientas que proveen acceso a los datos.

Los bloques funcionales que se corresponden con un sistema de información completo que utiliza un DW se muestran gráficamente en la Figura

Estructura lógica del Almacén de Datos

La estructura lógica de un Almacén de Datos está compuesta por los siguientes niveles:

Metadatos. Describen la estructura de los datos contenidos en el almacén. Están en una dimensión distinta al resto de niveles.

Datos detallados actuales. Obtenidos directamente del procesado de los datos. Forman el nivel más bajo de detalle. Ocupan mucho espacio. Se almacenan en disco, para facilitar el acceso.

Datos detallados históricos. Igual que los anteriores, pero con datos correspondientes al pasado. Se suelen almacenar en un medio externo, ya que su acceso es poco frecuente.

Datos ligeramente resumidos. Primer nivel de agregación de los datos detallados actuales. Corresponden a consultas habituales. Se almacenan en disco.

Datos muy resumidos. Son el nivel más alto de agregación. Corresponden a consultas que se realizan muy a menudo y que se deben obtener muy rápidamente. Suelen estar separados del Almacén de datos, formando Supermercados de Datos (Data Marts).

Estructura física del Almacén de Datos

La estructura física puede presentar cualquiera de las siguientes configuraciones:

Arquitectura centralizada. Todo el Almacén de datos se encuentra en un único servidor.

Arquitectura distribuida. Los datos del Almacén se reparten entre varios servidores. Asignando cada servidor a uno o varios temas lógicos.

Arquitectura distribuida por niveles. Refleja la estructura lógica del Almacén, asignando los servidores en función del nivel de agregación de los datos que contienen. Un servidor está dedicado para los datos de detalle, otro para los resumidos y otro para los muy resumidos.

Cuando los datos muy resumidos se duplican en varios servidores para agilizar el acceso se habla de Supermercados de datos (Data Marts).

2.2 MINERÍA DE DATOS (DATA MINING)

La minería de datos (en inglés, data mining) se define como la extracción no trivial de información implícita, previamente desconocida y potencialmente útil, a partir de datos.

En la actual sociedad de la información, donde cada día a día se multiplica la cantidad de datos almacenados casi de forma exponencial, la minería de datos es una herramienta fundamental para analizarlos y explotarlos de forma eficaz para los objetivos de cualquier organización. La minería de datos se define también como el análisis y descubrimiento de conocimiento a partir de datos.

La minería de datos hace uso de todas las técnicas que puedan aportar información útil, desde un sencillo análisis gráfico, pasando por métodos estadísticos más o menos complejos, complementados con métodos y algoritmos del campo de la inteligencia artificial y el aprendizaje automático que resuelven problemas típicos de agrupamiento automático, clasificación, predicción de valores, detección de patrones, asociación de atributos, etc.

Es, por tanto, un campo multidisciplinar que cubre numerosas áreas y se aborda desde múltiples puntos de vista, como la estadística, la informática (cálculo automático) o la ingeniería.

2.2.1 ANTECEDENTES

La minería de datos, entendida como la búsqueda de patrones dentro de grandes bases de datos utilizando para ello métodos estadísticos y de aprendizaje basado en computadora, está empezando a extenderse en nuestro país. Empresas en el sector de telecomunicaciones, financiero y de autoservicio están en el proceso de adquirir alguna solución tecnológica en este campo, por lo que surge una demanda por recursos humanos con conocimientos en minería de datos.

Además, al enfrentar un ambiente más competitivo las empresas requieren de tecnologías que les permitan pronosticar, dentro de un marco probabilística, el comportamiento de sus clientes y prospectos a fin de desarrollar estrategias de atracción o retención.

La idea de data mining no es nueva. Ya desde los años sesenta los estadísticos manejaban términos como data fishing, data mining o data archaeology con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido. A principios de los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de data mining y KDD.[3]

A finales de los años ochenta sólo existían un par de empresas dedicadas a esta tecnología; en 2002 existen más de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones.

El data mining es una tecnología compuesta por etapas que integra varias áreas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones softwar en cada etapa que pueden ser estadísticas, de visualización de datos o de inteligencia artificial, principalmente.

Actualmente existen aplicaciones o herramientas comerciales de data mining muy poderosas que contienen un sinfín de utilerías que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementándose con otra herramienta.

Los Fundamentos del Data Mining

Las técnicas de Data Mining son el resultado de un largo proceso de investigación y desarrollo de productos. Esta evolución comenzó cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continuó con mejoras en el acceso a los datos, y más recientemente con tecnologías generadas para permitir a los usuarios navegar a través de los datos en tiempo real. Data Mining toma este proceso de evolución más allá del acceso y navegación retrospectiva de los datos, hacia la entrega de información prospectiva y proactiva. Data Mining está listo para su aplicación en la comunidad de negocios porque está soportado por tres tecnologías que ya están suficientemente maduras:

• Recolección masiva de datos.• Potentes computadoras con multiprocesadores.• Algoritmos de Data Mining.

2.2.2 FASES DE PROYECTOS DE MINERÍA DE DATOS

Los pasos a seguir para la realización de un proyecto de minería de datos son siempre los mismos, independientemente de la técnica específica de extracción de conocimiento usada.

El proceso de minería de datos se compone de las siguientes fases:

Selección y preprocesado de datosEl formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse...) nunca es el idóneo y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos "en bruto".

Mediante el preprocesado se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo que va a usarse), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reduce el número de valores posibles (mediante redondeo, clustering...).

Extracción de conocimiento Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos.

Interpretación y evaluación

Una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

Si desea obtener una descripción más detallada, puede consultar la documentación de CRISP-DM (CRoss Industry Standard Process for Data Mining), que es un estándar industrial, utilizado por más de 160 empresas e instituciones de todo el mundo, que surge en respuesta a la falta de estandarización y propone un modelo de proceso general para proyectos de minería de datos:

2.2.3 FILTRADO DE DATOS

El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse...) nunca es el idóneo y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos "en bruto".

Mediante el preprocesado se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo que va a usarse), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reduce el número de valores posibles (mediante redondeo, clustering...).

2.2.4 SELECCIÓN DE VARIABLES

Aún después de haber sido preprocesados, en la mayoría de los casos se tiene una cantidad ingente de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería. Los métodos para la selección de características son básicamente dos:

Aquellos basados en la elección de los mejores atributos del problema y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos.

2.2.5 EXTRACCIÓN DE CONOCIMIENTO

Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos.

2.2.6 INTERPRETACIÓN Y EVALUACIÓN

Una vez obtenido el modelo, se debe proceder a su validación comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

Si desea obtener una descripción más detallada, puede consultar la documentación de CRISP-DM (CRoss Industry Standard Process for Data Mining), que es un estándar industrial, utilizado por más de 160 empresas e instituciones de todo el mundo, que surge en respuesta a la falta de estandarización y propone un modelo de proceso general para proyectos de minería de datos:

Neutral respecto a industria y herramientasAplicable en cualquier sector de negocio

2.3 MINERÍA WEB

La minería web (o minería de uso de la web) es una aplicación especial de la minería de datos que consiste en extraer información y conocimiento útil específicamente de la actividad de un sitio web: análisis de tráfico (visitas y visitantes), contenidos más accedidos, procedencia, tipo de usuarios, navegadores y sistemas operativos, reglas de asociación entre páginas (tasa de conversión), etc.

El análisis de esta información, a partir del tráfico de un sitio web registrado de una manera adecuada, es fundamental, por una parte, para entender el comportamiento y los hábitos de los clientes/usuarios del sitio y, por otra, porque ayudan a mejorar su diseño.

El problema es que obtener una información fiable y precisa sobre el comportamiento real de los usuarios de un sitio web es una labor complicada por varios motivos: las particularidades de Internet (cachés intermedias, direcciones IP dinámicas, deslocalización geográfica, etc.), la heterogeneidad de las visitas (usuarios con diferentes expectativas, robots, navegadores, buscadores, etc.) o la complejidad de la información recibida (concepto de sesión, visitantes detrás de servidores proxy, nombres de máquinas y dominios, protocolos, etc.).

Unidad2 Bases De Datos Para L Toma De Desiciones

Education

Transcript of Unidad2 Bases De Datos Para L Toma De Desiciones