Herramientas para gestion de datos

61
ientas para el manejo de grandes volúmenes de datos y cálculos fina (en colocaciones y captaciones) Samir Homsi Aragón Herramientas para el manejo de grandes volúmenes de cálculos y datos financieros

Transcript of Herramientas para gestion de datos

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

(en colocaciones y captaciones)

Samir Homsi AragónSamir Homsi Aragón

Herramientas para el manejo de grandes

volúmenes de cálculos y datos

financieros

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

CONTENIDOCONTENIDOCONTENIDOCONTENIDO

Herramientas para el manejo de grandes

volúmenes de cálculos y datos

financieros

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Índice de avanceÍndice de avance

CONTENIDOCONTENIDO

Parte I. Estadística multivariada1.1. Modelo Logit1.2. Modelo Probit

Parte II. Bases multidimensionales2.1. Preparación de datos2.2. Cubos OLAP2.3. Minería de datos

Parte III. Simulación3.1. Modelo Montecarlo

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Tipos de problemasTipos de problemas

MOTIVO DE ESTA MATERIAMOTIVO DE ESTA MATERIA

1. Descripción de datos y resumenLa descripción y el resumen de datos apuntan a la descripción concisa de las características de los datos, típicamente en forma elemental y agregada. Esto da al usuario una descripción de la estructura de los datos. Por ejemplo, un minorista podría estar interesado en el volumen de ventas de todas las salidas separado por categorías. Los cambios y diferencias de un período anterior podrían ser resumidos y destacados. Esta clase de problema estaría en lo mas bajo de la escala de problemas.2. SegmentaciónLa segmentación apunta a la separación de los datos en subgrupos o clase significativos e interesantes. Todos los miembros de un subgrupo comparten características comunes. Por ejemplo, en el análisis de cesta de compras, uno podría definir los segmentos de cestas según los artículos que ellos contienen.3. Descripciones de conceptoApunta a una descripción comprensible de conceptos o clases. Por ejemplo, una empresa puede estar interesada en el estudio sobre sus clientes más leales y desleales. De una descripción de concepto de estos conceptos la compañía infiere que podría estar hecho para encontrar clientes leales o transformar clientes desleales a clientes leales.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Tipos de problemasTipos de problemas

4. ClasificaciónLa clasificación asume que hay un conjunto de objetos caracterizados por algún atributo o rasgo que pertenece a diferentes clases. Por ejemplo, intentando guardar créditos para evaluar el riesgo de acreditar a un cliente nuevo. Esto puede ser transformado a un problema de clasificación para crear dos clases, clientes buenos y clientes malos. 5. PredicciónOtro tipo de problema importante que ocurre en una amplia gama de usos es la predicción. La predicción es muy similar a la clasificación.La única diferencia es que en la predicción el atributo objetivo (la clase) no es un atributo cualitativo discreto, pero es uno continuo.6. Análisis de dependenciaEl análisis de dependencia consiste en encontrar un modelo que describe dependencias significativas (o asociaciones) entre artículos de datos o acontecimientos. Las dependencias pueden ser usadas para predecir el valor de unos datos de artículo dada la información sobre otros artículos de datos. Aunque las dependencias pueden ser usadas para el modelado predictivo, aquellos son mas usados por su comprensión.

MOTIVO DE ESTA MATERIAMOTIVO DE ESTA MATERIA

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

PARTE IPARTE I

Estadística MultivariadaEstadística Multivariada

PARTE IPARTE I

Estadística MultivariadaEstadística Multivariada

Herramientas para el manejo de grandes

volúmenes de cálculos y datos

financieros

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Qué es la estadística?Qué es la estadística?

PARTE I. CONCEPTOS BASICOSPARTE I. CONCEPTOS BASICOS

La estadística es una ciencia formal que estudia la recolección, análisis e interpretación de datos de una muestra representativa, ya sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algún fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Sin embargo, la estadística es más que eso, es decir, es el vehículo que permite llevar a cabo el proceso relacionado con la investigación científica.

Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad. Se usa para la toma de decisiones en áreas de negocios o instituciones gubernamentales.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Críticas a la estadística?Críticas a la estadística?

PARTE I. CONCEPTOS BASICOSPARTE I. CONCEPTOS BASICOS

Hay una percepción general de que el conocimiento estadístico es intencionado y frecuentemente mal usado, encontrando maneras de interpretar los datos que sean favorables al presentador. Un dicho famoso, al parecer de Benjamin Disraeli, es: «Hay tres tipos de mentiras: mentiras pequeñas, mentiras grandes y estadísticas». El popular libro How to lie with statistics (Cómo mentir con las estadísticas en la edición española) de Darrell Huff discute muchos casos de mal uso de la estadística, con énfasis en gráficas malintencionadas. Al escoger (o rechazar o modificar) una cierta muestra, los resultados pueden ser manipulados; por ejemplo, mediante la eliminación selectiva de valores atípicos (outliers). Este puede ser el resultado de fraudes o sesgos intencionales por parte del investigador (Darrel Huff). Lawrence Lowell (decano de la Universidad de Harvard) escribió en 1909 que las estadísticas, «como algunos pasteles, son buenas si se sabe quién los hizo y se está seguro de los ingredientes».

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Conceptos básicos: Uso y tipo de herramientasConceptos básicos: Uso y tipo de herramientas

PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada

ANALISIS VARIABLE OBJETIVO # DE VAR. HERRAMIENTA

      1Tabla de frecuencia unidimensional

  CUALITATIVA   2Tabla de frecuencia unidimensional

      NTabla de frecuencia unidimensional

      1 Box Plot

EXPLORATORIO CUANTITATIVA   2 Scatter Plot

      NDiagramas de individuos ACP

      1  

  MIXTA   2Box Plot cuantitativo nominalScatter Plot cuantitativo ordinal

      N ACP, AFC

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Conceptos básicos: Uso y tipo de herramientasConceptos básicos: Uso y tipo de herramientas

PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada

ANALISIS VARIABLE OBJETIVO # DE VAR. HERRAMIENTA

      1Gráficos, tablas de frecuencia

  CUALITATIVA   2Gráficos, tablas de frecuencia

      N AFC

      1Gráficos, parametros de posición, dispersión y forma

DESCRIPTIVO CUANTITATIVA   2Gráficos, covarianza, correlación, regresión

      N ACP, Cluster

      1  

  MIXTA   2  

      N  

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Conceptos básicos: Uso y tipo de herramientasConceptos básicos: Uso y tipo de herramientas

PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada

ANALISIS VARIABLE OBJETIVO # DE VAR. HERRAMIENTA

      1Promedios, varianzas, proporciones

    ESTIMACION 2 Correlación, regresión

      NMANOVA, regresión múltiple, correlación canónica

      1Test de conformidad, test de significación

INFERENCIAL   TEST DE HIPOTESIS 2Test de comparación, test de significación

      NMANOVA, discriminante canónico

      1Run test, Wilcoxon, Mann-Whitney, Kruskall

    NO PARAMETRICOS 2 Spearman, Kendall

      N Kernell, redes neuronales

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Conceptos básicos: VariablesConceptos básicos: Variables

PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada

Cuantitativas Reales

Variables Nominal

Cualitativas Categóricas

Ordinal

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Conceptos básicos: Análisis multivariante (AM)Conceptos básicos: Análisis multivariante (AM)

PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada

Cuando queremos examinar un sistema complejo de actividades financieras o comerciales, muchas veces no es suficiente utilizar técnicas univariantes y hay que ir al empleo del AM. Cuando el número de variables que influyen simultáneamente y de forma importante en el problema que queremos tratar es elevado (no solamente una o dos, sino un número elevado de variables), entonces tenemos que utilizar el AM.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Conceptos básicos: Análisis multivariante (AM)Conceptos básicos: Análisis multivariante (AM)

PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada

El AM se puede definir como:

Las técnicas estadísticas utilizadas para tratar múltiples variables que se deben analizar simultáneamente, y cuyos efectos no tienen sentido si se interpretan por separado. Son las técnicas estadísticas que miden, explican y predicen relaciones entre más de dos variables cuando sus efectos no tienen sentido si se interpretan por separado.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Conceptos básicos: Análisis multivariante (AM)Conceptos básicos: Análisis multivariante (AM)

PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada

Técnicas de independencia

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Conceptos básicos: Análisis multivariante (AM)Conceptos básicos: Análisis multivariante (AM)

PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada

Técnicas de dependencia

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Análisis multivariante: Regresión Logística BinariaAnálisis multivariante: Regresión Logística Binaria

PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada

Una variable binaria es aquella que sólo puede adquirir dos posibles valores (Sí-No, 0-1, Verdadero-Falso, etc.). Las variables binarias constituyen un subconjunto muy importante de las llamadas variables categóricas o cualitativas, las cuales están muy presentes en la economía y las ciencias sociales.

Cuando se pretende explicar, mediante un modelo de regresión, el comportamiento de una variable (llamada variable endógena o dependiente) en función de los valores que tomen otras (llamadas variables exógenas o explicativas), suele utilizarse un modelo de regresión lineal múltiple. El modelo lineal presenta ciertos problemas cuando la variable dependiente es binaria, lo cual lleva a usar modelos de regresión no lineales, específicamente pensados para realizar regresión con variables categóricas. Los modelos que analizaremos aquí serán el Logit y el Probit.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Análisis multivariante: Regresión Logística BinariaAnálisis multivariante: Regresión Logística Binaria

PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada

Las variables independientes Xj pueden tener distintos valores, sin embargo, la variable dependiente Y sólo puede adquirir el valor 0 o 1. La curva de regresión lineal no puede ajustarse a la función requerida, siendo que la logística (LOGIT) y la función de distribución de una normal (PROBIT) presentan una mayor proximidad.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

PARTE I. Estadística MultivariadaPARTE I. Estadística Multivariada

Fuente: Wikipedia

LOGIT- DefiniciónLOGIT- DefiniciónEn matemáticas, especialmente aquellas aplicadas en estadística, el logit de un número p entre 0 y 1 es:

(La base de la función logaritmo usada aquí es de poca importancia en el presente artículo, puesto que es mayor que 1, aunque el logaritmo natural con base e es usado a menudo.) La función logit es la inversa del "sigmoide", o función "logística".

Si p es una probabilidad entonces p/(1 − p) es el correspondiente odds, y el logit de la probabilidad es el logaritmo de los odds; similarmente la diferencia entre los logits de dos probabilidades es el logaritmo del odds ratio (OR), obteniéndose así un mecanismo aditivo para combinar odds-ratios:

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

PARTE I. Estadística Multivariada|PARTE I. Estadística Multivariada|

Fuente: Wikipedia

PROBIT - DefiniciónPROBIT - Definición

En probabilidad y estadística se llama función probit a la inversa de la función de distribución o función cuantil asociada con la distribución normal estándar. La función tiene aplicaciones en gráficos estadísticos exploratorios y modelos probit.

Para la distribución normal estándar (a menudo denotada por N(0,1)) la función de distribución se denota comúnmente por Φ. Φ es una función sigmoide continua y creciente, cuyos dominio y recorrido son la recta real y el intervalo (0, 1), respectivamente.

Por ejemplo, considérese el hecho de que la distribución N(0, 1) tiene un 95% de probabilidad entre -1,96 y 1,96 y es simétrica en un entorno de cero. De ahí se deduce que Φ(-1,96) = 0,025 = 1 - Φ(1,96).

La función probit proporciona el cálculo inverso, generando un valor de una variable aleatoria N(0, 1) asociado a una probabilidad acumulada bajo su curva. Formalmente, la función probit es la inversa de Φ(z), denotada Φ-1(p).

Siguiendo con el ejemplo, probit(0,025) = -1,96 = -probit(0,975).

En general, Φ(probit(p)) = p y probit(Φ(z)) = z

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

PARTE I. Estadística Multivariada|PARTE I. Estadística Multivariada|

EJEMPLOS DE APLICACIÓNEJEMPLOS DE APLICACIÓN

- Un banco que concede créditos a sus clientes quiere conocer la probabilidad de impago para un futuro cliente - Una empresa que va a iniciar su negocio en el sector textil quiere conocer la probabilidad de éxito que tendrá su puesta en funcionamiento. - Un profesor quiere conocer la probabilidad de aprobar su asignatura que tendrá un alumno. - Un político o inversor está interesado en conocer el riesgo que existe de producirse una crisis cambiaria en una determinada economía.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

PARTE I. Estadística Multivariada|PARTE I. Estadística Multivariada|

APLICACIÓN PRÁCTICAAPLICACIÓN PRÁCTICA

- Su aplicación requiere del uso de programas computacionales.- Existen varios disponibles. El que se usará será XLSTAT,

como complemento de Excel.- Como base de estudio de la aplicación de los modelos LOGIT

y PROBIT se usará la base de datos de estados financieros de todas las entidades financieras de Bolivia con una muestra de 10 años.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

PARTE IIPARTE II

Bases MultidimensionalesBases Multidimensionales

PARTE IIPARTE II

Bases MultidimensionalesBases Multidimensionales

Herramientas para el manejo de grandes

volúmenes de cálculos y datos

financieros

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Preparación de DatosPreparación de Datos

La transformación de grandes cantidades de datos en información útil y conocimiento es una inminente necesidad para la industria y la sociedad en general. Buscando cubrir esta necesidad surge el proceso de descubrimiento de conocimiento en bases de datos (Knowledge Discovery in Databases, KDD), el cual está compuesto por varias etapas. Un conjunto de estas etapas es conocido como preparación de datos y en la actualidad representa la mayor parte del esfuerzo destinado en las organizaciones al proceso de KDD. Sin embargo, llevar a cabo esa preparación de datos no es una labor fácil.

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Medidas y VariablesMedidas y Variables

Cuantitativas Reales

Variables Nominal

Cualitativas Categóricas

Ordinal

Hay cuatro tipos de mediciones o escalas de medición en estadística:•Las medidas de razón, en donde un valor cero y distancias entre diferentes mediciones son definidas, dan la mayor flexibilidad en métodos estadísticos que pueden ser usados para analizar los datos. •Las medidas de intervalo tienen distancias interpretables entre mediciones, pero un valor cero sin significado.•Las medidas ordinales tienen imprecisas diferencias entre valores consecutivos, pero un orden interpretable para sus valores. •Las medidas nominales no tienen ningún rango interpretable entre sus valores.

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Proceso de Generación de Conocimiento - KDDProceso de Generación de Conocimiento - KDD

Recolección de datos

Preparación de datos

Análisis de datos

Uso del conocimiento

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Proceso de Preparación de DatosProceso de Preparación de Datos

Limpieza

Valores faltantesOutliersErrores

Transformación

Selección

Reducción

Gerencialización

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

TransformaciTransformación vs Gerencializaciónón vs Gerencialización

El proceso de transformación hace referencia al trabajo relacionado con el vuelque de datos de un formato a otro. Ej.: Los datos con los que se requiere trabajar están en formato pdf y quiere volcárselos a formato Excel.

El proceso de gerencialización es el trabajo previo de acomodar los datos en una forma que resulten más fácilmente analizables. Ej.: Los datos del ejemplo anterior que ya están en Excel, posiblemente sean un conjunto de números que sea preferible visualizarlos como rangos o intervalos.

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Gerencialización de DatosGerencialización de Datos

TIPOS DE CAMPOS DE INFORMACIÓN•Numéricos•Rangos•Rangueables•Extractables•Información•Calculable

Hechos y dimensiones

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Gerencialización de DatosGerencialización de Datos

titulos de columnas

títul

os d

e fil

as

x x x x xx x x x xx x x x xx x x x xx x x x xx x x x xx x x x xx x x x xx x x x xx x x x xx x x x x

X

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Gerencialización de DatosGerencialización de Datos

x x x x xx x x x xx x x x xx x x x xx x x x xx x x x xx x x x xx x x x xx x x x xx x x x xx x x x x

títul

os d

e fil

astitulos de columnas

Dimensiones

Hechos

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

APLICACIÓN PRÁCTICAAPLICACIÓN PRÁCTICA

- Su aplicación requiere del uso de programas computacionales.- Se usará Excel- Se entregará al alumno una base de datos que requiere ser

gerencializada y la demostración de su utilidad será aplicando tablas dinámicas.

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Cubos OLAP - Conceptos básicosCubos OLAP - Conceptos básicos

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

Base de datos Multidimensional. Base de datos de estructura basada en dimensiones orientada a consultas complejas y alto rendimiento. (Oracle)

Las bases de datos multidimensionales se utilizan principalmente para crear aplicaciones OLAP y pueden verse como bases de datos de una sola tabla, su peculiaridad es que por cada dimensión tienen un campo (o columna), y otro campo por cada métrica o hecho. (Wikipedia)

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Cubos OLAPCubos OLAP

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

• Representa o convierte datos planos que se encuentran en filas y columnas, en una matriz de N dimensiones.

Los atributos existen a lo largo de varios ejes o dimensiones y la intersección de ellas representa el valor que tomará el indicador.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Cubos OLAPCubos OLAP

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

Ventas de televisores en 2008 en la región La Paz

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Cubos OLAP: Función de agregaciónCubos OLAP: Función de agregación

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Cubos OLAP: Función de RotaciónCubos OLAP: Función de Rotación

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Cubos OLAP: Función de cortado/paginaciónCubos OLAP: Función de cortado/paginación

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Cubos OLAP: Función de rebanadoCubos OLAP: Función de rebanado

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Cubos OLAP: PreparaciCubos OLAP: Preparación de los datosón de los datos

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

• Descripción de un proceso ETL (Extract, Transform, Load)• Características de los campos usados como dimensiones• Características de los campos usados como hechos• Concepto de las funciones de agregación• Demostración en Excel

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

APLICACIÓN PRÁCTICAAPLICACIÓN PRÁCTICA

- Su aplicación requiere del uso de programas computacionales.- Existen varios disponibles. El que se usará será Excel,

mediante su función de tablas y gráficos dinámicos.- Como base de estudio de la aplicación de cubos OLAP el

estudiante creará un cubo con los archivos en Excel proporcionados de estados financieros de entidades financieras en lo que son sus cuentas contingentes.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Conceptos básicos: Minería de datosConceptos básicos: Minería de datos

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Conceptos básicos: Minería de datosConceptos básicos: Minería de datos

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos.

Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Minería de datos: Aplicación en NegociosMinería de datos: Aplicación en Negocios

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

La minería de datos puede contribuir significativamente en las aplicaciones de administración empresarial basada en la relación con el cliente. En lugar de contactar con el cliente de forma indiscriminada a través de un centro de llamadas o enviando cartas, sólo se contactará con aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una determinada oferta o promoción.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Minería de datos: Aplicación en hábitos de compraMinería de datos: Aplicación en hábitos de compra

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

El ejemplo clásico de aplicación de la minería de datos tiene que ver con la detección de hábitos de compra en supermercados. Un estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los pañales para fomentar las ventas compulsivas.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Minería de datos: Aplicación en patrones de fugaMinería de datos: Aplicación en patrones de fuga

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

Un ejemplo más habitual es el de la detección de patrones de fuga. En muchas industrias —como la banca, las telecomunicaciones, etc.— existe un comprensible interés en detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia. A estos clientes —y en función de su valor— se les podrían hacer ofertas personalizadas, ofrecer promociones especiales, etc., con el objetivo último de retenerlos. La minería de datos ayuda a determinar qué clientes son los más proclives a darse de baja estudiando sus patrones de comportamiento y comparándolos con muestras de clientes que, efectivamente, se dieron de baja en el pasado.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Minería de datos: Aplicación en fraudesMinería de datos: Aplicación en fraudes

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

Un caso análogo es el de la detección de transacciones de blanqueo de dinero o de fraude en el uso de tarjetas de crédito o de servicios de telefonía móvil e, incluso, en la relación de los contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones característicos que permiten, con cierto grado de probabilidad, distinguirlas de las legítimas y desarrollar así mecanismos para tomar medidas rápidas frente a ellas.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Minería de datos: Aplicación en RR.HH.Minería de datos: Aplicación en RR.HH.

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

La minería de datos también puede ser útil para los departamentos de recursos humanos en la identificación de las características de sus empleados de mayor éxito. La información obtenida puede ayudar a la contratación de personal, centrándose en los esfuerzos de sus empleados y los resultados obtenidos por éstos. Además, la ayuda ofrecida por las aplicaciones para Dirección estratégica en una empresa se traducen en la obtención de ventajas a nivel corporativo, tales como mejorar el margen de beneficios o compartir objetivos; y en la mejora de las decisiones operativas, tales como desarrollo de planes de producción o gestión de mano de obra.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Minería de datos: Aplicación en uso de internetMinería de datos: Aplicación en uso de internet

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

También es un área en boga el del análisis del comportamiento de los visitantes —sobre todo, cuando son clientes potenciales— en una página de Internet. O la utilización de la información —obtenida por medios más o menos legítimos— sobre ellos para ofrecerles propaganda adaptada específicamente a su perfil. O para, una vez que adquieren un determinado producto, saber inmediatamente qué otro ofrecerle teniendo en cuenta la información histórica disponible acerca de los clientes que han comprado el primero.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Minería de datos: Aplicación en genéticaMinería de datos: Aplicación en genética

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

En el estudio de la genética humana, el objetivo principal es entender la relación cartográfica entre las partes y la variación individual en las secuencias del ADN humano y la variabilidad en la susceptibilidad a las enfermedades. En términos más llanos, se trata de saber cómo los cambios en la secuencia de ADN de un individuo afectan al riesgo de desarrollar enfermedades comunes (como por ejemplo el cáncer). Esto es muy importante para ayudar a mejorar el diagnóstico, prevención y tratamiento de las enfermedades. La técnica de minería de datos que se utiliza para realizar esta tarea se conoce como "reducción de dimensionalidad multifactorial".

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Minería de datos: Minería de datos: Demostración de usoDemostración de uso

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

• Existe infinidad de soluciones informáticas que apoyan en un proceso de minería de datos.

• El software elegido es el complemento de SQL Server - Datamining que ofrece Microsoft con interfaz para Excel.

• Explicación del requerimiento de datos preparados con orientación a bases multidimensionales.

• Ejemplos varios de uso para clasificación, cluster, pronóstico y otros

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

APLICACIÓN PRÁCTICAAPLICACIÓN PRÁCTICA

- Su aplicación requiere del uso de programas computacionales.- Se usará Excel, mediante el complemento que ofrece Microsoft

de datamining.- Como base de estudio de la aplicación de minería de datos, el

estudiante deberá usar al menos 3 técnicas que le ofrece la herramienta, basados en los datos de estados financieros de entidades del sistema financiero.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

PARTE IIIPARTE III

SimulaciónSimulación

PARTE IIIPARTE III

SimulaciónSimulación

Herramientas para el manejo de grandes

volúmenes de cálculos y datos

financieros

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Conceptos básicosConceptos básicos

PARTE III. SimulaciónPARTE III. Simulación

Simulación es una técnica numérica para conducir experimentos en una computadora digital. Estos experimentos comprenden ciertos tipos de relaciones matemáticas y lógicas, las cuales son necesarias para describir el comportamiento y la estructura de sistemas complejos del mundo real a través de largos períodos.

La simulación es el proceso de diseñar un modelo de un sistema real y llevar a término experiencias con él, con la finalidad de comprender el comportamiento del sistema o evaluar nuevas estrategias -dentro de los límites impuestos por un cierto criterio o un conjunto de ellos - para el funcionamiento del sistema.

Fuente: Wikipedia

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Conceptos básicosConceptos básicos: Modelo Montecarlo: Modelo Montecarlo

PARTE III. SimulaciónPARTE III. Simulación

• El método de Monte Carlo fue bautizado así por su analogía con los juegos de ruleta de los casinos, siendo el más célebre el de Monte Carlo, inaugurado en 1861. Resuelve una gran variedad de problemas haciendo experimentos con muestreos estadísticos en una computadora.

• Se analizan distribuciones de variables aleatorias usando simulación de números aleatorios.

• Comenzó a usarse como herramienta de investigación en los años 40 en el Proyecto Manhattan relacionado con la primera bomba atómica.

• El método de Monte Carlo convierte nuestro ordenador en un potente laboratorio de simulación.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Modelo Montecarlo vs. Modelos analíticosModelo Montecarlo vs. Modelos analíticos

PARTE III. SimulaciónPARTE III. Simulación

La construcción de un modelo analítico tiene con frecuencia serios inconvenientes:1)La dificultad de encontrar el modelo de ecuaciones que representen al sistema real y2)La dificultad para resolver el modelo.

Por otro lado, con frecuencia se requiere que los individuos que participan en el equipo deben tener una gran capacitación y destreza. De modo que estos equipos de trabajo suelen ser costosos. En contraparte, para obtener modelos de simulación, los equipos de trabajo pueden estar conformados por personas con menor calificación, de modo que la coordinación de estos equipos es en general más simple y casi siempre más económico. Con esto no se pretende decir que los modelos analíticos sean inútiles, ya que existen cierto tipo de problemas, para los cuales se conoce la forma de obtención del modelo así como la manera de construir un algoritmo eficiente para resolverlo.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Modelo Montecarlo: ImportanciaModelo Montecarlo: Importancia

PARTE III. SimulaciónPARTE III. Simulación

• Existen problemas numéricos de muy difícil solución por métodos exclusivamente analíticos.

• El desarrollo de los ordenadores posibilita la simulación de experimentos a través de números aleatorios o de números determinísticos pseudoaleatorios.

• Las aplicaciones posibles trascienden las propias Matemáticas: Magnitud de las emisiones de rayos cósmicos; tamaño crítico de los reactores nucleares; difusión y movimiento browniano; paso de líquidos a través de sólidos; propiedades de retículos poliméricos; características de los recipientes necesarios para el transporte de neutrones; aplicaciones de la teoría de colas a problemas comerciales como almacenamiento, sustitución y mantenimiento de equipos, gestión de seguros, etc.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Modelo Montecarlo: Casi todo es probableModelo Montecarlo: Casi todo es probable

PARTE III. SimulaciónPARTE III. Simulación

• Si hoy es lunes, mañana es martes; si pago, puedo comprar; si voy a la parada, pasará el micro, etc... Probabilidad 1. ¿La vida es determinista?

• ¿Y si cambia el tipo de calendario?... ¿Y si se produce un desabastecimiento?... ¿Y si cambia el tipo de calendario?... ¿Y si se produce un desabastecimiento?...¿Y si hay huelga de conductores? Casi nunca sucede…¿La vida es casi segura? Probabilidad cercana a 1.

• ¿Tu hijo nacerá en martes?...¿Cuánto tardarás en la cola del hipermercado?... ¿A qué hora pasará el próximo micro hacia tu trabajo?...Estamos rodeados de fenómenos azarosos… La vida en general es aleatoria. Probabilidad variable.

• ¿cuál es la probabilidad de que tus acciones suban mañana en Bolsa más del 5%?

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Modelo Montecarlo: AplicaciónModelo Montecarlo: Aplicación

PARTE III. SimulaciónPARTE III. Simulación

• Existe infinidad de soluciones informáticas que apoyan resolviendo modelos Montecarlo.

• El software elegido Crystal Ball que interactúa con Excel.• Explicación de la construcción de un modelo de simulación.• Ejemplos varios de uso del modelo Montecarlo.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

PARTE II. Bases MultidimensionalesPARTE II. Bases Multidimensionales

APLICACIÓN PRÁCTICAAPLICACIÓN PRÁCTICA

- Su aplicación requiere del uso de programas computacionales.- Se usará Crystal Ball..- Como base de estudio de la aplicación del modelo Montecarlo

el alumno construirá su propio modelo de simulación, establecerá las variables aleatorias, definiendo la variable dependiente de control y ejecutará Montecarlo, analizando el resultado obtenido.

Herramientas para el manejo de grandes volúmenes de datos y cálculos financierosHerramientas para el manejo de grandes volúmenes de datos y cálculos financieros

Herramientas para el manejo de grandes volúmenes de

cálculos y datos financieros

Herramientas para el manejo de grandes volúmenes de

cálculos y datos financieros

Material preparado por:Material preparado por:

Samir Homsi AragónSamir Homsi Aragón

Material preparado por:Material preparado por:

Samir Homsi AragónSamir Homsi Aragón