La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag)

Presentaciones similares


Presentación del tema: "Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag)"— Transcripción de la presentación:

1 Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag)

2 Mapa del Curso Inteligencia de Negocios Metodología Kimball Planeamiento del Proyecto Modelo del Negocio Modelado Dimensional Modelado Físico ETL Reportes Minería de Datos

3 Tabla de Contenido Inteligencia de Negocios ¿Qué es la Minería de Datos? Modelo de minería de datos –Clasificación –Regresión –Agrupamiento –Reglas de asociación –Pronóstico

4 Mapa Conceptual de la Sesión CRIPS 1.Entendimiento del negocio 2.Compresión de los datos 3.Transformación de datos 4.Modelado 5.Evaluación ab&c Reglas de asociación Modelos de Clasificación Modelos de Pronóstico Modelos de Agrupamiento Modelos de Secuenciación Metodología

5 INTELIGENCIA DE NEGOCIOS

6 Inteligencia de Negocios Inteligencia de Negocios. Conjunto de técnicas y herramientas que apoyan la toma de decisiones enfocadas a la administración y creación de conocimiento mediante el análisis de datos existentes. Características: 1.Información para el control de procesos del negocio, independientemente de la fuente de datos. 2.Soporte a la toma de decisiones. 3.Diferencia la información útil para los usuarios finales. 4.Uniformiza los términos usados en la institución. Independientemente del origen de los datos o de la forma de extracción, transformación y agregación.

7 Niveles en el Uso de los Datos Sistemas de Información BD operaciones repetitivas captura datos básicos tareas predefinidas actividades y transacciones elementales de BD Análisis, seguimiento y control Toma de decisiones Consulta datos históricos Planificación a largo plazo Planificación administrativa Planificación empresarial Mira el futuro Transaccional Analítico

8 Inteligencia de Negocios PlazoUsoTécnicaTecnología Conocimiento Corto Plazo Gestión de datos Obtención y control Legacy Sistems OLTP On-Line Transaction Processing Datos Operativo Mediano Plazo Decisiones tácticas Data Warehouse OLAP On-Line Analytical Processing Información Toma de Decisiones Largo Plazo Estratégico, Pronóstico Minería de Datos Agrupamiento Clasificación Secuenciación Reglas de asociación Patrones Nuevos Conocimientos

9 Análisis y Complejidad

10 ¿QUÉ ES LA MINERÍA DE DATOS?

11 ¿Qué es la minería de datos? Es el proceso de descubrir conocimiento desde los datos, mediante un proceso de extracción no trivial de información implícita, previamente desconocida y potencialmente útil. Es el conjunto de técnicas para el análisis de los datos y el descubrimiento de patrones escondidos. El conocimiento es representado mediante patrones o modelos Selección de datos Base de Datos Data Seleccionada Data Pre-procesada Minería de Datos Patrones Pre-procesamiento de Datos

12 Conocimiento Oculto Mutidimensional Evidente Mayor parte de la información de la base de Datos Aproximadamente el 80% Fácilmente recuperable mediante consultas SQL Información útil para el tomador de decisiones. Tratamiento multidimensional de los datos Tablas de n – dimensiones vs. Tablas mono-dimensionales Se extrae mediante herramientas OLAP Información muy valiosa y desconocida. Recuperable mediante Data Mining

13 Conocimiento El conocimiento es toda aquella información que sirve para tomar decisiones (útil). El conocimiento humano se obtiene por experimentación (imitación o prueba y error). El conocimiento se aprende El conocimiento humano no necesariamente puede ser representado para ser almacenado El conocimiento humano representado más abundante es el texto escrito (información no estructurada)

14 Tipos de Conocimiento Explícito. Es el que sabemos que tenemos y somos conscientes cuando lo ejecutamos, se encuentra estructurado y esquematizado para su difusión. Se pueden transmitir y vender. Tácito. Permanece en un nivel inconsciente e intuitivo, se encuentra desarticulado, lo implementamos y ejecutamos de una manera mecánica sin darnos cuenta. Se transmite mediante la observación y la imitación. Se adquiere por hábito. Es difícil de extraer, pero es muy valioso.

15 Representación del Conocimiento Conocimiento Declarativo. Es información sobre cómo está organizado el mundo y lo que sucede en él. Es una "memoria declarativa Es una memoria semántica compuesta por unidades cognitivas formando una red Conocimiento Procedural Relaciona secuencia de acciones. Existe causalidad, se basa en algoritmos. Puede usar la memoria declarativa.

16 Modelos Conocimiento = modelos. Un modelo es un intento de entender algún aspecto de la realidad. Intenta representar algún aspecto del mundo y explicar su comportamiento. Permite pasar de la observación a la teoría. Se construyen para ser transmitidos. ¿What IF?

17 Modelos Qué aspectos de la realidad se pueden modelar usado el conocimiento? Tendencias, patrones, reglas de comportamiento, restricciones, relaciones, grupos, etc. ¿Qué tipos de modelos existen? Fuerte tendencia a la estadística Uso en la predicción el pronóstico ab&c

18 El Ciclo del Conocimiento Datos del medio ambiente Conocimiento Consolidado Generación de Teorías Prueba y Aplicación Observación y Análisis Información Problemas Oportunidades Resultados Métodos Enfoque Conocimiento

19 Ejercicio 1 Caracterice el conocimiento relacionado a la decisión que toma un analista de crédito cuando decide otorgar un préstamo a una persona. Diga de que forma se puede representar el conocimiento necesario para que tome esta decisión. ¿Este conocimiento es procedural, declarativo o ambos? ¿Este conocimiento es explicito o tácito? ¿Es automatizable?, ¿por qué?

20 La necesidad para minería de datos Problema de la explosión de los datos. –Las herramientas de captura automática de datos y tecnologías maduras de base de datos permiten que grandes cantidades de datos sean almacenados en BD, DataMarts y otros repositorios de información. Estamos ahogados en datos, pero hambrientos de conocimiento. –Los sistemas de captura de datos son usados intensamente y no existe tiempo para analizar los datos.

21 Aplicaciones Retención de Clientes ¿Cuáles clientes se van ir para la competencia? Patrones de Compra ¿Cuándo un cliente compra un producto cuál otro le podría interesar? Detección de Fraude ¿Cuáles transacciones son fraudulentas? Manejo del Riesgo ¿A qué clientes les doy un préstamo? Segmentación de clientes ¿Quiénes son mis clientes? Predicción de Ventas ¿Cuánto voy a vender el próximos mes?

22 MODELOS DE LA MINERÍA DE DATOS

23 Tipos de Modelos de Minería de Datos Clasificación.Clasificar objetos en clases (categórico) Regresión.Mapeo de variables (continuo) Pronóstico.Series de tiempo. Agrupamiento.Identificar grupos en los datos Reglas deBuscar relaciones en los datos Asociación. SecuenciaciónIdentificar el siguiente de la secuencia. P D D D P

24 Clasificación Intenta clasificar algunos objetos en un número finito de clases, en función a sus propiedades (características) Se intenta buscar un función de mapeo que permita separar la clase 1 de la clase 2 y esta de la clase 3… Las variables (atributos) pueden ser categóricas o numéricas. El modelo se construye con datos completos, cada registro tiene una clase predefinida. Busca formas de separar la data en clases pre-definidas Árboles de decisión. Redes Neuronales. Clasificador Bayesiano. Razonamiento basado en casos

25 Clasificación Atraer los clientes mas rentables. Clasificar a los clientes según la respuesta que se obtiene ente una campaña de mailing Gráfico de elevación: % clientes % ingresos Mail a 30% de los clientes para recibir el 60% de los ingresos

26 Regresión Intenta determinar la función que mapea un conjunto de variables de entrada X (independiente), en una (o más) variables de salida Y (dependiente),. Es básicamente numérica. Está basada en supuestos estadísticos. Árboles de decisión. Redes Neuronales. Regresión Logística

27 Regresión Fraudes en el uso de servicios. Para detectar comportamientos fraudulentos se usan los datos. Por medio de clusters o perfiles de los diferentes tipos de comportamiento se puede descubrir patrones o huellas de fraude. Como se muestra en la gráfica, se puede modelar el comportamiento normal y enfocarse en los valores atípicos para detectar los posible fraudes

28 Series de Tiempo Una serie de tiempo es un conjunto de observaciones hechas a una variables en momentos equidistantes de tiempo ARIMA. Redes Neuronales.

29 Series de Tiempo Pronosticar la demanda de dinero en un cajero electrónico.

30 Agrupamiento (Clustering) (Clasificación no supervisada) Intenta agrupar una serie de objetos en grupos. Cada objeto es representado por un vector de atributos n-dimensional. Los objetos que forman cada grupo deben ser disimilares. La similaridad es medida del grado de proximidad. Luego cada grupo es etiquetado. K-means (agrupamiento exclusivo) Fuzzy C- means (agrupamiento con traslape) Angulo de distribución mínima Método de autoorganizac ión (SOM) Razonamient o Adaptativo

31 Agrupamiento Mantener a los clientes más rentables. Se gasta mas dinero en mantenerlos Clientes más rentables

32 Reglas de Asociación Analiza los datos para descubrir reglas que identifiquen patrones o comportamientos. Reglas de la forma A B. Usa algoritmos intensivos en procesamiento. Análisis de la cesta de la compra (market basket analysis). IDDeclaración 2000A,B,C 1000A,C 4000A,D 5000B,E,F Encuentre ¿qué grupos de ítems comúnmente se declaran juntos? Haciendo el soporte mínimo del 50% y la confianza mínima del 50%, tenemos: A C ( 50%, 66.6%) C A ( 50%, 100%) A priori A priori predictivo

33 Reglas de Asociación Realizar ventas cruzadas de manera más efectiva. El producto A con que otro producto se vende más.

34 Secuenciación Buscar secuencias que son usualmente probables. Requiere entrenamiento, lista de eventos, conocimiento de eventos interesantes. Debe ser robusto en la fase de adicionar eventos con ruido. Usado en el análisis de fallas y predicción. Modelo de Markov Agrupamiento MDD ( Maximal Dependence Decomposition Clustering ) A B HTHHTHHttthtttHHTHHHHtthtthttht...

35 Secuenciación Identificar el patrón de visitas a un Portal Web, en qué orden se visitan las página, en qué pagina se inicia la visita, desde qué página se sale con más frecuencia. Identificar el patrón de visitas a un supermercado, en qué orden el público visita los estantes

36 Bibliografía Data Mining: Practical Machine Learning Tools and Techniques. Ian H. Witten, Eibe Frank. Morgan Kaufmann; 2st edition (June 8, 2005). 560 pp. Data Mining with SQL Server ZhaoHui Tang, Jamie MacLennan. Wiley Publishing Inc. (2004). Data Mining: Concepts and Techniques, Jiawei Han, Micheline Kamber. Morgan Kaufmann; 1st edition (August, 2000), 500 pp. Introducción a la minería de datos. J. Hernández, J. Ramírez.

37 PREGUNTAS

38 Mg. Samuel Oporto Díaz


Descargar ppt "Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag)"

Presentaciones similares


Anuncios Google