La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Introducción a la Minería de Datos

Presentaciones similares


Presentación del tema: "Introducción a la Minería de Datos"— Transcripción de la presentación:

1 Introducción a la Minería de Datos
Ing. Samuel Oporto Díaz (Mag)

2 Mapa del Curso Inteligencia de Negocios Metodología Kimball
Planeamiento del Proyecto Modelo del Negocio Modelado Dimensional Modelado Físico ETL Reportes Minería de Datos

3 Tabla de Contenido Inteligencia de Negocios
¿Qué es la Minería de Datos? Modelo de minería de datos Clasificación Regresión Agrupamiento Reglas de asociación Pronóstico

4 Mapa Conceptual de la Sesión
b&c Reglas de asociación Modelos de Clasificación Modelos de Pronóstico Modelos de Agrupamiento Modelos de Secuenciación Entendimiento del negocio Compresión de los datos Transformación de datos Modelado Evaluación CRIPS Metodología

5 INTELIGENCIA DE NEGOCIOS

6 Inteligencia de Negocios
Conjunto de técnicas y herramientas que apoyan la toma de decisiones enfocadas a la administración y creación de conocimiento mediante el análisis de datos existentes. Características: Información para el control de procesos del negocio, independientemente de la fuente de datos. Soporte a la toma de decisiones. Diferencia la información útil para los usuarios finales. Uniformiza los términos usados en la institución. Independientemente del origen de los datos o de la forma de extracción, transformación y agregación.

7 Niveles en el Uso de los Datos
Sistemas de Información BD operaciones repetitivas captura datos básicos tareas predefinidas actividades y transacciones elementales de BD Análisis, seguimiento y control Toma de decisiones Consulta datos históricos Planificación a largo plazo Planificación administrativa Planificación empresarial Mira el futuro Analítico Transaccional

8 Inteligencia de Negocios
Plazo Uso Técnica Tecnología Conocimiento Corto Plazo Gestión de datos Obtención y control Legacy Sistems OLTP On-Line Transaction Processing Datos Operativo Mediano Plazo Decisiones tácticas Data Warehouse OLAP On-Line Analytical Processing Información Toma de Decisiones Largo Plazo Estratégico, Pronóstico Minería de Datos Agrupamiento Clasificación Secuenciación Reglas de asociación Patrones Nuevos Conocimientos

9 Análisis y Complejidad

10 ¿QUÉ ES LA MINERÍA DE DATOS?

11 ¿Qué es la minería de datos?
Es el proceso de descubrir conocimiento desde los datos, mediante un proceso de extracción no trivial de información implícita, previamente desconocida y potencialmente útil. Es el conjunto de técnicas para el análisis de los datos y el descubrimiento de patrones escondidos. El conocimiento es representado mediante patrones o modelos Selección de datos Base de Datos Data Seleccionada Data Pre-procesada Minería de Datos Patrones Pre-procesamiento

12 Conocimiento Evidente Mutidimensional Oculto
Mayor parte de la información de la base de Datos Aproximadamente el 80% Fácilmente recuperable mediante consultas SQL Mutidimensional Información útil para el tomador de decisiones. Tratamiento multidimensional de los datos Tablas de n – dimensiones vs. Tablas mono-dimensionales Se extrae mediante herramientas OLAP Oculto Información muy valiosa y desconocida. Recuperable mediante Data Mining

13 Conocimiento El conocimiento es toda aquella información que sirve para tomar decisiones (útil). El conocimiento humano se obtiene por experimentación (imitación o prueba y error). El conocimiento se aprende El conocimiento humano no necesariamente puede ser representado para ser almacenado El conocimiento humano representado más abundante es el texto escrito (información no estructurada)

14 Tipos de Conocimiento Explícito.
Es el que sabemos que tenemos y somos conscientes cuando lo ejecutamos, se encuentra estructurado y esquematizado para su difusión. Se pueden transmitir y vender. Tácito. Permanece en un nivel inconsciente e intuitivo, se encuentra desarticulado, lo implementamos y ejecutamos de una manera mecánica sin darnos cuenta. Se transmite mediante la observación y la imitación. Se adquiere por hábito. Es difícil de extraer, pero es muy valioso.

15 Representación del Conocimiento
Conocimiento Declarativo. Es información sobre cómo está organizado el mundo y lo que sucede en él. Es una "memoria declarativa“ Es una memoria semántica compuesta por unidades cognitivas formando una red Conocimiento Procedural Relaciona secuencia de acciones. Existe causalidad, se basa en algoritmos. Puede usar la memoria declarativa.

16 Modelos Conocimiento = modelos.
Un modelo es un intento de entender algún aspecto de la realidad. Intenta representar algún aspecto del mundo y explicar su comportamiento. Permite pasar de la observación a la teoría. Se construyen para ser transmitidos. ¿What IF?

17 Modelos Qué aspectos de la realidad se pueden modelar usado el conocimiento? Tendencias, patrones, reglas de comportamiento, restricciones, relaciones, grupos, etc. ¿Qué tipos de modelos existen? Fuerte tendencia a la estadística Uso en la predicción el pronóstico a b&c + Probable - Contingente

18 El Ciclo del Conocimiento
Datos del medio ambiente Conocimiento Consolidado Generación de Teorías Prueba y Aplicación Observación y Análisis Información Problemas Oportunidades Resultados Métodos Enfoque Conocimiento

19 Ejercicio 1 Caracterice el conocimiento relacionado a la decisión que toma un analista de crédito cuando decide otorgar un préstamo a una persona. Diga de que forma se puede representar el conocimiento necesario para que tome esta decisión. ¿Este conocimiento es procedural, declarativo o ambos? ¿Este conocimiento es explicito o tácito? ¿Es automatizable?, ¿por qué?

20 La necesidad para minería de datos
Problema de la explosión de los datos. Las herramientas de captura automática de datos y tecnologías maduras de base de datos permiten que grandes cantidades de datos sean almacenados en BD, DataMarts y otros repositorios de información. Estamos ahogados en datos, pero hambrientos de conocimiento. Los sistemas de captura de datos son usados intensamente y no existe tiempo para analizar los datos.

21 Aplicaciones Retención de Clientes ¿Cuáles clientes se van ir para la competencia? Patrones de Compra ¿Cuándo un cliente compra un producto cuál otro le podría interesar? Detección de Fraude ¿Cuáles transacciones son fraudulentas? Manejo del Riesgo ¿A qué clientes les doy un préstamo? Segmentación de clientes ¿Quiénes son mis clientes? Predicción de Ventas ¿Cuánto voy a vender el próximos mes?

22 MODELOS DE LA MINERÍA DE DATOS

23 Tipos de Modelos de Minería de Datos
Clasificación. Clasificar objetos en clases (categórico) Regresión. Mapeo de variables (continuo) Pronóstico. Series de tiempo. Agrupamiento. Identificar grupos en los datos Reglas de Buscar relaciones en los datos Asociación. Secuenciación Identificar el siguiente de la secuencia. P P D D D

24 Clasificación Intenta clasificar algunos objetos en un número finito de clases, en función a sus propiedades (características) Se intenta buscar un función de mapeo que permita separar la clase 1 de la clase 2 y esta de la clase 3… Las variables (atributos) pueden ser categóricas o numéricas. El modelo se construye con datos completos, cada registro tiene una clase predefinida. Busca formas de separar la data en clases pre-definidas Árboles de decisión. Redes Neuronales. Clasificador Bayesiano. Razonamiento basado en casos

25 Clasificación Atraer los clientes mas rentables. % ingresos % clientes
Clasificar a los clientes según la respuesta que se obtiene ente una campaña de mailing Gráfico de elevación: % clientes % ingresos Mail a 30% de los clientes para recibir el 60% de los ingresos La historias han demostrado como Data Mining a hecho la diferencia en su negocio. Por ejemplo usted podrán enfocar su correo directo a los clientes mas rentables de una forma mas efectiva reduciendo los costos de envio y materiales de promoción. En este ejemplo usted podrá enviar menos correos directos obteniendo casi el mismo nivel de respuesta que enviando una cantidad de correos masiva al azar.

26 Regresión Intenta determinar la función que mapea un conjunto de variables de entrada X (independiente), en una (o más) variables de salida Y (dependiente), . Es básicamente numérica. Está basada en supuestos estadísticos. Árboles de decisión. Redes Neuronales. Regresión Logística

27 Regresión Fraudes en el uso de servicios.
Para detectar comportamientos fraudulentos se usan los datos. Por medio de clusters o perfiles de los diferentes tipos de comportamiento se puede descubrir patrones o huellas de fraude. Como se muestra en la gráfica, se puede modelar el comportamiento normal y enfocarse en los valores atípicos para detectar los posible fraudes

28 Series de Tiempo Una serie de tiempo es un conjunto de observaciones hechas a una variables en momentos equidistantes de tiempo ARIMA. Redes Neuronales.

29 Series de Tiempo Pronosticar la demanda de dinero en un cajero electrónico.

30 Agrupamiento (Clustering)
(Clasificación no supervisada) Intenta agrupar una serie de objetos en grupos. Cada objeto es representado por un vector de atributos n-dimensional. Los objetos que forman cada grupo deben ser disimilares. La similaridad es medida del grado de proximidad. Luego cada grupo es etiquetado. K-means (agrupamiento exclusivo) Fuzzy C-means (agrupamiento con traslape) Angulo de distribución mínima Método de autoorganización (SOM) Razonamiento Adaptativo

31 Agrupamiento Mantener a los clientes más rentables.
Se gasta mas dinero en mantenerlos Clientes más rentables Con Data Mining usted puede crear perfiles para encontrar sus clientes mas rentables y poder predecir cuales se podrían ir con su competencia. Con esta información usted podrá desarrollar planes efectivos de lealtad de su cliente.

32 Reglas de Asociación Analiza los datos para descubrir reglas que identifiquen patrones o comportamientos. Reglas de la forma A  B. Usa algoritmos intensivos en procesamiento. Análisis de la cesta de la compra (market basket analysis). A priori A priori predictivo Encuentre ¿qué grupos de ítems comúnmente se declaran juntos? Haciendo el soporte mínimo del 50% y la confianza mínima del 50% , tenemos: A  C ( 50%, 66.6%) C  A ( 50%, 100%) ID Declaración 2000 A,B,C 1000 A,C 4000 A,D 5000 B,E,F

33 Reglas de Asociación Realizar ventas cruzadas de manera más efectiva.
El producto A con que otro producto se vende más. Data Mining puede ayudar a encontrar cual es el mejor paquete de productos que le puede ofrecer a sus clientes existentes para que su relación sea mas rentable. Por ejemplo se pueden encontrar afinidades entre los productos que se consumen para realizar promociones y ofertas focalizadas. Colocar en estantes cercanos los productos que presentan alto grado de afinidad.

34 Secuenciación Modelo de Markov
Buscar secuencias que son usualmente probables. Requiere entrenamiento, lista de eventos, conocimiento de eventos interesantes. Debe ser robusto en la fase de adicionar eventos con ruido. Usado en el análisis de fallas y predicción. Modelo de Markov Agrupamiento MDD (Maximal Dependence Decomposition Clustering) A B HTHHTHHttthtttHHTHHHHtthtthttht...

35 Secuenciación Identificar el patrón de visitas a un Portal Web, en qué orden se visitan las página, en qué pagina se inicia la visita, desde qué página se sale con más frecuencia. Identificar el patrón de visitas a un supermercado, en qué orden el público visita los estantes

36 Bibliografía Data Mining: Practical Machine Learning Tools and Techniques. Ian H. Witten, Eibe Frank. Morgan Kaufmann; 2st edition (June 8, 2005). 560 pp. Data Mining with SQL Server ZhaoHui Tang, Jamie MacLennan. Wiley Publishing Inc. (2004). Data Mining: Concepts and Techniques, Jiawei Han, Micheline Kamber. Morgan Kaufmann; 1st edition (August, 2000), 500 pp. Introducción a la minería de datos. J. Hernández, J. Ramírez.

37 PREGUNTAS

38 soporto@wiphala.net http://www.wiphala.net/oporto
Mg. Samuel Oporto Díaz


Descargar ppt "Introducción a la Minería de Datos"

Presentaciones similares


Anuncios Google