Introducción a la Minería de Datos

Slides:



Advertisements
Presentaciones similares
Data Mining Minería de Datos Universidad Tecnológica Metropolitana
Advertisements

Modelado – Árbol de Decisión
“El conocimiento es experiencia, todo lo demás es información”
Inteligencia de Negocios
Introducción a la Minería de Datos
Introducción al Procesamiento de Imagenes
Introducción a la minería de datos
ORACLE OLAP Integrantes: *Aizaga, Martiniano *Gallegos, Marina
DATA MINING MINERIA DE DATOS Gersom Costas.
DATA WAREHOUSE Presentador Por: Andrés Fabián Cortes Solano.
Herramientas para la Investigación
PLANIFICACIÓN Y CONTROL DE LA PRODUCCIÓN
ANÁLISIS DE LAS OPORTUNIDADES DE MERCADO Y EVALUACIÓN DE LA CAPACIDAD DE LA COMPAÑÍA CAPÍTULO 2 INTEGRANTES: ARTURO CABRERA MADRIGAL LUIS MONTES REYES.
SENA REGIONAL HUILA REGIONAL HUILA CENTRO DE LA INDUSTRIA LA EMPRESA Y LOS SERVICIOS Huila Elementos de Información En teoría de.
• SQL Server Analysis Services Data Mining
Planificación y Control de la Producción I
Data Mining Integrantes: Rojas Correa, Trinidad Romanskyy, Bohdan
K-NN: K vecinos más cercanos
Business Intelligence and Decision Support
ADMINISTRACIÓN DE TECNOLOGIAS DE INFORMACIÓN Y COMUNICACIÓN
El proceso de extracción de conocimiento
Informe caso de estudio Implementación de un Datawarehouse
Jesús Angel Ovando División de Estudios de Posgrado Instituto Tecnológico de Orizaba.
VIVIANA ACHURY S. ANGIE NATALIA GARCIA S.. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos (Bajo.
Especialista en Business Intelligence Analysis Services SSAS (Sesión 14) Microsoft SQL Server 2008 R2 Suscribase a o escríbanos a
On Line Analytical Processing
Especialista en Business Intelligence Analysis Services SSAS (Sesión 14) Microsoft SQL Server 2008 R2 (2013) Suscribase a o escríbanos.
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
INTELIGENCIA DE NEGOCIOS
Minería de Datos con Clementine
Sesión 2: Métodos Probabilísticos Básicos
Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".
Business Intelligence y Data Mining
DATA WAREHOUSE Equipo 9.
RESUMEN En este artículo se describe en forma breve una de las líneas de investigación que se están llevando a cabo en el Laboratorio de Tecnologías Emergentes.
Por favor dar doble Click al siguiente Video
Análisis y Diseño Orientado a Objetos utilizando UML
PARTE I: INTRODUCCIÓN José Hernández Orallo
METODOS CUANTITATIVOS PARA LA TOMA DE DECISIONES
Proceso KDD MSc. Carlos Alberto Cobos Lozada
Introducción a la investigación de mercados Naresh malhotra
Ing. Gustavo Tripodi – unicen. edu
Especialista en Business Intelligence Conceptos fundamentales Microsoft SQL Server 2008 R2 Suscribase a o escríbanos a
Introducción a Pentaho BI Suite 3.5
GUTIÉRREZ GRANADOS HÉCTOR DANIEL
Nuevos Productos Macro Pro ofrece varias soluciones complementarias para cumplir con los objetivos de control y análisis de información de nuestros clientes.
Fundamentos de Sistemas de Información
1 Prof:Paula Quitral INTRODUCCIÓN MINERIA DE DATOS Departamento de Informática Universidad de Rancagua.
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
ORACLE OLAP CAECE Integrantes: *Aizaga, Martiniano *Gallegos, Marina *Kleinlein, Guillermo *Schiano di Cola, Emiliano.
LOS SISTEMAS DE INFORMACIÓN INVESTIGACIÓN DE MERCADOS
Sistemas de Información
KDD y Técnicas de Minería de Datos en Weka
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
Taller de Business Intelligence Conceptos Introductorios a BI
Taller de Business Intelligence
Business Intelligence. Análisis de DiagnósticoAnálisis PredictivosAnálisis PrescriptivosAnálisis Descriptivos Análisis enfocados al diseño de tendencias.
Taller de Inteligencia de Negocios SQL Server Analysis Services Data Mining Semana 11.
SOLUCIONES EMPRESARIALES
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Minería de Datos MC BEATRIZ BELTRÁN MARTÍNEZ FACULTAD DE CIENCIAS DE LA COMPUTACIÓN. Primavera 2016.
Business Intelligence 2013 (Conceptos Generales) Microsoft SQL Server 2008 R2 Suscribase a o escríbanos a
DATA MINING. Extracción de información oculta y predecible de grandes bases de datos Poderosa tecnología que ayuda a concentrase en la información importante.

Ing. Ernesto Sierraalta Fundamentos de Desarrollo de Proyectos de Inteligencia de Negocios ( Decision Support Systems & Data Warehousing.
Es el proceso mediante el cual quienes toman decisiones en una organización obtienen, procesan y analizan información pertinente, interna y externa,
Copyright © 2010 SAS Institute Inc. All rights reserved. ¿Cómo optimizar la efectividad de las acciones de marketing mediante una plataforma integrada.
Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.
Transcripción de la presentación:

Introducción a la Minería de Datos Ing. Samuel Oporto Díaz (Mag) soporto@wiphala.net

Mapa del Curso Inteligencia de Negocios Metodología Kimball Planeamiento del Proyecto Modelo del Negocio Modelado Dimensional Modelado Físico ETL Reportes Minería de Datos

Tabla de Contenido Inteligencia de Negocios ¿Qué es la Minería de Datos? Modelo de minería de datos Clasificación Regresión Agrupamiento Reglas de asociación Pronóstico

Mapa Conceptual de la Sesión b&c Reglas de asociación Modelos de Clasificación Modelos de Pronóstico Modelos de Agrupamiento Modelos de Secuenciación Entendimiento del negocio Compresión de los datos Transformación de datos Modelado Evaluación CRIPS Metodología

INTELIGENCIA DE NEGOCIOS

Inteligencia de Negocios Conjunto de técnicas y herramientas que apoyan la toma de decisiones enfocadas a la administración y creación de conocimiento mediante el análisis de datos existentes. Características: Información para el control de procesos del negocio, independientemente de la fuente de datos. Soporte a la toma de decisiones. Diferencia la información útil para los usuarios finales. Uniformiza los términos usados en la institución. Independientemente del origen de los datos o de la forma de extracción, transformación y agregación.

Niveles en el Uso de los Datos Sistemas de Información BD operaciones repetitivas captura datos básicos tareas predefinidas actividades y transacciones elementales de BD Análisis, seguimiento y control Toma de decisiones Consulta datos históricos Planificación a largo plazo Planificación administrativa Planificación empresarial Mira el futuro Analítico Transaccional

Inteligencia de Negocios Plazo Uso Técnica Tecnología Conocimiento Corto Plazo Gestión de datos Obtención y control Legacy Sistems OLTP On-Line Transaction Processing Datos Operativo Mediano Plazo Decisiones tácticas Data Warehouse OLAP On-Line Analytical Processing Información Toma de Decisiones Largo Plazo Estratégico, Pronóstico Minería de Datos Agrupamiento Clasificación Secuenciación Reglas de asociación Patrones Nuevos Conocimientos

Análisis y Complejidad

¿QUÉ ES LA MINERÍA DE DATOS?

¿Qué es la minería de datos? Es el proceso de descubrir conocimiento desde los datos, mediante un proceso de extracción no trivial de información implícita, previamente desconocida y potencialmente útil. Es el conjunto de técnicas para el análisis de los datos y el descubrimiento de patrones escondidos. El conocimiento es representado mediante patrones o modelos Selección de datos Base de Datos Data Seleccionada Data Pre-procesada Minería de Datos Patrones Pre-procesamiento

Conocimiento Evidente Mutidimensional Oculto Mayor parte de la información de la base de Datos Aproximadamente el 80% Fácilmente recuperable mediante consultas SQL Mutidimensional Información útil para el tomador de decisiones. Tratamiento multidimensional de los datos Tablas de n – dimensiones vs. Tablas mono-dimensionales Se extrae mediante herramientas OLAP Oculto Información muy valiosa y desconocida. Recuperable mediante Data Mining

Conocimiento El conocimiento es toda aquella información que sirve para tomar decisiones (útil). El conocimiento humano se obtiene por experimentación (imitación o prueba y error). El conocimiento se aprende El conocimiento humano no necesariamente puede ser representado para ser almacenado El conocimiento humano representado más abundante es el texto escrito (información no estructurada)

Tipos de Conocimiento Explícito. Es el que sabemos que tenemos y somos conscientes cuando lo ejecutamos, se encuentra estructurado y esquematizado para su difusión. Se pueden transmitir y vender. Tácito. Permanece en un nivel inconsciente e intuitivo, se encuentra desarticulado, lo implementamos y ejecutamos de una manera mecánica sin darnos cuenta. Se transmite mediante la observación y la imitación. Se adquiere por hábito. Es difícil de extraer, pero es muy valioso.

Representación del Conocimiento Conocimiento Declarativo. Es información sobre cómo está organizado el mundo y lo que sucede en él. Es una "memoria declarativa“ Es una memoria semántica compuesta por unidades cognitivas formando una red Conocimiento Procedural Relaciona secuencia de acciones. Existe causalidad, se basa en algoritmos. Puede usar la memoria declarativa.

Modelos Conocimiento = modelos. Un modelo es un intento de entender algún aspecto de la realidad. Intenta representar algún aspecto del mundo y explicar su comportamiento. Permite pasar de la observación a la teoría. Se construyen para ser transmitidos. ¿What IF?

Modelos Qué aspectos de la realidad se pueden modelar usado el conocimiento? Tendencias, patrones, reglas de comportamiento, restricciones, relaciones, grupos, etc. ¿Qué tipos de modelos existen? Fuerte tendencia a la estadística Uso en la predicción el pronóstico a b&c + Probable - Contingente

El Ciclo del Conocimiento Datos del medio ambiente Conocimiento Consolidado Generación de Teorías Prueba y Aplicación Observación y Análisis Información Problemas Oportunidades Resultados Métodos Enfoque Conocimiento

Ejercicio 1 Caracterice el conocimiento relacionado a la decisión que toma un analista de crédito cuando decide otorgar un préstamo a una persona. Diga de que forma se puede representar el conocimiento necesario para que tome esta decisión. ¿Este conocimiento es procedural, declarativo o ambos? ¿Este conocimiento es explicito o tácito? ¿Es automatizable?, ¿por qué?

La necesidad para minería de datos Problema de la explosión de los datos. Las herramientas de captura automática de datos y tecnologías maduras de base de datos permiten que grandes cantidades de datos sean almacenados en BD, DataMarts y otros repositorios de información. Estamos ahogados en datos, pero hambrientos de conocimiento. Los sistemas de captura de datos son usados intensamente y no existe tiempo para analizar los datos.

Aplicaciones Retención de Clientes ¿Cuáles clientes se van ir para la competencia? Patrones de Compra ¿Cuándo un cliente compra un producto cuál otro le podría interesar? Detección de Fraude ¿Cuáles transacciones son fraudulentas? Manejo del Riesgo ¿A qué clientes les doy un préstamo? Segmentación de clientes ¿Quiénes son mis clientes? Predicción de Ventas ¿Cuánto voy a vender el próximos mes?

MODELOS DE LA MINERÍA DE DATOS

Tipos de Modelos de Minería de Datos Clasificación. Clasificar objetos en clases (categórico) Regresión. Mapeo de variables (continuo) Pronóstico. Series de tiempo. Agrupamiento. Identificar grupos en los datos Reglas de Buscar relaciones en los datos Asociación. Secuenciación Identificar el siguiente de la secuencia. P P D D D

Clasificación Intenta clasificar algunos objetos en un número finito de clases, en función a sus propiedades (características) Se intenta buscar un función de mapeo que permita separar la clase 1 de la clase 2 y esta de la clase 3… Las variables (atributos) pueden ser categóricas o numéricas. El modelo se construye con datos completos, cada registro tiene una clase predefinida. Busca formas de separar la data en clases pre-definidas Árboles de decisión. Redes Neuronales. Clasificador Bayesiano. Razonamiento basado en casos

Clasificación Atraer los clientes mas rentables. % ingresos % clientes Clasificar a los clientes según la respuesta que se obtiene ente una campaña de mailing Gráfico de elevación: % clientes % ingresos Mail a 30% de los clientes para recibir el 60% de los ingresos La historias han demostrado como Data Mining a hecho la diferencia en su negocio. Por ejemplo usted podrán enfocar su correo directo a los clientes mas rentables de una forma mas efectiva reduciendo los costos de envio y materiales de promoción. En este ejemplo usted podrá enviar menos correos directos obteniendo casi el mismo nivel de respuesta que enviando una cantidad de correos masiva al azar.

Regresión Intenta determinar la función que mapea un conjunto de variables de entrada X (independiente), en una (o más) variables de salida Y (dependiente), . Es básicamente numérica. Está basada en supuestos estadísticos. Árboles de decisión. Redes Neuronales. Regresión Logística

Regresión Fraudes en el uso de servicios. Para detectar comportamientos fraudulentos se usan los datos. Por medio de clusters o perfiles de los diferentes tipos de comportamiento se puede descubrir patrones o huellas de fraude. Como se muestra en la gráfica, se puede modelar el comportamiento normal y enfocarse en los valores atípicos para detectar los posible fraudes

Series de Tiempo Una serie de tiempo es un conjunto de observaciones hechas a una variables en momentos equidistantes de tiempo ARIMA. Redes Neuronales.

Series de Tiempo Pronosticar la demanda de dinero en un cajero electrónico.

Agrupamiento (Clustering) (Clasificación no supervisada) Intenta agrupar una serie de objetos en grupos. Cada objeto es representado por un vector de atributos n-dimensional. Los objetos que forman cada grupo deben ser disimilares. La similaridad es medida del grado de proximidad. Luego cada grupo es etiquetado. K-means (agrupamiento exclusivo) Fuzzy C-means (agrupamiento con traslape) Angulo de distribución mínima Método de autoorganización (SOM) Razonamiento Adaptativo

Agrupamiento Mantener a los clientes más rentables. Se gasta mas dinero en mantenerlos Clientes más rentables Con Data Mining usted puede crear perfiles para encontrar sus clientes mas rentables y poder predecir cuales se podrían ir con su competencia. Con esta información usted podrá desarrollar planes efectivos de lealtad de su cliente.

Reglas de Asociación Analiza los datos para descubrir reglas que identifiquen patrones o comportamientos. Reglas de la forma A  B. Usa algoritmos intensivos en procesamiento. Análisis de la cesta de la compra (market basket analysis). A priori A priori predictivo Encuentre ¿qué grupos de ítems comúnmente se declaran juntos? Haciendo el soporte mínimo del 50% y la confianza mínima del 50% , tenemos: A  C ( 50%, 66.6%) C  A ( 50%, 100%) ID Declaración 2000 A,B,C 1000 A,C 4000 A,D 5000 B,E,F

Reglas de Asociación Realizar ventas cruzadas de manera más efectiva. El producto A con que otro producto se vende más. Data Mining puede ayudar a encontrar cual es el mejor paquete de productos que le puede ofrecer a sus clientes existentes para que su relación sea mas rentable. Por ejemplo se pueden encontrar afinidades entre los productos que se consumen para realizar promociones y ofertas focalizadas. Colocar en estantes cercanos los productos que presentan alto grado de afinidad.

Secuenciación Modelo de Markov Buscar secuencias que son usualmente probables. Requiere entrenamiento, lista de eventos, conocimiento de eventos interesantes. Debe ser robusto en la fase de adicionar eventos con ruido. Usado en el análisis de fallas y predicción. Modelo de Markov Agrupamiento MDD (Maximal Dependence Decomposition Clustering) A B HTHHTHHttthtttHHTHHHHtthtthttht...

Secuenciación Identificar el patrón de visitas a un Portal Web, en qué orden se visitan las página, en qué pagina se inicia la visita, desde qué página se sale con más frecuencia. Identificar el patrón de visitas a un supermercado, en qué orden el público visita los estantes

Bibliografía Data Mining: Practical Machine Learning Tools and Techniques. Ian H. Witten, Eibe Frank. Morgan Kaufmann; 2st edition (June 8, 2005). 560 pp. Data Mining with SQL Server 2005. ZhaoHui Tang, Jamie MacLennan. Wiley Publishing Inc. (2004). Data Mining: Concepts and Techniques, Jiawei Han, Micheline Kamber. Morgan Kaufmann; 1st edition (August, 2000), 500 pp. Introducción a la minería de datos. J. Hernández, J. Ramírez.

PREGUNTAS

soporto@wiphala.net http://www.wiphala.net/oporto Mg. Samuel Oporto Díaz soporto@wiphala.net http://www.wiphala.net/oporto