DATA MINING Bibliografía:

Slides:



Advertisements
Presentaciones similares
Data Mining Minería de Datos Universidad Tecnológica Metropolitana
Advertisements

Algoritmos y Programas
Fundamentos de Diseño de Software INFT.1
METODOS CUANTITATIVOS I DOCENTE : ING. ECO RODOLFO ROJAS GALLO
Introducción a la minería de datos
Ingeniería de Requerimientos. El Metodo VORD. Alvaro Ortas.
DATA MINING MINERIA DE DATOS Gersom Costas.
Septiembre METODOLOGÍA DE CREACIÓN DE CONTENIDOS PARA E-LEARNING.
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
INTRODUCCION Análisis de decisiones: Es una herramienta cuyo objetivo es ayudar en el estudio de la toma de decisiones en escenarios bajo incertidumbre.
Director: Julio Pindado Profesorado: Dr. Julio Pindado
INTRODUCCIÓN A JAVA.
SEGMENTACION DE MERCADOS
• SQL Server Analysis Services Data Mining
Data Mining Integrantes: Rojas Correa, Trinidad Romanskyy, Bohdan
“8 Principios de la Gestión Administrativa”
UNIDAD I MODELOS Y TOMA DE DECISIONES
El proceso de extracción de conocimiento
COMPONENTIZACIÓN DE ALGORITMOS GENETICOS Y SU IMPLEMENTACIÓN EN UNA PLATAFORMA ABIERTA PARA APRENDIZAJE COMPUTACIONAL.
Un nuevo algoritmo incremental IADEM-0
VIVIANA ACHURY S. ANGIE NATALIA GARCIA S.. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos (Bajo.
Especialista en Business Intelligence Analysis Services SSAS (Sesión 14) Microsoft SQL Server 2008 R2 Suscribase a o escríbanos a
Inteligencia Artificial Adquisición automática del conocimiento
On Line Analytical Processing
Especialista en Business Intelligence Analysis Services SSAS (Sesión 14) Microsoft SQL Server 2008 R2 (2013) Suscribase a o escríbanos.
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
Inteligencia Artificial Resolver problemas mediante búsqueda
INTELIGENCIA DE NEGOCIOS
Econometría I Tema 1 Introducción
REDES BAYESIANAS Y DECISIÓN ESTADÍSTICA
Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".
Diseño de la investigación
Importancia de las aplicaciones de estadística en el control de procesos Guatemala 2010.
Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".
Business Intelligence y Data Mining
Mt. Martín Moreyra Navarrete.
5.3 APROXIMACIONES AL DISEÑO
Combinación de Clasificadores
Data Mining aplicado a promociones en tarjetas de crédito/débito Diego Rafael Gómez Izquierdo Universidad de Palermo
INVESTIGACION DE OPERACIONES
La Información en las Organizaciones. Datos Externos Datos Internos Datos Personales Data Mining Data Warehouse Data Marts Meta Data OLAP Queries DSS.
Proceso KDD MSc. Carlos Alberto Cobos Lozada
Introducción a la investigación de mercados Naresh malhotra
1 TEMA 1: NECESIDAD DE LA INFORMACIÓN PARA LA TOMA DE DECISIONES EN LA EMPRESA Las bases de datos ocupan un lugar determinante en cualquier área. No sólo.
Formulación de Proyectos de Titulación
CICLO DE VIDA Y NORMAALIZACION DE UN SISTEMA DE BASE DE DATOS
Diseño de un data warehouse
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
Investigación de mercados
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
KDD y Técnicas de Minería de Datos en Weka
Tomando decisiones sobre las unidades de análisis
Enseñar con Aprendizaje Basado en Problemas
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
Qué es Minería de Datos La minería de datos es un proceso analítico diseñado para explorar grandes volúmenes de datos (generalmente datos de negocio y.
Taller de Inteligencia de Negocios SQL Server Analysis Services Data Mining Semana 11.
Alumno: Ariedne Niurca Aranda García Tutor: BIBIANA PORTUGAL FRIAS MÉTODOS DE INVESTIGACIÓN II Unidad 1 Actividad 2.
Metodología de la Investigación Cát. I
DATA MINING. Extracción de información oculta y predecible de grandes bases de datos Poderosa tecnología que ayuda a concentrase en la información importante.
Fundamentos de Computación

Ing. Ernesto Sierraalta Fundamentos de Desarrollo de Proyectos de Inteligencia de Negocios ( Decision Support Systems & Data Warehousing.
Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.
Clustering Pablo Palacios 1.  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva.
Redes Bayesianas Título Francisco Roche Beltrán Huelva, 20 de Abril de 2007.
Curso de programación Visual Chart 6 (1ªEd.)
Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Transcripción de la presentación:

DATA MINING Bibliografía: Introduction to Data Mining and knowledge discovery- Two crows corporation A survey of Data Mining and knowledge discovery software tools- M. Goebel and Le Gruenwald An introduction to Data Warehousing - Vivek R. Gupta

Data Mining (DM) I- Introducción II- Data warehouse, data mart, data mining III- Knowledge discovery IV- Funcionalidades DM V- Metodología DM VI- Aplicaciones DM

I- Introducción Rápido crecimiento de sistemas de base de datos Complejidad/imposibilidad de analizar manualmente estos datos para la toma de decisiones Necesidad de herramientas automáticas para análisis de información contenida en grandes bases de datos DM & Knowledge discovery: son técnicas que permiten encontrar o deducir información estratégica contenida implícita o explícitamente en las BD en forma automática.

DM: hasta hace pocos años eran técnicas experimentales, con el desarrollo de internet se ha potenciado su uso y actualmente son técnicas utilizadas en el comercio electrónico. La novedad no radica en las técnicas de cálculo, si no en la aplicación interactiva de las mismas. No sustituye el análisis humano sobre el valor de la información en la organización, solamente encuentra automáticamente patterns de comportamiento y relaciones entre los datos que luego es necesario testear en el mundo real. No elimina la necesidad de conocer un negocio, comprender sus datos y conocer los métodos de análisis de información

Un sistema de DM debe ser capaz de: describir sus datos en forma resumida, dando sus principales propiedades estadísticas, visualización gráfica de los datos descubrir potenciales relaciones entre sus datos Construir modelos predictivos, en base a los patterns encontrados Verificar los modelos construidos DM no descubre soluciones automaticamente sin guia. Es necesario comprender las técnicas utilizadas para poder realizar un buen ajuste de parámetros para optimizar la performance y precisión de los algoritmos utilizados.

II-Data warehouse, data mart, data mining Data source Data warehouse Geographics data mart Analysis data mart Data mining Data mart

DM son una subconjunto lógico del DW (no físico) Frecuentementelos datos a ser tratados son extraídos de DW y se analizan desde un DM o desde data mart. DM son una subconjunto lógico del DW (no físico) No es imprescindible la existencia de DW para que exista un DM Diferencias DM vs OLAP (On-line analytical processing): OLAP: proceso deductivo que permite verificar si ciertas hipótesis que realiza el operador son ciertas o no DM: en vez de verificar patterns de comportamiento, los descubre

III- Knowledge discovery (KDD) DM: a veces se usa como sinónimo de KDD y para otros es solamente uno de los pasos involucrados en KDD. KDD: conjunto de procesos no triviales en BD que posibilitan la identificación de nuevos patterns en los datos (válidos y potencialmente utilizables): Adquirir y seleccionar conjunto de datos sobre los que se trabajará. Validación de datos, integración, preprocesamiento y transformación de datos iniciales Elección de algoritmos de DM Interpretación y visualización de datos Verificación y test de resultados, tunning de modelos Uso y mantenimiento del ¨conocimiento¨ generado

Características de las BD para KDD: Habilidad para acceder a variadas fuentes de datos Accesos online/offline Modelo de datos: modelos no estandares (no relacionales, ej. Orientado a objetos, multimedia,espaciales o temporales son comunes en KDD) Tipos de atributos a manejar: a veces las herramientas utilizadas para KDD (DM) presentan restricciones en los tipos de atributos a manejar en la BD, por ejemplo, las redes neuronales usualmente requieren que todos los atributos sean numéricos. Lenguaje de query: en KDD via interfaz gráfica (GUI) El tamaño de la BD en un importante factor a la hora de elegir las herramientas de KDD, para poder obtener buenas performances

IV- Funcionalidades DM Procesamiento de datos: dependiendo de los objetivos y requerimientos se deben poder seleccionar, filtrar, agregar, extraer muestras, validar y transformar datos Predicción: dado un conjunto de datos y un modelo de predicción que trabaja sobre ellos, se trata de predecir el valor de un atributo específico que todavía no se tiene ( a veces la funcionalidad de predicción se utiliza para validar hipótesis que involucran otros datos) Regresión: es el análisis de dependencia entre valores de atributos (modelos lineales). El atributo dependiente se puede predecir aplicando el modelo de regresión y el valor de los atributos independientes.

Series de tiempo: se utiliza para predicir valores de un atributo que presenta autocorrelación temporal (estacionalidades, efectos calendario,etc), en base a series de datos históricas del mismo atributo Clasificación: dado un conjunto predeterminado de clases categóricas, determinar a qué clase pertenece un item. Clustering: divide a los datos en diferentes grupos, el objetivo es encontrar una agrupación de datos de forma que los datos de un mismo grupo sean muy similares y muy diferentes entre grupos distintos. A diferencia de la clasificación, no se conocen los ¨clusters¨al comenzar ni tampoco los atributos por los cuales serán agrupados. Los clusters deben ser interpretados, por ejemplo: dado un conjunto de clientes, identificar los subgrupos de clientes con comportamiento de compra similar.

Asociación: dado un conjunto de datos, identificar las relaciones entre atributos, de forma de identificar, por ejemplo, que la ocurrencia de cierto pattern implica la ocurrencia de otro (Ej: considerando el conjunto de consumidores de leche, el 64% de ellos son también consumidores de pan) Visualización del modelo: juegan un importante rol en KDD para la interpretación humana Análisis exploratorio de datos : permite la exploración interactiva de datos, sin modelos preconcebidos.

V- Metodología DM DM no involucra una única técnica, se dispone de un conjunto de métodos que pueden ayudar a extraer mas información de los datos originales. La mayoría de los métodos utilizados en DM pueden ser clasificados en alguna de las siguientes categorías: Análisis estadístico: enfocado principalmente al testeo de hipótesis y ajuste de modelos. Generalmente necesitan de la intervención humana la generación de hipótesis y modelos.

Razonamiento por casos: es una técnica que trata de resolver problemas en base al uso de experiencia pasada y soluciones. Un caso es usualmente un problema específico que ha sido previamente encontrado y resuelto. Dado un nuevo problema, si hay resuelto uno ¨similar¨, la solución es aplicada al nuevo problema y se guarda el caso en la BD. Redes neuronales Árboles de decisión: cada nodo no terminal representa un test o decisión sobre los datos y dependiendo del resultado se elige la rama por la cual continuar. Pueden ser interpretados como una forma especial de conjuntos de reglas, caracterizados por su organización jerárquica.

Reglas de inducción: son de la forma x1^..^xn   [c,s] Los atributos x1..xn predicen  con confianza C y significancia S Bayesian belief networks (BBN): son representaciones gráficas de distribuciones de probabilidad. BBN: grafos acíclicos, dirigidos/: Nodos: representan atributos variables y Arcos: representan dependencias probabilísticas entre los atributos. Asociado a cada nodo, hay una probabilidad condicional que describe la relación de un nodo con sus vecinos.

Algoritmos genéticos: son utilizados para formular hipótesis sobre dependencias entre variables (reglas de asociación) Fuzzy sets: es una metodología para representar y procesar incertidumbre en los datos de (ruido, imprecisión, inconsistencias, etc) y maneja un lenguaje adecuado para estos datos. Se utilizan cuando no hay datos de entrada precisos (inviable o muy caro) para obtener modelos robustos y tolerantes a los ruidos en el input.

Rough sets: como los fuzzy, sirven para representar datos con errores Rough sets: como los fuzzy, sirven para representar datos con errores. Se definen a través de una cota inferior y una cota superior del conjunto/ si un elemento no pertenece al conjunto cota superior, entonces seguramente no pertenece al conjunto. Son un tipo especial de fuzzy, con una función de pertenencia al conjunto trivaluada (si, no, tal vez) y se utilizan a veces para producir soluciones iniciales, comunmente aparecen combinados con otras metodologías: reglas de inducción, clasificación, etc.

VI- Aplicaciones DM Determinar características de clientes (¨profiling¨) Detección de fraudes (tarjetas de crédito, telecomunicaciones) Predicciones: demanda de productos, efectividad de medicamentos, Elaboración de estrategias de marketing. Comercio electrónico: sistemas de recomendación, optimización de inventarios