Taller de Base de Datos Profesor: Claudio Gutiérrez Soto página: Fono: 207 122 Minería.

Slides:



Advertisements
Presentaciones similares
Data Mining Minería de Datos Universidad Tecnológica Metropolitana
Advertisements

Jacqueline Chávez Cuzcano
INVESTIGACIÓN DE MERCADO
Relaciones y diferencias entre minería de datos y estadística
Introducción a la minería de datos
Análisis de asociación
DATA MINING MINERIA DE DATOS Gersom Costas.
DATA WAREHOUSE Presentador Por: Andrés Fabián Cortes Solano.
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
Maestría en Explotación de Datos y Descubrimiento del Conocimiento
DataMining Desarrolladores: Keyla Ferreira CI
INVESTIGACIÓN DE MERCADO
• SQL Server Analysis Services Data Mining
Data Mining Integrantes: Rojas Correa, Trinidad Romanskyy, Bohdan
ADMINISTRACIÓN DE TECNOLOGIAS DE INFORMACIÓN Y COMUNICACIÓN
El proceso de extracción de conocimiento
DATA MINING Bibliografía:
Definición Machine learning traducido al español significa el aprendizaje automático o también aprendizaje de las maquinas. A partir de esto podemos darle.
VIVIANA ACHURY S. ANGIE NATALIA GARCIA S.. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos (Bajo.
MODELO DE NEGOCIOS CANVAS
Especialista en Business Intelligence Analysis Services SSAS (Sesión 14) Microsoft SQL Server 2008 R2 Suscribase a o escríbanos a
Inteligencia Artificial Adquisición automática del conocimiento
On Line Analytical Processing
Especialista en Business Intelligence Analysis Services SSAS (Sesión 14) Microsoft SQL Server 2008 R2 (2013) Suscribase a o escríbanos.
Trabajo de Investigación
UNIVERSIDAD CATÓLICA DEL MAULE FACULTAD DE CIENCIAS DE LA INGENIERÍA ESCUELA DE INGENIERÍA CIVIL INFORMÁTICA PROFESOR GUÍA: HUGO ARAYA CARRASCO. ALUMNO.
Búsqueda de Aproximaciones: Algoritmos
INTELIGENCIA DE NEGOCIOS
Modelos de Programación Entera - Heurísticas
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.
Taller de Base de Datos Búsqueda de Reglas de Asociación Agrawal, Imielinski, Swami. “Mining Association Rules Between Sets for items in Large Databases”,
Representación del Conocimiento
Sesión 2: Métodos Probabilísticos Básicos
Matemáticas para Ciencias de la Computación MCC3182 Profesor: Claudio Gutiérrez Soto Página Web:
Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".

Estadística aplicada al análisis financiero
Weka.
Aplicaciones del Big Data a la Inteligencia del Negocio
Diseño de la investigación
Taller de Base de Datos Búsqueda de Agrupaciones (Clustering) Técnica de modelamiento descriptivo(objetivo es construir un modelo para comprender los datos)
Business Intelligence y Data Mining
Consulta Típica en OLAP
RESUMEN En este artículo se describe en forma breve una de las líneas de investigación que se están llevando a cabo en el Laboratorio de Tecnologías Emergentes.
Reconocimiento de Patrones
Aplicaciones de las Redes Neuronales Artificilaes Dr. Héctor Allende
Proceso KDD MSc. Carlos Alberto Cobos Lozada
El comportamiento del consumidor, comercio electrónico y canales
Introducción a la investigación de mercados Naresh malhotra
Simular: Representar una cosa, fingiendo o imitando lo que no es.
Taller de Base de Datos Procesamiento Analítico en Línea ¿Qué es OLAP? Imaginemos el siguiente escenario: Una cadena de supermercados posee una (o varias)
Teoría de Probabilidad Dr. Salvador García Lumbreras
CONTENIDO: Estadística Descriptiva e inferencial Muestreo estadístico
Introducción a la Robótica mecanismos avanzados Coordinación de Ciencias Computacionales, INAOE Dra Angélica Muñoz Dr Eduardo Morales
FUNDAMENTOS DE MARKETING
1 Prof:Paula Quitral INTRODUCCIÓN MINERIA DE DATOS Departamento de Informática Universidad de Rancagua.
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
Generalidades Autor: Yohn Jair Palacios Fecha: octubre 23 de 2013.
LOS SISTEMAS DE INFORMACIÓN INVESTIGACIÓN DE MERCADOS
Sesión 5. La evaluación de programas y proyectos educativos y sociales.
KDD y Técnicas de Minería de Datos en Weka
RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ INF-252.
Taller de Inteligencia de Negocios SQL Server Analysis Services Data Mining Semana 11.
Introducción al marketing Guillermo Wyngaard Emiliano Martínez Guillermo Carrizo.
DATA MINING. Extracción de información oculta y predecible de grandes bases de datos Poderosa tecnología que ayuda a concentrase en la información importante.


Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.
Transcripción de la presentación:

Taller de Base de Datos Profesor: Claudio Gutiérrez Soto página: Fono: Minería de Datos y OLAP

Taller de Base de Datos Minería de Datos Análisis de grandes volúmenes de datos para encontrar relaciones no triviales, y para resumirlos de manera que sean entendibles y útiles. Hand, Mannila y Smyth Extracción de patrones y modelos interesantes, potencialmente útiles y datos en base de datos de gran tamaño. Hand

Conocimiento: Modelo vs. Patrón Hand, Mannila y Smyth Modelo: Habla de todo el conjunto de datos Patrón: Habla de una región particular de datos. Taller de Base de Datos

El proceso de Minería de Datos Proceso Iterativo Entendimiento del Problema Entendimiento de los datos –Qué información y estructura de ella tenemos –Qué partes y subconjuntos son relevantes –Calidad de los datos Preparación de los datos –Extracción (ej. Datawarehousing, Web crawling) –Transformación y Limpieza. Taller de Base de Datos

El proceso de Minería de Datos Modelación –Explotación (visualización de datos). –Definición de modelos y patrones a encontrar. –Diseño, desarrollo y ejecución de algoritmos Evaluación de resultados Implementación del modelo/uso de los resultados Taller de Base de Datos

Decisiones Claves etapas de Modelación/Evaluación 1.- Tipos de patrón/modelo (ej. Reglas de asociación, árbol de decisión) 2.- Algoritmo a Usar –Como almacenar los datos: estructuras de datos. –Estrategia de búsqueda del patrón/construcción del modelo. –Manejo de Memoria: Memoria RAM limitada por buffering 3.- Función de Evaluación (score function): calidad del patrón/modelo encontrado. Taller de Base de Datos

Funciones de Evaluación Error de Predicción Taller de Base de Datos

Tareas en Minería de Datos Hand, Mannila y Smyth:( Aparecen en la etapa de modelación de CRISP) Análisis Exploratorio: Explorar los datos sin tener necesariamente una idea clara de lo que se está buscando. - Problema: cómo visualizar una nube de puntos en un espacio de miles de dimensiones? *k puntos pueden ser representados en un espacio de n= k-1 dimensiones. -Exploración a distintos niveles de granularidad de los datos. Ejemplo: Ventas por dia y ciudad vs. Ventas por mes y región (OLAP) Taller de Base de Datos

Tareas en Minería de Datos Modelamiento Descriptivo: Su objetivo es construir modelos que ayuden a entender los datos. -Ejemplo: *Búsqueda de agrupaciones: particionar los datos (puntos) en grupos. *Estimación de distribución de probabilidades. *Búsqueda de correlaciones entre variables (etc.) Taller de Base de Datos

Búsqueda de Agrupaciones Funciones de Evaluación C 1,...,C k grupos, m i es el centroide de C i Qué limitación tiene esta función? Taller de Base de Datos

Tareas en Minería de Datos Modelación Predictiva: Su ojetivo es construir un modelo que permita predecir el valor de una variable. - Ejemplo: clasificación: dado un conjunto de objetos (tuplas), donde cada objeto pertenece a una clase, construir un modelo que permita predecir la clase de un objeto que no está en la base de datos. Taller de Base de Datos

Clasificación Función de Evaluación C(y) es uno si el árbol predice correctamente la clase del objeto y Qué limitación tiene esta función? Taller de Base de Datos

Tareas en Minería de Datos Descubrimiento de patrones y Asociaciones -Ejemplo: Descubrimiento de comportamiento anomal para detectar fraude. - Búsqueda de reglas de asociación: Personas que compran productos A tienden a comprar productos B. Anécdota: Pañales y Cerveza. Taller de Base de Datos

Minería de Datos y Otras Aplicaciones Estadistica Inteligencia Artificial: Machine Learning Base de datos Taller de Base de Datos

Minería de Datos vs. Estadistica En qué se diferencian? En mineria de datos tenemos: 1.- Mayor volúmen de los datos (diferencia fundamental) Estudios para hacer más eficiente la inducción de clasificadores estadisticos (J. Cattlet, 1991) consideran un máximo de objetos. 2.- Mayor complejidad de los datos (miles de atributos o dimensiones). 3.- Patrones/Modelos son estadísticamente livianos: fáciles de entender aunque no tan precisos. 4.- Enfasis está en buscar modelos más que en verificar un modelo fijo. Taller de Base de Datos

Matemáticas para Ciencias de la Computación MCC3182 Anécdota Historicamente el término Minería de datos se usó en estadisticas para denotar el uso de datos para derivar conclusiones erradas. Bonferroni: Muchas conjeturas triviales solo por simple razonamiento estadístico. Ejemplo: Dr. David Rhine (ej. de Ullman) Parasicólogo de Duke que en 1950 testeo a estudiantes para encontrar percepción extra sensorial. Descubrió que el 0.1% de ellos podían adivinar 10 cartas de 10. Declaró a estos estudiante como poseedores de PES. Cuando realizó el experimento con ellos nuevamente, descubrió que perdían su capacidad. Conclusión: al comunicar una persona que es PES, ésta generalmente la pierde.

Matemáticas para Ciencias de la Computación MCC3182 Volumen de los Datos Escenario Común: Dos años de transacciones en una cadena de 50 supermercados. Cada supermercado tiene un promedio de ventas diarias, donde cada venta consiste de unos 20 itemes en promedio. Supongamos que almacenamos estos datos como tuplas de la siguiente manera: Tamaño del archivo: Número de transacciones: 50x365x10000= 365 millones Número de bytes por transacción=4 bytes x 20 Total millones, aprox. 30 GB.

Matemáticas para Ciencias de la Computación MCC3182 Otros Ejemplos Wallmart maneja aprox. 20 millones de transacciones diarias. - Su base de datos de transacciones de ventas pesa 11 terabyte. AT&T tiene más de 100 millones de clientes y almacena más de 300 millones de llamados diarios. El sistema SKYCAT desarrollado por Fayyad et. Al (1996) contiene más de 3 terabyte de datos.

Matemáticas para Ciencias de la Computación MCC3182 Complejidad de los Datos ¿Cuántas canastas de productos que se venden con frecuencia se pueden tener en un total de n productos? 2 n n puede ser muy grande, para Wallmart n=10000 Si contamos la frecuencia de cada subconjunto de ítemes, necesitamos 2 n contadores.

Matemáticas para Ciencias de la Computación MCC3182 Aplicaciones SKICAT (Sky Image and Analysis Tool) desarrollado por JPL/Caltech. Sistema que predice si un objeto es una estrella o una galaxia. Reglas de asociación para generar oportunidades de ventas cruzadas. Arboles de Decisión, los cuales son utilizados en los bancos para determinar el otorgamiento de crédito a un nuevo cliente. Predicción de precios en ambientes financieros. Sistemas de recomendación (Ej. Amazon, Movie Lenz) Detección de Fraude. Optimización de campañas de marketing (database marketing) MSNBC: vía agrupación de páginas se observó un cluster con un 20% de noticias muy similares: se creó la sección living, la más visitada en la actualidad.