La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

El proceso de Data Mining Ernestina Menasalvas

Presentaciones similares


Presentación del tema: "El proceso de Data Mining Ernestina Menasalvas"— Transcripción de la presentación:

1 El proceso de Data Mining Ernestina Menasalvas
Facultad de Informática. Universidad Politécnica de Madrid

2 Fuentes Las transparencias han sido generadas usando las siguientes fuentes: Data Mining Course by Gregory Piatetsky-Shapiro Data Mining by Tan, Steinbach, Kumar Jiawei Han and Micheline Kamber . Data Mining: Concepts and Techniques, The Morgan Kaufmann Series in Data Management Systems, Jim Gray, Series Editor Morgan Kaufmann Publishers, August pages. ISBN ECML/PKDD2004. Pisa. Tutorial en Evaluación en Web Mining. M. Spiliopopu, B. Berendt, E. Menasalvas Weka. Modeling the Internet and the Web. School of Information and Computer Science. University of California, Irvine

3 Índice del curso Introducción Tipos de tareas de data mining
Conceptos previos Clasificación Enfoques básicos Enfoques avanzados Evaluando resultados Segmentación Asociación El proceso de data mining: CRISP-DM Revisando el ciclo de un proyecto de data mining: Requisitos, preproceso

4 Introducción

5 Trends leading to Data Flood [piatesky05]
More data is generated: Bank, telecom, other business transactions ... Scientific data: astronomy, biology, etc Web, text, and e-commerce

6 Data Growth Rate [piatesky05]
Twice as much information was created in 2002 as in 1999 (~30% growth rate) Other growth rate estimates even higher Very little data will ever be looked at by a human Knowledge Discovery is NEEDED to make sense and use of data.

7 Machine Learning / Data Mining Application areas [piatesky05]
Science astronomy, bioinformatics, drug discovery, … Business advertising, CRM (Customer Relationship management), investments, manufacturing, sports/entertainment, telecom, e-Commerce, targeted marketing, health care, … Web: search engines, bots, … Government law enforcement, profiling tax cheaters, anti-terror(?)

8 Why Mine Data? Commercial Viewpoint
Lots of data is being collected and warehoused Web data, e-commerce purchases at department/ grocery stores Bank/Credit Card transactions Computers have become cheaper and more powerful Competitive Pressure is Strong Provide better, customized services for an edge (e.g. in Customer Relationship Management)

9 Why Mine Data? Scientific Viewpoint
Data collected and stored at enormous speeds (GB/hour) remote sensors on a satellite telescopes scanning the skies microarrays generating gene expression data scientific simulations generating terabytes of data Traditional techniques infeasible for raw data Data mining may help scientists in classifying and segmenting data in Hypothesis Formation

10 “Necessity is the Mother of Invention” [piatesky05]
Data explosion problem Automated data collection tools and mature database technology lead to tremendous amounts of data stored in databases, data warehouses and other information repositories We are drowning in data, but starving for knowledge! Solution: Data warehousing? and data mining Data warehousing and on-line analytical processing Extraction of interesting knowledge (rules, regularities, patterns, constraints) from data in large databases

11 What is Data Mining? Many Definitions
Non-trivial extraction of implicit, previously unknown and potentially useful information from data Exploration & analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns

12 What is (not) Data Mining?
Look up phone number in phone directory Query a Web search engine for information about “Amazon” What is Data Mining? Certain names are more prevalent in certain US locations (O’Brien, O’Rurke, O’Reilly… in Boston area) Group together similar documents returned by search engine according to their context (e.g. Amazon rainforest, Amazon.com,)

13 Data Mining for Customer Modeling [piatesky05]
Customer Tasks: attrition prediction targeted marketing: cross-sell, customer acquisition credit-risk fraud detection Industries banking, telecom, retail sales, …

14 ¿POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación “one-to-one” con sus clientes. Las empresas recogen datos de todos lo procesos. Los datos recogidos se tienen que analizar, comprender y convertir en información con la que se pueda actuar y aquí es donde Data Mining juega su papel

15 Data Mining proporciona la Inteligencia
El Data Warehouse proporciona los datos. La inteligencia permitirá buscar en esos datos tratando de encontrar patrones, descubrir reglas, nuevas ideas que probar, y hacer predicciones acerca del futuro Se estudiarán las técnicas y herramientas que añaden la “inteligencia” al datawarehouse para explotar los datos de los clientes y sacar el máximo rendimiento

16 ¿Como nos ayudan? ¿Qué clientes permanecerán fieles? ¿Qué clientes están a punto de abandonar? ¿Dónde debemos localizar la próxima sucursal? ¿Qué productos se deben promocionar a qué prospectos? ... Las respuestas a estas preguntas están enterradas en los datos y se necesitan las técnicas de Data Mining para buscarlas

17 Definición Intuitiva Data Mining (en este contexto) en el análisis y exploración, por medios automáticos o semiautomáticos de grandes cantidades de datos para descubrir patrones significativos (útiles), y reglas. La meta es permitir a la organización mejorar sus ventas, sus campañas de marketing, las operaciones de soporte a los clientes, a través de una mejor comprensión de sus clientes

18 ¿Por qué ahora? Las técnicas que se verán existían hace años pero la convergencia de los siguientes factores: Cantidad de datos producida Los datos están integrados (data warehouse) La potencia de los ordenadores Fuerte presión de la competencia Software de data mining ha hecho que ahora se vuelva a hablar de ellas

19 Data Mining Two major objectives Use 3 different techniques:
Prediction Knowledge discovery Use 3 different techniques: Data Bases Statistics Machine learning. So many thing?

20 What is the course focus ?
Typical problems Forecasting Classification Regression Temporal series Knowledge discovery Bias detection Data base segmentation Clustering Association rules Reporting Visualisation Text Search What is the course focus ?

21 Related Fields Machine Learning Visualization Statistics Databases
Data Mining and Knowledge Discovery Statistics Databases

22 Data Mining un proceso

23 Knowledge Discovery Definition
Knowledge Discovery in Data is the non-trivial process of identifying valid novel potentially useful and ultimately understandable patterns in data. from Advances in Knowledge Discovery and Data Mining, Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, (Chapter 1), AAAI/MIT Press 1996

24 Análisis de la definición: Data?
Colección de objetos y sus atributos An attribute is a property or characteristic of an object Examples: eye color of a person, temperature, etc. Attribute is also known as variable, field, characteristic, or feature A collection of attributes describe an object Object is also known as record, point, case, sample, entity, or instance Attributes Objects

25 KDD: análisis de la definición
Proceso no trivial de identificación de patrones validos novedosos potentialmente útiles Y finalmente comprensibles en los datos. Patrón: cualquier definición de alto nivel de los datos

26 El Proceso de KDD INTERPRETACIÓN Y EVALUACIÓN DATA MINING Conocimiento
Modelos DATA MINING CODIFICACIÓN Datos Transformados LIMPIEZA Datos Procesados SELECCIÓN Datos objetivo Datos

27 Actuar basándonos en la información
El ciclo de data mining Identificar un problema Usar data mining para transformar los datos en información Medir los resultados Actuar basándonos en la información

28 Importante La promesa de Data Mining es encontrar los patrones
Simplemente el hallazgo de los patrones no es suficiente Debemos ser capaces de entender los patrones, responder a ellos, actuar sobre ellos, para finalmente convertir los datos en información, la información en acción y la acción en valor para la empresa

29 Data Mining resumen Data Mining es un proceso que se tiene que centrar en las acciones derivadas del descubrimiento de conocimiento no en el mecanismo de descubrimiento en si mismo. Aunque los algoritmos son importantes, la solución es más que un conjunto de técnicas y herramientas. Las técnicas se tienen que aplicar en el caso correcto a los datos correctos

30 References U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996. Fayyad, Piatetsky-Shapiro, Smyth, "From Data Mining to Knowledge Discovery: An Overview", in Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, Advances in Knowledge Discovery and Data Mining, AAAI Press / The MIT Press, Menlo Park, CA, 1996, pp.1-34 J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2000. T. Imielinski and H. Mannila. A database perspective on knowledge discovery. Communications of ACM, 39:58-64, 1996. G. Piatetsky-Shapiro, U. Fayyad, and P. Smith. From data mining to knowledge discovery: An overview. In U.M. Fayyad, et al. (eds.), Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, 1996. G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991. Michael J. A. Berry, Gordon Linoff, Data Mining Techniques, 1997, John Wiley Pieter Adriaans, Dolf Zantinge, Data Mining, 1996, Addison-Wesley Zhengxin Chen, Data Mining and Uncertain Reasoning, 2001, John Wiley & Son


Descargar ppt "El proceso de Data Mining Ernestina Menasalvas"

Presentaciones similares


Anuncios Google