La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Ernestina Menasalvas Facultad de Informática. Universidad Politécnica de Madrid

Presentaciones similares


Presentación del tema: "Ernestina Menasalvas Facultad de Informática. Universidad Politécnica de Madrid"— Transcripción de la presentación:

1 Ernestina Menasalvas Facultad de Informática. Universidad Politécnica de Madrid

2 Fuentes Las transparencias han sido generadas usando las siguientes fuentes: Data Mining Course by Gregory Piatetsky-Shapiro Data Mining by Tan, Steinbach, Kumar Jiawei Han and Micheline Kamber. Data Mining: Concepts and Techniques, The Morgan Kaufmann Series in Data Management Systems, Jim Gray, Series Editor Morgan Kaufmann Publishers, August pages. ISBN ECML/PKDD2004. Pisa. Tutorial en Evaluación en Web Mining. M. Spiliopopu, B. Berendt, E. Menasalvas Weka. Modeling the Internet and the Web. School of Information and Computer Science. University of California, Irvine

3 Índice del curso Introducción Tipos de tareas de data mining Conceptos previos Clasificación –Enfoques básicos –Enfoques avanzados Evaluando resultados Segmentación Asociación El proceso de data mining: CRISP-DM Revisando el ciclo de un proyecto de data mining: –Requisitos, –preproceso

4 Introducción

5 Trends leading to Data Flood [piatesky05] More data is generated: –Bank, telecom, other business transactions... –Scientific data: astronomy, biology, etc –Web, text, and e- commerce

6 Data Growth Rate [piatesky05] Twice as much information was created in 2002 as in 1999 (~30% growth rate) Other growth rate estimates even higher Very little data will ever be looked at by a human Knowledge Discovery is NEEDED to make sense and use of data.

7 Machine Learning / Data Mining Application areas [piatesky05] Science –astronomy, bioinformatics, drug discovery, … Business –advertising, CRM (Customer Relationship management), investments, manufacturing, sports/entertainment, telecom, e-Commerce, targeted marketing, health care, … Web: –search engines, bots, … Government –law enforcement, profiling tax cheaters, anti-terror(?)

8 Why Mine Data? Commercial Viewpoint Lots of data is being collected and warehoused –Web data, e-commerce –purchases at department/ grocery stores –Bank/Credit Card transactions Computers have become cheaper and more powerful Competitive Pressure is Strong –Provide better, customized services for an edge (e.g. in Customer Relationship Management)

9 Why Mine Data? Scientific Viewpoint Data collected and stored at enormous speeds (GB/hour) –remote sensors on a satellite –telescopes scanning the skies –microarrays generating gene expression data –scientific simulations generating terabytes of data Traditional techniques infeasible for raw data Data mining may help scientists –in classifying and segmenting data –in Hypothesis Formation

10 Necessity is the Mother of Invention [piatesky05] Data explosion problem –Automated data collection tools and mature database technology lead to tremendous amounts of data stored in databases, data warehouses and other information repositories We are drowning in data, but starving for knowledge! Solution: Data warehousing? and data mining –Data warehousing and on-line analytical processing –Extraction of interesting knowledge (rules, regularities, patterns, constraints) from data in large databases

11 What is Data Mining? Many Definitions –Non-trivial extraction of implicit, previously unknown and potentially useful information from data –Exploration & analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns

12 What is (not) Data Mining? l What is Data Mining? – Certain names are more prevalent in certain US locations (OBrien, ORurke, OReilly… in Boston area) – Group together similar documents returned by search engine according to their context (e.g. Amazon rainforest, Amazon.com,) l What is not Data Mining? – Look up phone number in phone directory – Query a Web search engine for information about Amazon

13 Data Mining for Customer Modeling [piatesky05] Customer Tasks: –attrition prediction –targeted marketing: cross-sell, customer acquisition –credit-risk –fraud detection Industries –banking, telecom, retail sales, …

14 ¿POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación one-to-one con sus clientes. Las empresas recogen datos de todos lo procesos. Los datos recogidos se tienen que analizar, comprender y convertir en información con la que se pueda actuar y aquí es donde Data Mining juega su papel

15 Data Mining proporciona la Inteligencia El Data Warehouse proporciona los datos. La inteligencia permitirá buscar en esos datos tratando de encontrar patrones, descubrir reglas, nuevas ideas que probar, y hacer predicciones acerca del futuro Se estudiarán las técnicas y herramientas que añaden la inteligencia al datawarehouse para explotar los datos de los clientes y sacar el máximo rendimiento

16 ¿Como nos ayudan? –¿Qué clientes permanecerán fieles? –¿Qué clientes están a punto de abandonar? –¿Dónde debemos localizar la próxima sucursal? –¿Qué productos se deben promocionar a qué prospectos? –... Las respuestas a estas preguntas están enterradas en los datos y se necesitan las técnicas de Data Mining para buscarlas

17 Definición Intuitiva Data Mining (en este contexto) en el análisis y exploración, por medios automáticos o semiautomáticos de grandes cantidades de datos para descubrir patrones significativos (útiles), y reglas. La meta es permitir a la organización mejorar sus ventas, sus campañas de marketing, las operaciones de soporte a los clientes, a través de una mejor comprensión de sus clientes

18 ¿Por qué ahora? Las técnicas que se verán existían hace años pero la convergencia de los siguientes factores: –Cantidad de datos producida –Los datos están integrados (data warehouse) –La potencia de los ordenadores –Fuerte presión de la competencia –Software de data mining ha hecho que ahora se vuelva a hablar de ellas

19 Data Mining Two major objectives –Prediction –Knowledge discovery Use 3 different techniques: –Data Bases –Statistics –Machine learning. So many thing?

20 Typical problems Forecasting –Classification –Regression –Temporal series Knowledge discovery –Bias detection –Data base segmentation –Clustering –Association rules –Reporting –Visualisation –Text Search What is the course focus ?

21 Related Fields Statistics Machine Learning Databases Visualization Data Mining and Knowledge Discovery

22 Data Mining un proceso

23 Knowledge Discovery Definition Knowledge Discovery in Data is the non-trivial process of identifying –valid –novel –potentially useful –and ultimately understandable patterns in data. from Advances in Knowledge Discovery and Data Mining, Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, (Chapter 1), AAAI/MIT Press 1996

24 Análisis de la definición: Data? Colección de objetos y sus atributos An attribute is a property or characteristic of an object –Examples: eye color of a person, temperature, etc. –Attribute is also known as variable, field, characteristic, or feature A collection of attributes describe an object –Object is also known as record, point, case, sample, entity, or instance Attributes Objects

25 KDD: análisis de la definición Proceso no trivial de identificación de patrones –validos –novedosos –potentialmente útiles –Y finalmente comprensibles en los datos. Patrón: cualquier definición de alto nivel de los datos

26 El Proceso de KDD Conocimiento LIMPIEZA Datos Procesados CODIFICACIÓN Datos Transformados DATA MINING Modelos INTERPRETACIÓN Y EVALUACIÓN Datos objetivo SELECCIÓN Datos

27 El ciclo de data mining Identificar un problema Usar data mining para transformar los datos en información Actuar basándonos en la información Medir los resultados

28 Importante La promesa de Data Mining es encontrar los patrones Simplemente el hallazgo de los patrones no es suficiente Debemos ser capaces de entender los patrones, responder a ellos, actuar sobre ellos, para finalmente convertir los datos en información, la información en acción y la acción en valor para la empresa

29 Data Mining resumen Data Mining es un proceso que se tiene que centrar en las acciones derivadas del descubrimiento de conocimiento no en el mecanismo de descubrimiento en si mismo. Aunque los algoritmos son importantes, la solución es más que un conjunto de técnicas y herramientas. Las técnicas se tienen que aplicar en el caso correcto a los datos correctos

30 References U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, Fayyad, Piatetsky-Shapiro, Smyth, "From Data Mining to Knowledge Discovery: An Overview", in Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, Advances in Knowledge Discovery and Data Mining, AAAI Press / The MIT Press, Menlo Park, CA, 1996, pp.1-34 J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, T. Imielinski and H. Mannila. A database perspective on knowledge discovery. Communications of ACM, 39:58-64, G. Piatetsky-Shapiro, U. Fayyad, and P. Smith. From data mining to knowledge discovery: An overview. In U.M. Fayyad, et al. (eds.), Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, Michael J. A. Berry, Gordon Linoff, Data Mining Techniques, 1997, John Wiley Pieter Adriaans, Dolf Zantinge, Data Mining, 1996, Addison-Wesley Zhengxin Chen, Data Mining and Uncertain Reasoning, 2001, John Wiley & Son


Descargar ppt "Ernestina Menasalvas Facultad de Informática. Universidad Politécnica de Madrid"

Presentaciones similares


Anuncios Google