El proceso de Data Mining Ernestina Menasalvas

Slides:



Advertisements
Presentaciones similares
Spokesperson will be Jay Schaudies, Vice President, Global eCommerce.
Advertisements

Page 1 Clients name PC Clients name Projects title City, DD month YYYY.
Learning Achievement in Creativity and Design Subjects according to Professional Profiles (2006) European Transfer Credit System (ECTS) Methodology in.
Unifying Concepts and Processes in Science. Explanatory Framework Across Science Disciplines Science is a way of knowing, a process--- it is a systematic.
Maestría en Data Mining
Parent Leadership in Education & Youth Education Tekies Centro Sor Juana in Las Milpas South Pharr, Texas.
Saber vs. Conocer To Know.
Tener Lets look at the verb tener (to have). It features two verb changes that we will see very soon.
QUESTION OF THE MONTH August, In the next two slides you will see the perinatal mortality figures during most of the XX Century, as presented by.
SQR Chapter 11 due Friday Today we will learn how the class works (es lo que vamos aprender hoy) Topic Sentence Main Idea: with transitional phrase: Thus,
Directions for template use This is a template that can be used either in whole group, typing in the information about an experiment, or with groups of.
8 Noviembre, 2006 Semana de la Ciencia en Extremadura 2006 Miguel Cárdenas Montes, CETA-CIEMAT Aplicaciones Grid Séptimo Tutorial.
WB XBRL VIDEO CONFERENCE Nelson Carvalho – XBRL I. I. Board Member XBRL: A TOOL FOR WHAT? BUSINESSES NEED FUNDING RISKS CONTAMINATE PRICES - MAKE FUNDING.
© 2006 XBRL International, All Rights Reservedwww.xbrl.org/Legal Ignacio Hernández-Ros Technology development XBRL International Using XQuery to process.
Productividad personal Estar al día Colaboración Limitada.
Grupos de Trabajo 6 - Informe Working Group 6 – Report Transparency.
Grupos de Trabajo # 7 - Informe Working Group # 7 – Report General Business and Operational Risks.
Use of Analogy Fundamental Comprehension by means of metaphoric Communications.
Scientific Inquiry. La asociación nacional de maestros de ciencias (NSTA) apoyo la idea de que la adquisición de científica debe ser un componente básico.
USING THE INTERNET. 2 Concept 6.1 What Is the Internet? The Internet is millions of computers from all parts of the world connected so that they can communicate.
La entrevista Mosaicos, pp. 325, 355. After her positive experience at the job fair, Malena has decided to go for an interview for a position in perfume.
Diagonal Mar ¿Disastre o tienda óptima?
Centro Cultural Costarricense Norteamericano Academic Department New Policy about Absences & Tardiness.
Por y para Youve probably noticed that there are two ways to express for in Spanish: PorPara In this presentation, well look at how these two prepositions.
Relative Pronouns Spanish Three Honors C.12.
Description Digital school is an educational movement that use technology to learn and transform the educational practice to promote the students integral.
Por y para Youve probably noticed that there are two ways to express for in Spanish: Por Para In this slide show, well look at how these two prepositions.
Las Tiendas Grocery Shopping in the Spanish-speaking world.
Inferences (predictions/drawing conclusions/generalizations) Beyond the words on the page.
¡Cuídate! Son camaleones esos adjetivos
These are my books. Those are yours. I saw their car in the garage. Have you seen ours? I ate my cookie yesterday. Did George eat ______? We went to our.
Agenda Introduction 2. Homework 3. Activity # 10: Identifying the Unknown Solids (Actividad #10: Identificando los sólidos desconocidos)
Por y para Youve probably noticed that there are two ways to express for in Spanish: Por Para In this slide show, well look at how these two prepositions.
PRODUCCION DE SABER Y GERENCIA DEL CONOCIMIENTO Profesor Dr. Orlando Albornoz Universidad de Guadalajara Villa Primavera, Jalisco, México 12 y 13 de julio.
M ATERIAL DE CONTINGENCIA INGLÈS 4 TO AÑO TODAS LAS SECCIONES Prof. Emily Chávez.
(por favor) By emory gibson Para describir how long ago en español, presta attencion.
El 27 de noviembre de Tienes 5 minutos para escribir 5 líneas por lo menos en un papel sobre tus vacaciones del día de gracias.
Srta. Forgue El 8 de febrero de 2011 Español II. Ahora mismo ¿Cómo fue el fin de semana? Habla por 5 minutos sobre lo que hiciste.
TEMA 2.- INTRODUCCIÓN A LOS MÉTODOS ÓPTICOS PROPIEDADES DE LA RADIACION ELECTROMAGNETICA Muchas de las propiedades de la radiación electromagnética.
Su Negocio Conectado. VisibilidadVisibilidad ColaboraciónColaboración PlanificaciónPlanificación EjecuciónEjecución Build Connections.
HAZ AHORA / DO NOW Responde en frases completas: Por ejemplo: ¿Qué te gusta más, nadar o esquiar? Pues, me gusta más nadar. Pues, no me gusta ni nadar.
Facultad de Informática. Universidad Politécnica de Madrid
Richard Feynman: "El carácter de la ley física.
Cancela, JM. Ayán C. University Of Vigo. Throughout history the definition of learning has been conceptualized in many different ways depending on the.
UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO ESCUELA SUPERIOR DE ZIMAPÁN Licenciatura en Derecho Tema: Be going to L.E.L.I. Paulina Trujillo Castillo Enero.
UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO ESCUELA SUPERIOR DE ZIMAPÁN Licenciatura en Derecho Tema: First conditional L.E.L.I. Paulina Trujillo Castillo.
Articles, nouns and contractions oh my!. The POWER of the article THE 1. There are four ways to express THE in Spanish 2. The four ways are: El La Los.
1 USMP PhD in Information Systems Engineering INFRASTRUCTURE MANAGEMENT - IM The Information and Communications Technology Infrastructure Management (ICT-IM)
¿Qué haces si estás atrapado/a en un edificio en llamas? Usa 3 términos de vocabulario.
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
-go Verbs Small but very important group of verbs that we call the “-go” verbs. These verbs are: Hacer: to make/do Poner: to put Tener : to have Traer:
 Making complete sentences How to make complete sentences in Spanish. The following presentation is designed to help you learn how to do the following:
-GO Verbs There is a small but very important group of verbs that we call the “-go” verbs. These verbs are: Hacer: to make/do Poner: to put Salir: to.
M ATERIAL DE CONTINGENCIA INGLÉS 4 TO AÑO TODAS LAS SECCIONES Prof. Emily Chávez.
BUENOS DÍAS Saquen los apuntes, por favor. COMPARACIONES Más rápido que… Menos importante que… Tan bonita como… Mejor que, peor que, menor que, mayor.
Verbs in the present tense
Practica para “la foto” Año B Diversidad cultural Ciencia y Tecnologia 15 min. para preparar 3-4 min. describe en relación a una opción 5-6 min. Discusión.
UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO ESCUELA SUPERIOR DE ZIMAPÁN Licenciatura en Contaduría Tema: Making comparisons L.E.L.I. Paulina Trujillo Castillo.
Our first project: The iron. Name of the student: Miranda de la Torre Rivero. AVATAR.
Derechos de Autor©2008.SUAGM.Derechos Reservados Sistema Universitario Ana G. Méndez División de Capacitación Basic Quality Tools CQIA Primer Section VII.
ANTE TODO ¿Dibujas mucho? ¿También tomas tú geografía?
Question formation Preview Sí or no No and not Question words
Question words Sra. Kemp Directions: 1.Click on Slide Show on the tool bar. Then, click on From beginning. 2.Click to move on to the next flashcard. 3.Look.
UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO ESCUELA SUPERIOR DE ZIMAPÁN Licenciatura en Contaduría Tema: Too, too much, too many, enough L.E.L.I. Paulina.
Bellwork Copy your DLT DLT1: I can learn indefinite articles so I can determine when to use each specific indefinite article, depending on the noun being.
Social Networks and Parent Teacher Meetings: A Question that can´t Wait Molina, M.D., Rodríguez, J., Collado, J.A. y Pérez, E. University of Jaén (SPAIN)
UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO ESCUELA SUPERIOR DE ZIMAPÁN Licenciatura en Derecho Logros y experiencias. Lengua extranjera. L.E.L.I. Paulina.
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO ESCUELA SUPERIOR DE ZIMAPÁN
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
Transcripción de la presentación:

El proceso de Data Mining Ernestina Menasalvas Facultad de Informática. Universidad Politécnica de Madrid emenasalvas@fi.upm.es

Fuentes Las transparencias han sido generadas usando las siguientes fuentes: Data Mining Course by Gregory Piatetsky-Shapiro http://www.kdnuggets.com/dmcourse/index.html Data Mining by Tan, Steinbach, Kumar Jiawei Han and Micheline Kamber . Data Mining: Concepts and Techniques, The Morgan Kaufmann Series in Data Management Systems, Jim Gray, Series Editor Morgan Kaufmann Publishers, August 2000. 550 pages. ISBN 1-55860-489-8 http://www.cs.sfu.ca/~han/DM_Book.html ECML/PKDD2004. Pisa. Tutorial en Evaluación en Web Mining. M. Spiliopopu, B. Berendt, E. Menasalvas Weka. http://www.cs.waikato.ac.nz/~ml/weka/ Modeling the Internet and the Web. School of Information and Computer Science. University of California, Irvine

Índice del curso Introducción Tipos de tareas de data mining Conceptos previos Clasificación Enfoques básicos Enfoques avanzados Evaluando resultados Segmentación Asociación El proceso de data mining: CRISP-DM Revisando el ciclo de un proyecto de data mining: Requisitos, preproceso

Introducción

Trends leading to Data Flood [piatesky05] More data is generated: Bank, telecom, other business transactions ... Scientific data: astronomy, biology, etc Web, text, and e-commerce

Data Growth Rate [piatesky05] Twice as much information was created in 2002 as in 1999 (~30% growth rate) Other growth rate estimates even higher Very little data will ever be looked at by a human Knowledge Discovery is NEEDED to make sense and use of data.

Machine Learning / Data Mining Application areas [piatesky05] Science astronomy, bioinformatics, drug discovery, … Business advertising, CRM (Customer Relationship management), investments, manufacturing, sports/entertainment, telecom, e-Commerce, targeted marketing, health care, … Web: search engines, bots, … Government law enforcement, profiling tax cheaters, anti-terror(?)

Why Mine Data? Commercial Viewpoint Lots of data is being collected and warehoused Web data, e-commerce purchases at department/ grocery stores Bank/Credit Card transactions Computers have become cheaper and more powerful Competitive Pressure is Strong Provide better, customized services for an edge (e.g. in Customer Relationship Management)

Why Mine Data? Scientific Viewpoint Data collected and stored at enormous speeds (GB/hour) remote sensors on a satellite telescopes scanning the skies microarrays generating gene expression data scientific simulations generating terabytes of data Traditional techniques infeasible for raw data Data mining may help scientists in classifying and segmenting data in Hypothesis Formation

“Necessity is the Mother of Invention” [piatesky05] Data explosion problem Automated data collection tools and mature database technology lead to tremendous amounts of data stored in databases, data warehouses and other information repositories We are drowning in data, but starving for knowledge! Solution: Data warehousing? and data mining Data warehousing and on-line analytical processing Extraction of interesting knowledge (rules, regularities, patterns, constraints) from data in large databases

What is Data Mining? Many Definitions Non-trivial extraction of implicit, previously unknown and potentially useful information from data Exploration & analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns

What is (not) Data Mining? Look up phone number in phone directory Query a Web search engine for information about “Amazon” What is Data Mining? Certain names are more prevalent in certain US locations (O’Brien, O’Rurke, O’Reilly… in Boston area) Group together similar documents returned by search engine according to their context (e.g. Amazon rainforest, Amazon.com,)

Data Mining for Customer Modeling [piatesky05] Customer Tasks: attrition prediction targeted marketing: cross-sell, customer acquisition credit-risk fraud detection Industries banking, telecom, retail sales, …

¿POR QUÉ? Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación “one-to-one” con sus clientes. Las empresas recogen datos de todos lo procesos. Los datos recogidos se tienen que analizar, comprender y convertir en información con la que se pueda actuar y aquí es donde Data Mining juega su papel

Data Mining proporciona la Inteligencia El Data Warehouse proporciona los datos. La inteligencia permitirá buscar en esos datos tratando de encontrar patrones, descubrir reglas, nuevas ideas que probar, y hacer predicciones acerca del futuro Se estudiarán las técnicas y herramientas que añaden la “inteligencia” al datawarehouse para explotar los datos de los clientes y sacar el máximo rendimiento

¿Como nos ayudan? ¿Qué clientes permanecerán fieles? ¿Qué clientes están a punto de abandonar? ¿Dónde debemos localizar la próxima sucursal? ¿Qué productos se deben promocionar a qué prospectos? ... Las respuestas a estas preguntas están enterradas en los datos y se necesitan las técnicas de Data Mining para buscarlas

Definición Intuitiva Data Mining (en este contexto) en el análisis y exploración, por medios automáticos o semiautomáticos de grandes cantidades de datos para descubrir patrones significativos (útiles), y reglas. La meta es permitir a la organización mejorar sus ventas, sus campañas de marketing, las operaciones de soporte a los clientes, a través de una mejor comprensión de sus clientes

¿Por qué ahora? Las técnicas que se verán existían hace años pero la convergencia de los siguientes factores: Cantidad de datos producida Los datos están integrados (data warehouse) La potencia de los ordenadores Fuerte presión de la competencia Software de data mining ha hecho que ahora se vuelva a hablar de ellas

Data Mining Two major objectives Use 3 different techniques: Prediction Knowledge discovery Use 3 different techniques: Data Bases Statistics Machine learning. So many thing?

What is the course focus ? Typical problems Forecasting Classification Regression Temporal series Knowledge discovery Bias detection Data base segmentation Clustering Association rules Reporting Visualisation Text Search What is the course focus ?

Related Fields Machine Learning Visualization Statistics Databases Data Mining and Knowledge Discovery Statistics Databases

Data Mining un proceso

Knowledge Discovery Definition Knowledge Discovery in Data is the non-trivial process of identifying valid novel potentially useful and ultimately understandable patterns in data. from Advances in Knowledge Discovery and Data Mining, Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, (Chapter 1), AAAI/MIT Press 1996

Análisis de la definición: Data? Colección de objetos y sus atributos An attribute is a property or characteristic of an object Examples: eye color of a person, temperature, etc. Attribute is also known as variable, field, characteristic, or feature A collection of attributes describe an object Object is also known as record, point, case, sample, entity, or instance Attributes Objects

KDD: análisis de la definición Proceso no trivial de identificación de patrones validos novedosos potentialmente útiles Y finalmente comprensibles en los datos. Patrón: cualquier definición de alto nivel de los datos

El Proceso de KDD INTERPRETACIÓN Y EVALUACIÓN DATA MINING Conocimiento Modelos DATA MINING CODIFICACIÓN Datos Transformados LIMPIEZA Datos Procesados SELECCIÓN Datos objetivo Datos

Actuar basándonos en la información El ciclo de data mining Identificar un problema Usar data mining para transformar los datos en información Medir los resultados Actuar basándonos en la información

Importante La promesa de Data Mining es encontrar los patrones Simplemente el hallazgo de los patrones no es suficiente Debemos ser capaces de entender los patrones, responder a ellos, actuar sobre ellos, para finalmente convertir los datos en información, la información en acción y la acción en valor para la empresa

Data Mining resumen Data Mining es un proceso que se tiene que centrar en las acciones derivadas del descubrimiento de conocimiento no en el mecanismo de descubrimiento en si mismo. Aunque los algoritmos son importantes, la solución es más que un conjunto de técnicas y herramientas. Las técnicas se tienen que aplicar en el caso correcto a los datos correctos

References U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996. Fayyad, Piatetsky-Shapiro, Smyth, "From Data Mining to Knowledge Discovery: An Overview", in Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, Advances in Knowledge Discovery and Data Mining, AAAI Press / The MIT Press, Menlo Park, CA, 1996, pp.1-34 J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2000. T. Imielinski and H. Mannila. A database perspective on knowledge discovery. Communications of ACM, 39:58-64, 1996. G. Piatetsky-Shapiro, U. Fayyad, and P. Smith. From data mining to knowledge discovery: An overview. In U.M. Fayyad, et al. (eds.), Advances in Knowledge Discovery and Data Mining, 1-35. AAAI/MIT Press, 1996. G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991. http://www.cs.sfu.ca/~han Michael J. A. Berry, Gordon Linoff, Data Mining Techniques, 1997, John Wiley Pieter Adriaans, Dolf Zantinge, Data Mining, 1996, Addison-Wesley Zhengxin Chen, Data Mining and Uncertain Reasoning, 2001, John Wiley & Son