La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Introducción a la Minería de Datos INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz.

Presentaciones similares


Presentación del tema: "Introducción a la Minería de Datos INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz."— Transcripción de la presentación:

1 Introducción a la Minería de Datos INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz

2 2/45 Tabla de Contenido 1.El ConocimientoEl Conocimiento 2.Minería de DatosMinería de Datos 3.Necesidad de la Minería de DatosNecesidad de la Minería de Datos 4.Proceso de la Minería de DatosProceso de la Minería de Datos 5.Tareas de la Minería de DatosTareas de la Minería de Datos 6.BibliografíaBibliografía 7.Preguntas de auto-evaluaciónPreguntas de auto-evaluación

3 Mapa Conceptual – Minería de Datos

4 4/45 EL CONOCIMIENTO

5 5/45 Niveles del Entendimiento Datos Información Conocimiento Entendimiento Es humano. Es una apreciación del por qué. Es cuando se puede sintetizar nuevo conocimiento desde el conocimiento y la información Es información útil, contextual, tácita. Es la aplicación de los datos y la información, responde a cómo. Se puede aprender. Es la data con un significado por vía de una relación. El significa- do puede o no ser útil. Responde a quién, qué, donde, cuándo. La data es cruda. Existe o no, pero no tiene significado por si misma. Es codificable y explicita, es fácil de ser transferida. Es el nivel previo de la conciencia. Se relaciona con el futuro. Sabiduría

6 6/45 Diagrama de transición datos información conocimiento entendimiento sabiduría entendimiento relación entendiendo relaciones entendiendo patrones entendiendo principios crítica del entendimiento Conocimiento Memorización. Entendimiento Aprendizaje

7 7/45 Niveles del Entendimiento Dato. Requiere un medio de almacenamiento. Se debe capturar (registrar) y codificar. Es muy abundante. Información. Se crea mediante la relación de datos Es abundante y barata. Se puede distribuir. Es el dato con significado. Conocimiento. Es la información útil. Se forma desde los patrones de comportamiento. Requiere de la vivencia del humano para ser aprendido. Es el ¿cómo? No es fácilmente codificable, por lo tanto no es fácilmente almacenable ni recuperable. Es caro.

8 8/45 Conocimiento y Experiencia Información para la acción Para tener el conocimiento es necesario tener el contacto con el problema y saber resolver problemas. No basta con tener la información

9 9/45 Ejercicio 1 ¿Para qué sirven los datos? ¿Para qué sirve la información? ¿Para qué sirve el conocimiento?

10 10/45 Ejercicio 2 ¿Se puede encontrar información en los datos? ¿Se pueden encontrar conocimiento en los datos? ¿Se pueden encontrar conocimiento en la información?

11 11/45 Ejercicio 3 ¿Cómo se puede averiguar a qué idioma corresponde un texto determinado? ¿El texto es dato o información?

12 12/45 Ejercicio 3

13 13/45 Ejercicio 4 Diga para las siguientes actividades, en qué casos es suficiente tener información para actuar y en que casos es indispensable la práctica para actuar: 1.Resolver un examen de matemáticas. 2.Comentar un libro. 3.Describir un accidente de tránsito. 4.Cambiarle el pañal a un bebe. 5.Participar en un juego de ajedrez. 6.Desarrollar un sistema de información. 7.Desarrollar un modelo que represente un sistema. 8.Limpiar la casa. 9.Armar una bicicleta con un manual.

14 14/45 Tipos de Conocimiento - Tácito - Implícito - Explícito Tácito Inicio Puede ser articulado Es conciente ExplícitoImplícito si no articulado = estructurado, esquematizado, se puede expresar Tácito. Intuitivo Implícito. Hábito Explícito. Articulado no

15 15/45 Tipos de Conocimiento Explícito. Es el que sabemos que tenemos y somos concientes cuando lo ejecutamos, se encuentra estructurado y esquematizado para su difusión. Se pueden transmitir y vender. Implícito. Sabemos que tenemos el K, pero no nos damos cuenta que lo estamos utilizando, simplemente lo ejecutamos y ponemos en práctica de una manera habitual. Se puede explicar por qué. Se usa de manera habitual, pero no mecánicamente. Tácito. Permanece en un nivel inconsciente e intuitivo, se encuentra desarticulado, lo implementamos y ejecutamos de una manera mecánica sin darnos cuenta. Se transmite mediante la observación y la imitación. Es difícil de extraer, pero es muy valioso. Esta transparencia. Un procedimiento de trabajo. Un correo electrónico expresan- do una situación Cualquier tarea habitual aprendida. Manejar el XLS, armar un presupuesto, hablar en inglés. Doctor que toma una decisión. La forma de escribir, de hablar, de caminar, de tomar una decisión, de relacionarse con otra persona.

16 16/45 Ejercicio 5 ¿Indique qué medios (soporte) conoce para representar el conocimiento explícito? ¿Qué tipo de conocimiento se puede representar en un documento? ¿Todo el conocimiento que se puede representar en un documento se puede almacenar en un manejador de base de datos ?

17 17/45 Representación del Conocimiento

18 18/45 ¿Cómo se descubre el conocimiento? El modelo del proceso de transmisión del conocimiento de Nonaka y Takeuchi (1995) describe el ciclo de generación de conocimiento en las organizaciones mediante cuatro fases:

19 19/45 MINERIA DE DATOS Data Objetivo Selección Conocimiento Data Preprocesada Patrones Data Mining Interpretación/ Evaluation Pre-procesamiento

20 20/45 ¿Qué es la minería de datos? Es el proceso de descubrir conocimiento desde los datos. Es el proceso de descubrimiento de conocimiento en bases de datos, mediante un proceso de extracción no trivial de información implícita, previamente desconocida y potencialmente útil. El conocimiento se puede manifestar como: patrones, reglas de conocimiento, restricciones, tendencias, etc.

21 21/45 ¿Cómo se descubre el conocimiento? ¿Se puede tomar decisiones con datos? ¿Se puede tomar decisiones con información? ¿Se puede tomar decisiones con conocimiento? La información es equivalente a VERDADERO-FALSO El conocimiento es equivalente a GRADO VERDAD

22 22/45 El Ciclo del Conocimiento Conocimiento Consolidado Generación de Teorías Prueba y Aplicación Observación y Análisis Información Problemas Oportunidades Resultados Métodos Enfoque Datos del medio ambiente

23 23/45 Ejercicio 6 Se tiene los siguientes datos sobre una campaña de marketing. La empresa envió cierta promoción a varias casas y registró unos cuantos hechos sobre ellos y también si las personas respondieron o no. ¿Cómo se puede predecir la respuesta de la siguiente casa? Intente predecir la respuesta a los casos proporcionados por el profesor. Sugerencia: Diseñe un árbol de decisión.

24 24/45 Ejercicio 6 UbicaciónTipo de casaIngresosCliente previoResultado SuburbanoSeparadoAltoNoNinguno SuburbanoSeparadoAltoSiNinguno RuralSeparadoAltoNoRespondió UrbanoSemi-SeparadoAltoNoRespondió UrbanoSemi-SeparadoBajoNoRespondió UrbanoSemi-SeparadoBajoSiNinguno RuralSemi-SeparadoBajoSiRespondió SuburbanoTerraplénAltoNoNinguno SuburbanoSemi-SeparadoBajoNoRespondió UrbanoTerraplénBajoNoRespondió SuburbanoTerraplénBajoSiRespondió RuralTerraplénAltoSiRespondió RuralSeparadoBajoNoRespondió UrbanoTerraplénAltoSiNinguno

25 25/45 Ejercicio 6 UbicaciónTipo de casaIngresosCliente previoResultado SuburbanoSeparadoAltoNoNinguno SuburbanoSeparadoAltoSiNinguno RuralSeparadoAltoNoRespondió UrbanoSemi-SeparadoAltoNoRespondió UrbanoSemi-SeparadoBajoNoRespondió UrbanoSemi-SeparadoBajoSiNinguno RuralSemi-SeparadoBajoSiRespondió SuburbanoTerraplénAltoNoNinguno SuburbanoSemi-SeparadoBajoNoRespondió UrbanoTerraplénBajoNoRespondió SuburbanoTerraplénBajoSiRespondió RuralTerraplénAltoSiRespondió RuralSeparadoBajoNoRespondió UrbanoTerraplénAltoSiNinguno

26 26/45 Ejercicio 6 Ubicación Cliente Previo Ingresos R NR NR Suburbano Rural Urbano 554 SINOAltoBajo 2332

27 27/45 ¿Qué significa el nombre? Minería de datosMinería de conocimiento Descubrimiento de conocimiento en bases de datos Arqueología de datos Dragado de DatosMinería de base de datos Extracción de conocimiento Procesamiento de patrones de datos Cosecha de información Análisis de Información Es el proceso de descubrir nuevos y significativos modelos, correlaciones y tendencias filtrándose grandes cantidades de datos almacenados, usando las tecnologías de reconocimiento de patrones y las técnicas estadísticas y matemáticas

28 28/45 NECESIDAD DE LA MINERIA DE DATOS

29 29/45 La necesidad para minería de datos Gran cantidad de datos actuales e históricos son almacenados –Una porción pequeña (~5-10%) es analizada. –Los datos que no pueden ser analizados, se siguen almacenando. En grandes bases de datos la posibilidad de apoyar a la toma de decisiones se torna imposible. –Buscar nuevas formas de clasificar a nuestros clientes. –Buscar casos de fraude –Buscar personas que desean comprar un auto –Buscar documentos semejantes –Identificar al pasajero que debe ser revisado –Buscar pares de productos que con frecuencia compran los clientes

30 30/45 La necesidad para minería de datos Problema de la explosión de los datos. –Las herramientas de captura automática de datos y tecnologías maduras de base de datos permiten que grandes cantidades de datos sean almacenados en BD, DataMarts y otros repositorios de información. Estamos ahogados en datos, pero hambrientos de conocimiento. –Los sistemas de captura de datos son usados intensamente y no existe tiempo para analizar los datos.

31 31/45 Algunos sitios Web Buscar precios (www.ebay.com) Comparar cotizaciones (www.lendingtree.com) Búsqueda de trabajos (www.monster.com) Comparación de términos en Google (www.onfocus.com/googlesmack/down.as p) Definición de términos (www. googlism.com/about.htm) Reservaciones (www.hotels.com) Subastas (www.priceline.com) Ciudades digitales (www.digitalcity.com) Encontrar direcciones (www.mapquest.com) Evaluar Profesores (www.ratemyprofessors.com/index.jsp) Conocimiento en Google (www.google.com/technology/index.html) Búsqueda de Libros por contenido (www.a9.com) Download de Libros (www.a9.com) Cuidado de niños (www.watchmegrow.com) Servicios de webradio (www.live365.com) Simbiósis tecnológica (www.wired.com:80/wired/archive/8.02/war wick.html) Trabajos del futuro (www.time.com/time/ reports/v21/work/mag_ten_hottest_jobs.ht ml) Corporación del futuro (www.businessweek.com/2000/00_35/b htm) El WWWW (wearable) (www.phonescoop.com/articles/moto_wea rables/) Google en el Espacio (www.google.com/jobs/lunar_job.html) Reportero en Línea (http://uk.newsbot.msn.com/)

32 32/45 PROCESO DE LA MINERIA DE DATOS

33 33/45 Adaptado de: U. Fayyad, al de et. ( 1995) El Proceso de la Minería de Datos Data Objetivo Selección Conocimiento Patrones Data Mining Interpretación/ Evaluación Pre-procesamiento Data Pre-procesada

34 34/45 El Proceso de la Minería de Datos Recopilación. Desde diversas fuentes: BD, datamarts, texto, imágenes, video, sonido, etc. Uso de almacenes de datos multidimensionales organizados y estructurados. Selección de Datos. Selección de atributos relevantes. Selección de muestras. Pre-procesamiento. Mejora de la calidad de los datos, eliminación de atributos irrelevantes o eliminación de datos extremos, tratamiento de datos faltantes. Minería de Datos. Generación de modelos desde lo datos recopilados y seleccionados. Uso de varios modelos. Interpretación y evaluación. Evaluación y uso de los resultados obtenidos, reformulación del modelo. 5% 30% 50% 10%

35 35/45 TAREAS DE LA MINERIA DE DATOS

36 36/45 Tipos de Aprendizaje Supervisado Una especie de profesor sugiere una categoría para cada conjunto de entrenamiento. Se busca reducir el error de entrenamiento. No Supervisado No existe el profesor, el sistema realiza agrupamientos en forma natural sobre los patrones de entrada, para determinar la clase a la que pertenece.

37 37/45 Tareas de la Minería de Datos Tareas Predictiva Descriptiva Clasificación Regresión Agrupamiento Reglas de Asociación Secuenciación

38 38/45 Clasificación Intenta clasificar algunos objetos en un número finito de clases, en función a sus propiedades (características) Se intenta buscar un función de mapeo que permita separar la clase 1 de la clase 2 y esta de la clase 3… Las variables (atributos) son categóricos (no numéricos). El modelo se construye con datos completos, cada registro tiene una clase predefinida. Busca formas de separar la data en clases pre-definidos: Árboles de decisión. Redes Neuronales. Clasificador Bayesiano. Razonamiento basado en casos

39 39/45 Regresión Intenta determinar la función que mapea un conjunto de variables de entrada X (independiente), en una (o más) variables de salida Y (dependiente),. Es básicamente numérica. Está basada en supuestos estadísticos. Árboles de decisión. Redes Neuronales. Regresión Logística

40 40/45 Agrupamiento (Clustering) (Clasificación no supervisada) Intenta agrupar una serie de objetos en grupos. Cada objeto es representado por un vector de atributos n-dimensional. Los objetos que forman cada grupo deben ser disimilares. La similaridad es medida del grado de proximidad. Luego cada grupo es etiquetado. K-means (agrupamiento exclusivo) Fuzzy C- means (agrupamiento con traslape) Angulo de distribución mínima Método de autoorganizac ión (SOM) Razonamient o Adaptativo

41 41/45 Reglas de Asociación Analiza los datos para descubrir reglas que identifiquen patrones o comportamientos. Reglas de la forma A B. Usa algoritmos intensivos en procesamiento. Análisis de la cesta de la compra (market basket analysis). IDDeclaración 2000A,B,C 1000A,C 4000A,D 5000B,E,F Encuentre ¿qué grupos de ítems comúnmente se declaran juntos? Haciendo el soporte mínimo del 50% y la confianza mínima del 50%, tenemos: A C ( 50%, 66.6%) C A ( 50%, 100%) A priori A priori predictivo

42 42/45 Secuenciación Buscar secuencias que son usualmente probables. Requiere entrenamiento, lista de eventos, conocimiento de eventos interesantes. Debe ser robusto en la fase de adicionar eventos con ruido. Usado en el análisis de fallas y predicción. Modelo de Markov Agrupamiento MDD ( Maximal Dependence Decomposition Clustering ) A B HTHHTHHttthtttHHTHHHHtthtthttht...

43 43/45 Bibliografía Introducción a la minería de datos. J. Hernández, J. Ramírez. Capítulo 1, Capítulo 2.

44 44/45 PREGUNTAS

45 45/45 Preguntas de auto-evaluación


Descargar ppt "Introducción a la Minería de Datos INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto Díaz."

Presentaciones similares


Anuncios Google