La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Introducción a la Minería de Datos

Presentaciones similares


Presentación del tema: "Introducción a la Minería de Datos"— Transcripción de la presentación:

1 Introducción a la Minería de Datos
INTRODUCCION A TECNICAS DE MINERIA DE DATOS Introducción a la Minería de Datos Mg. Samuel Oporto Díaz

2 Tabla de Contenido El Conocimiento 4 Minería de Datos 19
Necesidad de la Minería de Datos Proceso de la Minería de Datos Tareas de la Minería de Datos Bibliografía Preguntas de auto-evaluación 4 19 28 32 35 43 45

3 Mapa Conceptual – Minería de Datos

4 EL CONOCIMIENTO “El conocimiento es experiencia,
todo lo demás es información” Alberto Einstein

5 Niveles del Entendimiento
Es el nivel previo de la conciencia. Se relaciona con el futuro. Sabiduría Es humano. Es una apreciación del por qué. Es cuando se puede sintetizar nuevo conocimiento desde el conocimiento y la información Entendimiento Es información útil, contextual, tácita. Es la aplicación de los datos y la información, responde a cómo. Se puede aprender. Conocimiento Es la data con un significado por vía de una relación. El significa-do puede o no ser útil. Responde a quién, qué, donde, cuándo. Información La data es cruda. Existe o no, pero no tiene significado por si misma. Es codificable y explicita, es fácil de ser transferida. Datos

6 Diagrama de transición
relación sabiduría crítica del entendimiento entendimiento entendiendo principios conocimiento entendiendo patrones información Conocimiento  Memorización. Entendimiento  Aprendizaje entendiendo relaciones datos entendimiento

7 Niveles del Entendimiento
Dato. Requiere un medio de almacenamiento. Se debe capturar (registrar) y codificar. Es muy abundante. Información. Se crea mediante la relación de datos Es abundante y barata. Se puede distribuir. Es el dato con significado. Conocimiento. Es la información útil. Se forma desde los patrones de comportamiento. Requiere de la vivencia del humano para ser aprendido. Es el ¿cómo? No es fácilmente codificable, por lo tanto no es fácilmente almacenable ni recuperable. Es caro.

8 Conocimiento y Experiencia
Información para la acción Para tener el conocimiento es necesario tener el contacto con el problema y saber resolver problemas. No basta con tener la información

9 Ejercicio 1 ¿Para qué sirven los datos?
¿Para qué sirve la información? ¿Para qué sirve el conocimiento?

10 Ejercicio 2 ¿Se puede encontrar información en los datos?
¿Se pueden encontrar conocimiento en los datos? ¿Se pueden encontrar conocimiento en la información?

11 Ejercicio 3 ¿Cómo se puede averiguar a qué idioma corresponde un texto determinado? ¿El texto es dato o información?

12 Ejercicio 3

13 Ejercicio 4 Diga para las siguientes actividades, en qué casos es suficiente tener información para actuar y en que casos es indispensable la práctica para actuar: Resolver un examen de matemáticas. Comentar un libro. Describir un accidente de tránsito. Cambiarle el pañal a un bebe. Participar en un juego de ajedrez. Desarrollar un sistema de información. Desarrollar un modelo que represente un sistema. Limpiar la casa. Armar una bicicleta con un manual.

14 - Tácito - Implícito - Explícito
Tipos de Conocimiento - Tácito Implícito Explícito Inicio Puede ser articulado Es conciente no no Tácito si si Explícito Implícito Tácito. Intuitivo Implícito. Hábito Explícito. Articulado articulado = estructurado, esquematizado, se puede expresar

15 Tipos de Conocimiento Explícito.
Es el que sabemos que tenemos y somos concientes cuando lo ejecutamos, se encuentra estructurado y esquematizado para su difusión. Se pueden transmitir y vender. Implícito. Sabemos que tenemos el K, pero no nos damos cuenta que lo estamos utilizando, simplemente lo ejecutamos y ponemos en práctica de una manera habitual. Se puede explicar por qué. Se usa de manera habitual, pero no mecánicamente. Tácito. Permanece en un nivel inconsciente e intuitivo, se encuentra desarticulado, lo implementamos y ejecutamos de una manera mecánica sin darnos cuenta. Se transmite mediante la observación y la imitación. Es difícil de extraer, pero es muy valioso. Esta transparencia. Un procedimiento de trabajo. Un correo electrónico expresan-do una situación Cualquier tarea habitual aprendida. Manejar el XLS, armar un presupuesto, hablar en inglés. Doctor que toma una decisión. La forma de escribir, de hablar, de caminar, de tomar una decisión, de relacionarse con otra persona.

16 Ejercicio 5 ¿Indique qué medios (soporte) conoce para representar el conocimiento explícito? ¿Qué tipo de conocimiento se puede representar en un documento? ¿Todo el conocimiento que se puede representar en un documento se puede almacenar en un manejador de base de datos ?

17 Representación del Conocimiento

18 ¿Cómo se descubre el conocimiento?
El modelo del proceso de transmisión del conocimiento de Nonaka y Takeuchi (1995) describe el ciclo de generación de conocimiento en las organizaciones mediante cuatro fases:

19 MINERIA DE DATOS Data Mining Interpretación/ Evaluation
Conocimiento Data Mining Patrones Pre-procesamiento Data Preprocesada Selección Data Objetivo Data

20 ¿Qué es la minería de datos?
Es el proceso de descubrir conocimiento desde los datos. Es el proceso de descubrimiento de conocimiento en bases de datos, mediante un proceso de extracción no trivial de información implícita, previamente desconocida y potencialmente útil. El conocimiento se puede manifestar como: patrones, reglas de conocimiento, restricciones, tendencias, etc.

21 ¿Cómo se descubre el conocimiento?
¿Se puede tomar decisiones con datos? ¿Se puede tomar decisiones con información? ¿Se puede tomar decisiones con conocimiento? La información es equivalente a VERDADERO-FALSO El conocimiento es equivalente a GRADO VERDAD

22 El Ciclo del Conocimiento
Datos del medio ambiente Observación y Análisis Problemas Oportunidades Información Conocimiento Consolidado Generación de Teorías Métodos Enfoque Resultados Prueba y Aplicación

23 Ejercicio 6 Se tiene los siguientes datos sobre una campaña de marketing. La empresa envió cierta promoción a varias casas y registró unos cuantos hechos sobre ellos y también si las personas respondieron o no. ¿Cómo se puede predecir la respuesta de la siguiente casa? Intente predecir la respuesta a los casos proporcionados por el profesor. Sugerencia: Diseñe un árbol de decisión.

24 Ejercicio 6 Ubicación Tipo de casa Ingresos Cliente previo Resultado
Suburbano Separado Alto No Ninguno Si Rural Respondió Urbano Semi-Separado Bajo Terraplén

25 Ejercicio 6 Ubicación Tipo de casa Ingresos Cliente previo Resultado
Suburbano Separado Alto No Ninguno Si Rural Respondió Urbano Semi-Separado Bajo Terraplén

26 Ejercicio 6 Ubicación Cliente Previo Ingresos R N Suburbano Rural
5 4 SI NO Alto Bajo 2 3

27 ¿Qué significa el nombre?
Minería de datos Cosecha de información Minería de conocimiento Procesamiento de patrones de datos Arqueología de datos Extracción de conocimiento Minería de base de datos Dragado de Datos Análisis de Información Descubrimiento de conocimiento en bases de datos Es el proceso de descubrir nuevos y significativos modelos, correlaciones y tendencias filtrándose grandes cantidades de datos almacenados, usando las tecnologías de reconocimiento de patrones y las técnicas estadísticas y matemáticas

28 NECESIDAD DE LA MINERIA DE DATOS

29 La necesidad para minería de datos
Gran cantidad de datos actuales e históricos son almacenados Una porción pequeña (~5-10%) es analizada. Los datos que no pueden ser analizados, se siguen almacenando. En grandes bases de datos la posibilidad de apoyar a la toma de decisiones se torna imposible. “Buscar nuevas formas de clasificar a nuestros clientes”. “Buscar casos de fraude” “Buscar personas que desean comprar un auto” “Buscar documentos semejantes” “Identificar al pasajero que debe ser revisado” “Buscar pares de productos que con frecuencia compran los clientes”

30 La necesidad para minería de datos
Problema de la explosión de los datos. Las herramientas de captura automática de datos y tecnologías maduras de base de datos permiten que grandes cantidades de datos sean almacenados en BD, DataMarts y otros repositorios de información. Estamos ahogados en datos, pero hambrientos de conocimiento. Los sistemas de captura de datos son usados intensamente y no existe tiempo para analizar los datos.

31 Algunos sitios Web Buscar precios (www.ebay.com)
Comparar cotizaciones ( Búsqueda de trabajos ( Comparación de términos en Google ( Definición de términos (www. googlism.com/about.htm) Reservaciones  (   Subastas ( Ciudades digitales  ( Encontrar direcciones ( Evaluar Profesores ( Conocimiento en Google ( Búsqueda de Libros por contenido ( Download de Libros ( Cuidado de niños  ( Servicios de webradio ( Simbiósis tecnológica ( Trabajos del futuro ( reports/v21/work/mag_ten_hottest_jobs.html) Corporación del futuro ( El WWWW (wearable) ( Google en el Espacio ( Reportero en Línea (

32 PROCESO DE LA MINERIA DE DATOS

33 El Proceso de la Minería de Datos
Data Objetivo Selección Conocimiento Patrones Data Mining Interpretación/ Evaluación Pre-procesamiento Pre-procesada Mine for: Selection Aggregation Abstraction Visualization Transformation/Conversion Statistical Analysis “Cleaning” Adaptado de: U. Fayyad, al de et. ( 1995)

34 El Proceso de la Minería de Datos
Recopilación. Desde diversas fuentes: BD, datamarts, texto, imágenes, video, sonido, etc. Uso de almacenes de datos multidimensionales organizados y estructurados. Selección de Datos. Selección de atributos relevantes. Selección de muestras. Pre-procesamiento. Mejora de la calidad de los datos, eliminación de atributos irrelevantes o eliminación de datos extremos, tratamiento de datos faltantes. Minería de Datos. Generación de modelos desde lo datos recopilados y seleccionados. Uso de varios modelos. Interpretación y evaluación. Evaluación y uso de los resultados obtenidos, reformulación del modelo. 5% 5% 30% 50% 10%

35 TAREAS DE LA MINERIA DE DATOS

36 Tipos de Aprendizaje Tipos de Aprendizaje
Una especie de profesor sugiere una categoría para cada conjunto de entrenamiento. Se busca reducir el error de entrenamiento. Supervisado Tipos de Aprendizaje No existe el profesor, el sistema realiza agrupamientos en forma natural sobre los patrones de entrada, para determinar la clase a la que pertenece. No Supervisado

37 Tareas de la Minería de Datos
Clasificación Predictiva Regresión Tareas Agrupamiento Descriptiva Reglas de Asociación Secuenciación

38 Clasificación Intenta clasificar algunos objetos en un número finito de clases, en función a sus propiedades (características) Se intenta buscar un función de mapeo que permita separar la clase 1 de la clase 2 y esta de la clase 3… Las variables (atributos) son categóricos (no numéricos). El modelo se construye con datos completos, cada registro tiene una clase predefinida. Busca formas de separar la data en clases pre-definidos: Árboles de decisión. Redes Neuronales. Clasificador Bayesiano. Razonamiento basado en casos

39 Regresión Intenta determinar la función que mapea un conjunto de variables de entrada X (independiente), en una (o más) variables de salida Y (dependiente), . Es básicamente numérica. Está basada en supuestos estadísticos. Árboles de decisión. Redes Neuronales. Regresión Logística

40 Agrupamiento (Clustering)
(Clasificación no supervisada) Intenta agrupar una serie de objetos en grupos. Cada objeto es representado por un vector de atributos n-dimensional. Los objetos que forman cada grupo deben ser disimilares. La similaridad es medida del grado de proximidad. Luego cada grupo es etiquetado. K-means (agrupamiento exclusivo) Fuzzy C-means (agrupamiento con traslape) Angulo de distribución mínima Método de autoorganización (SOM) Razonamiento Adaptativo

41 Reglas de Asociación Analiza los datos para descubrir reglas que identifiquen patrones o comportamientos. Reglas de la forma A  B. Usa algoritmos intensivos en procesamiento. Análisis de la cesta de la compra (market basket analysis). A priori A priori predictivo Encuentre ¿qué grupos de ítems comúnmente se declaran juntos? Haciendo el soporte mínimo del 50% y la confianza mínima del 50% , tenemos: A  C ( 50%, 66.6%) C  A ( 50%, 100%) ID Declaración 2000 A,B,C 1000 A,C 4000 A,D 5000 B,E,F

42 Secuenciación Buscar secuencias que son usualmente probables.
Requiere entrenamiento, lista de eventos, conocimiento de eventos interesantes. Debe ser robusto en la fase de adicionar eventos con ruido. Usado en el análisis de fallas y predicción. Modelo de Markov Agrupamiento MDD (Maximal Dependence Decomposition Clustering) A B HTHHTHHttthtttHHTHHHHtthtthttht...

43 Bibliografía Introducción a la minería de datos. J. Hernández, J. Ramírez. Capítulo 1, Capítulo 2.

44 PREGUNTAS

45 Preguntas de auto-evaluación


Descargar ppt "Introducción a la Minería de Datos"

Presentaciones similares


Anuncios Google