1 DATA MINING Arantza Garcia Arrastia Curso 2004/2005.

Slides:



Advertisements
Presentaciones similares
DATA MINING MINERIA DE DATOS Gersom Costas.
Advertisements

VIVIANA ACHURY S. ANGIE NATALIA GARCIA S.. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos (Bajo.
RESUMEN En este artículo se describe en forma breve una de las líneas de investigación que se están llevando a cabo en el Laboratorio de Tecnologías Emergentes.
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
DATA MINING. Extracción de información oculta y predecible de grandes bases de datos Poderosa tecnología que ayuda a concentrase en la información importante.
Javier Benavides Pañeda
1 Introducción a la minería de datos. 2 Temario ¿Qué es minería de datos? ¿Qué es minería de datos? ¿Quién usa minería de datos? ¿Quién usa minería de.
Gestión comercial y servicio de atención al cliente Unidad 2. Conocimiento del mercado Gestión comercial y servicio de atención al cliente Unidad 2. Conocimiento.
Knowledge Management Fuente:. ¿Que es Gestión Del Conocimiento? Es un proceso que ayuda a las organizaciones a identificar, seleccionar, organizar, diseminar.
Copyright © 2003 by The McGraw-Hill Companies, Inc. Todos los derechos reservados.
Dr. Francisco J. Mata 1 Metodologías para Minería de Datos Tema 4.
FUNDAMENTOS DEL ANÁLISIS DE SISTEMAS Un sistema es un conjunto de componentes que se unen e interactúan entre si para formar un todo en base a un mismo.
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
Tipos de Sistemas de Información
Ingreso , proceso y salida de datos
La vida es demasiado corta para ser pequeña
Productos de VT e IE Análisis de tendencias Investigación de mercado
Análisis de resultados Evaluación diagnóstica en línea
EXPOSITOR L.C. EDUARDO M. ENRÍQUEZ G.
Pedro Letelier Patricio Contreras
Etapas de una investigación
Sistemas de DATAWAREHOUSE y “BI”
Autor: Araya P., Ruz G., Palomino H.
De alguna forma, toda organización por más pequeña que sea, necesita saber su pasado y su presente, la situación actual en la que se encuentra y con que.
DIAGRAMAS Una Poderosa Herramienta Gráfica para el Análisis e Interpretación de los Procesos.
ESTADÍSTICA II Ing. Danmelys Perozo MSc.
escuela de administración estadistica ii
INTRODUCCIÓN AL ESTUDIO DE LA ESTADÍSTICA
Estructura de Base de Datos
Toma de Decisiones.
TRABAJO DE TITULACIÓN “MANEJO BASICO DE INDICADORES DE PARTICIPACION CIUDADANA UTILIZANDO ALGORITMOS Y TECNICAS DE MINERIA DE DATOS COMO APOYO EN LA GESTION.
Segmentación Implementación de estrategias de segmentación
Metodología de la Investigación
Indicadores de Gestión Dr. RAFAEL OCTAVIO SILVA LAVALLE ADMINISTRACION II.
TECNICAS DE CONTROL INTEGRANTES: Angie Paola Bautista Ana Yara
REGRESÍON LINEAL SIMPLE
Etapas de la simulación de procesos
Componentes y Etapas de la Simulación
Algoritmo Capitulo Cinco.
RODRÍGUEZ CARRANZA SARAÍ ABI
DIAGRAMAS Una Poderosa Herramienta Gráfica para el Análisis e Interpretación de los Procesos.
Modelo de interacción de usuario.  El Desarrollo basado en modelos de la interfaz de usuario, en inglés Model-based User Interface Development (MB-UID),
TIPOS DE INVESTIGACIÓN De: Bolívar V Jorge A CI:
APLICACIÓN DE NUEVAS TECNOLOGÍAS EN LA CONSERVACIÓN Y ANÁLISIS DEL PATRIMONIO CULTURAL Herramientas para la Investigación.
CONCEPTOS DE PSICOLOGIA Vamos a considerar palabra por palabra de esta definición. El término psicología proviene de las palabras griegas psyche (alma)
Metodología de la Investigación
Investigación de mercados
MÉTODO CIENTÍFICO.
Técnicas De Recolección De Datos
Una Herramienta Gráfica para el Análisis e Interpretación de los Procesos.
En este periodo el analista se esfuerza por comprender la información que necesitan los usuarios para realizar su trabajo de la manera correcta.
Test de Personalidad y la Selección de tus colaboradores.
Investigación educativa Integrantes Condori Alicia García patricia Pinell Gabriela Romero paúl Aguilar jhonny.
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
Desarrollo Técnico  EL PROCESO DE CREACIÓN Y DESARROLLO DE UNA TIPOGRAFÍA CUALQUIERA ES, EN LÍNEA GENERAL MUY SIMILAR. AQUÍ NO SE DESCRIBIRÁ EN DETALLE.
 La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) es un campo de la estadística y las.
La Investigación Científica
La metodología CRISP-DM
Se hizo popular en la década de 1980 y todavía es utilizado por muchos. Consiste en interpretar el concepto del sistema (o situaciones del mundo real)
Hoja de recopilación y/o recopilación de datos
INVESTIGACIÓN CIENTÍFICA
Lingüística computacional
Universidad del Istmo Campus Tehuantepec Ingeniería en Computación “Construcción de Sistemas de Computación” M.I.A Daniel Alejandro García
 Es básicamente un proceso automático en el que se combinan descubrimiento y análisis.  El proceso consiste en extraer patrones en forma de reglas o.
Capitulo 1 Introducción y recolección de datos 1.
ESTUDIO DE MERCADO. MÉTODOS DE PROYECCIÓN ¿Qué es una proyección? Es una estimación del comportamiento de una variable en el futuro. Específicamente, se.
Econometría financiera Retorno y riesgo. ¿Qué es la econometría financiera? La econometría consiste en dar un contenido empírico a un razonamiento económico.
Transcripción de la presentación:

1 DATA MINING Arantza Garcia Arrastia Curso 2004/2005

2 Data Mining Introducción Características principales TécnicasFasesEjemplosContras Pros ProsConclusiones

3 1.Introducción (I) Data Mining, es la extracción de información oculta y predecible de grandes bases de datos. Trabaja buscando patrones, comportamientos, agrupaciones, secuencias, tendencias y asociaciones que pueden generar algún modelo para ayudar en la toma de decisiones y a comprender mejor el dominio.

4 1.Introducción (II) Es una poderosa tecnología con potencial para ayudar a las compañías a concentrarse en la información más importante de sus Bases de Información (Data Warehouse). Las herramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo en los negocios tomar decisiones proactivas.

5 1.Introducción(III) Dos conceptos de Data Mining: 1 => Data Mining como un paso dentro del proceso KDD (Knowledge Discovery in Databases), o descubrimiento de conocimiento de las bases de datos. Representa la actividad que genera patrones y relaciones mediante la aplicación de algoritmos, a partir de un conjunto de datos previamente limpiados y transformados, para una etapa posterior de interpretación y análisis.

6 1.Introducción (IV) => 2. Data Mining como un Proceso Independiente de extracción de información oculta, que posee sus propias etapas: Identificación del problema, selección de los datos, preparación de los datos, construcción del modelo, descubrimiento de patrones, despliegue de Patrones y monitoreo del modelo.

7 1.Introducción (V) Etapas principales : Determinación de los objetivos: Delimitación de los objetivos que el cliente desea. Determinación de los objetivos: Delimitación de los objetivos que el cliente desea. Preprocesamiento de los datos(60%): Selección, limpieza, enriquecimiento, reducción y transformación de las bases de datos. Preprocesamiento de los datos(60%): Selección, limpieza, enriquecimiento, reducción y transformación de las bases de datos. Determinación del modelo: análisis estadísticos y visualización grafica de los datos. Determinación del modelo: análisis estadísticos y visualización grafica de los datos. Análisis de los resultados: Verifica si los resultados son coherentes. El cliente es el que tiene la palabra final. Análisis de los resultados: Verifica si los resultados son coherentes. El cliente es el que tiene la palabra final.

8 1.Introducción (VI) PROCEDIMIENTOS: PROCEDIMIENTOS: Clasificación. Consiste en examinar las características de una entidad nueva y asignarle una clase predefinida. Por ejemplo: Clasificar a un nuevo cliente según su riesgo de crédito (alto, medio, bajo). Estimación. Similar a lo anterior, pero aplicado a variables continuas. Por ejemplo: ingresos, balance de tarjetas de crédito, etc. Predicción. Predicción de fidelidad de clientes. Ejemplo: predecir qué clientes nos abandonarán en los próximos 6 meses. Ejemplo: predecir qué clientes nos abandonarán en los próximos 6 meses. Grupos Afines o Reglas de Asociación. El objetivo de los grupos afines es determinar que cosas van juntas. Ejemplo: productos que debieran ir juntos en un supermercado.

9 1.Introducción (VII) Clustering. Tiene como objetivo el segmentar a un grupo diverso en un conjunto de subgrupos.No depende de clases. Ejemplo: un cluster particular de síntomas puede indicar una enfermedad particular. Ejemplo: un cluster particular de síntomas puede indicar una enfermedad particular. Descripción y Visualización. Algunas veces el objetivo es simplemente describir qué esta ocurriendo en una base de datos compleja, para así aumentar nuestro entendimiento de las personas, productos o procesos que generaron los datos inicialmente.

10 Data Mining Introducción Características principales TécnicasFasesEjemplosContras Pros ProsConclusiones

11 2.Características principales (I) Predicción automatizada de tendencias y comportamientos: Data Mining automatiza el proceso de encontrar información predecible en grandes bases de datos. Data Mining automatiza el proceso de encontrar información predecible en grandes bases de datos. Permite detectar fácilmente patrones en los datos. Preguntas que tradicionalmente requerían un intenso análisis manual, ahora pueden ser contestadas directa y rápidamente desde los datos. Permite detectar fácilmente patrones en los datos. Preguntas que tradicionalmente requerían un intenso análisis manual, ahora pueden ser contestadas directa y rápidamente desde los datos.

12 2.Características principales (II) Descubrimiento automatizado de modelos previamente desconocidos: Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un sólo paso. Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de créditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos.

13 2.Características principales (III) Las bases de datos pueden ser grandes tanto en profundidad como en ancho : -Más columnas. Los analistas deben limitar el número de variables a examinar cuando realizan análisis manuales debido a limitaciones de tiempo. Sin embargo, variables que son descartadas porque parecen sin importancia pueden proveer información acerca de modelos desconocidos. Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos, sin preseleccionar un subconjunto de variables. -Más columnas. Los analistas deben limitar el número de variables a examinar cuando realizan análisis manuales debido a limitaciones de tiempo. Sin embargo, variables que son descartadas porque parecen sin importancia pueden proveer información acerca de modelos desconocidos. Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos, sin preseleccionar un subconjunto de variables. -Más filas. Muestras mayores producen menos errores de estimación y desvíos, y permite a los usuarios hacer inferencias acerca de pequeños pero importantes segmentos de población. -Más filas. Muestras mayores producen menos errores de estimación y desvíos, y permite a los usuarios hacer inferencias acerca de pequeños pero importantes segmentos de población.

14 Data Mining Introducción Características principales TécnicasFasesEjemplosContras Pros ProsConclusiones

15 3.Técnicas (I) Las técnicas mas usadas en Data Mining son: Redes neuronales artificiales: modelos que aprenden a través del entrenamiento y semejan la estructura de una red neuronal biológica. Redes neuronales artificiales: modelos que aprenden a través del entrenamiento y semejan la estructura de una red neuronal biológica. Árboles de decisión: estructuras de forma de árbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Árboles de decisión: estructuras de forma de árbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Algoritmos genéticos: técnicas de optimización que usan procesos tales como combinaciones genéticas, mutaciones y selección natural en un diseño basado en los conceptos de evolución. Algoritmos genéticos: técnicas de optimización que usan procesos tales como combinaciones genéticas, mutaciones y selección natural en un diseño basado en los conceptos de evolución.

16 3.Técnicas (II) Método del vecino más cercano: Método del vecino más cercano: Una técnica que clasifica cada registro en un conjunto de datos basado en una combinación de las clases del/de los k registro (s) más similar/es a él en un conjunto de datos históricos (donde k 1). Algunas veces se llama la técnica del vecino k-más cercano. Una técnica que clasifica cada registro en un conjunto de datos basado en una combinación de las clases del/de los k registro (s) más similar/es a él en un conjunto de datos históricos (donde k 1). Algunas veces se llama la técnica del vecino k-más cercano. Regla de inducción: Regla de inducción: La extracción de reglas if-then de datos basados en significado estadístico. La extracción de reglas if-then de datos basados en significado estadístico.

17 Data Mining Introducción Características principales TécnicasFasesEjemplosContras Pros ProsConclusiones

18 4.Fases (I) Fases de un Proyecto de Minería de Datos Los pasos a seguir para la realización de un proyecto de minería de datos son siempre los mismos, independientemente de la técnica de extracción de conocimiento usada. El proceso de minería de datos pasa por las siguientes fases: 1.Filtrado de datos 2.Selección de Variables 3.Extracción de Conocimiento 4.Interpretación y Evaluación 1.Filtrado de datos 2.Selección de Variables 3.Extracción de Conocimiento 4.Interpretación y Evaluación

19 4.Fases (II) Filtrado de datos El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse...) nunca es el idóneo, y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos "en bruto". Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el número de valores posibles (mediante redondeo, clustering,...). El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse...) nunca es el idóneo, y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos "en bruto". Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el número de valores posibles (mediante redondeo, clustering,...).

20 4.Fases (III) Selección de variables Aún después de haber sido preprocesados, en la mayoría de los casos se tiene una gran cantidad de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería. Aún después de haber sido preprocesados, en la mayoría de los casos se tiene una gran cantidad de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería. Los métodos para la selección de características son dos: - Los basados en la elección de los mejores atributos del problema, - Los que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos. Los métodos para la selección de características son dos: - Los basados en la elección de los mejores atributos del problema, - Los que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos.

21 4.Fases (IV) Algoritmos de Extracción de Conocimiento: Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos. Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos.

22 4.Fases (V) Interpretación y evaluación: Interpretación y evaluación: Verifica si los resultados son coherentes. El cliente es el que tiene la palabra final. Verifica si los resultados son coherentes. El cliente es el que tiene la palabra final. Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. Si se obtienen varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si se obtienen varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema.

23 Data Mining Introducción Características principales TécnicasFasesEjemplosContras Pros ProsConclusiones

24 5.Ejemplos Telefonía móvil. Club AC Milán (prevenir lesiones) FBI

25 Data Mining Introducción Características principales TécnicasFasesEjemplosContras Pros ProsConclusiones

26 6.Contras (I) Momento critico de la minería de datos: Que se requiere experiencia. Fáciles Equivocaciones. Fácil hallar patrones equívocos, triviales o no interesantes. Relación coste/Beneficio improductiva. Uso indiscriminado de datos. Que no sea posible resolver los aspectos técnicos de hallar patrones en tiempo o en espacio. Que exista una reacción del publico por el uso indiscriminado de datos personales para ejercicios de Minería de Datos, que obligue a los legisladores a imponer restricciones exageradas (y tal vez absurdas) al uso de la tecnología.. Que exista una reacción del publico por el uso indiscriminado de datos personales para ejercicios de Minería de Datos, que obligue a los legisladores a imponer restricciones exageradas (y tal vez absurdas) al uso de la tecnología..

27 Data Mining Introducción Características principales TécnicasFasesEjemplosContras Pros ProsConclusiones

28 7.Pros (I) Extrae información táctica y estratégica almacenada en sus Data Warehouse. La búsqueda de patrones la realiza en forma automatizada, generando modelos mediante la aplicación de diferentes técnicas. Existe gran diversidad de herramientas de Data Mining en el mercado, lo que facilita la aplicación de este proceso y aumenta el nivel de confianza de sus resultados. No requiere de personal experto en ciencias estadísticas o altamente entrenado. Es suficiente un especialista en análisis de datos y un experto en las áreas de la organización, que tengan conocimientos básicos en áreas estadísticas que les permita entender y aplicar los resultados.

29 Data Mining Introducción Características principales TécnicasFasesEjemplosContras Pros ProsConclusiones

30 8.Conclusiones (I) Nuestra capacidad para almacenar datos ha crecido en los últimos años a velocidades exponenciales. En contrapartida, nuestra capacidad para procesarlos y utilizarlos no ha ido a la par. Nuestra capacidad para almacenar datos ha crecido en los últimos años a velocidades exponenciales. En contrapartida, nuestra capacidad para procesarlos y utilizarlos no ha ido a la par. => data mining se presenta como una tecnología de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes volúmenes de datos. Descubrir nuevos caminos que nos ayuden en la identificación de estructuras en los datos es una de las tareas fundamentales en el data mining. => data mining se presenta como una tecnología de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes volúmenes de datos. Descubrir nuevos caminos que nos ayuden en la identificación de estructuras en los datos es una de las tareas fundamentales en el data mining.