1 DATA MINING Arantza Garcia Arrastia Curso 2004/2005.

1 DATA MINING Arantza Garcia Arrastia Curso 2004/2005

2 Data Mining Introducción Características principales TécnicasFasesEjemplosContras Pros ProsConclusiones

3 1.Introducción (I) Data Mining, es la extracción de información oculta y predecible de grandes bases de datos. Trabaja buscando patrones, comportamientos, agrupaciones, secuencias, tendencias y asociaciones que pueden generar algún modelo para ayudar en la toma de decisiones y a comprender mejor el dominio.

4 1.Introducción (II) Es una poderosa tecnología con potencial para ayudar a las compañías a concentrarse en la información más importante de sus Bases de Información (Data Warehouse). Las herramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo en los negocios tomar decisiones proactivas.

5 1.Introducción(III) Dos conceptos de Data Mining: 1 => Data Mining como un paso dentro del proceso KDD (Knowledge Discovery in Databases), o descubrimiento de conocimiento de las bases de datos. Representa la actividad que genera patrones y relaciones mediante la aplicación de algoritmos, a partir de un conjunto de datos previamente limpiados y transformados, para una etapa posterior de interpretación y análisis.

6 1.Introducción (IV) => 2. Data Mining como un Proceso Independiente de extracción de información oculta, que posee sus propias etapas: Identificación del problema, selección de los datos, preparación de los datos, construcción del modelo, descubrimiento de patrones, despliegue de Patrones y monitoreo del modelo.

7 1.Introducción (V) Etapas principales : Determinación de los objetivos: Delimitación de los objetivos que el cliente desea. Determinación de los objetivos: Delimitación de los objetivos que el cliente desea. Preprocesamiento de los datos(60%): Selección, limpieza, enriquecimiento, reducción y transformación de las bases de datos. Preprocesamiento de los datos(60%): Selección, limpieza, enriquecimiento, reducción y transformación de las bases de datos. Determinación del modelo: análisis estadísticos y visualización grafica de los datos. Determinación del modelo: análisis estadísticos y visualización grafica de los datos. Análisis de los resultados: Verifica si los resultados son coherentes. El cliente es el que tiene la palabra final. Análisis de los resultados: Verifica si los resultados son coherentes. El cliente es el que tiene la palabra final.

8 1.Introducción (VI) PROCEDIMIENTOS: PROCEDIMIENTOS: Clasificación. Consiste en examinar las características de una entidad nueva y asignarle una clase predefinida. Por ejemplo: Clasificar a un nuevo cliente según su riesgo de crédito (alto, medio, bajo). Estimación. Similar a lo anterior, pero aplicado a variables continuas. Por ejemplo: ingresos, balance de tarjetas de crédito, etc. Predicción. Predicción de fidelidad de clientes. Ejemplo: predecir qué clientes nos abandonarán en los próximos 6 meses. Ejemplo: predecir qué clientes nos abandonarán en los próximos 6 meses. Grupos Afines o Reglas de Asociación. El objetivo de los grupos afines es determinar que cosas van juntas. Ejemplo: productos que debieran ir juntos en un supermercado.

9 1.Introducción (VII) Clustering. Tiene como objetivo el segmentar a un grupo diverso en un conjunto de subgrupos.No depende de clases. Ejemplo: un cluster particular de síntomas puede indicar una enfermedad particular. Ejemplo: un cluster particular de síntomas puede indicar una enfermedad particular. Descripción y Visualización. Algunas veces el objetivo es simplemente describir qué esta ocurriendo en una base de datos compleja, para así aumentar nuestro entendimiento de las personas, productos o procesos que generaron los datos inicialmente.

11 2.Características principales (I) Predicción automatizada de tendencias y comportamientos: Data Mining automatiza el proceso de encontrar información predecible en grandes bases de datos. Data Mining automatiza el proceso de encontrar información predecible en grandes bases de datos. Permite detectar fácilmente patrones en los datos. Preguntas que tradicionalmente requerían un intenso análisis manual, ahora pueden ser contestadas directa y rápidamente desde los datos. Permite detectar fácilmente patrones en los datos. Preguntas que tradicionalmente requerían un intenso análisis manual, ahora pueden ser contestadas directa y rápidamente desde los datos.

12 2.Características principales (II) Descubrimiento automatizado de modelos previamente desconocidos: Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un sólo paso. Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de créditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos.

13 2.Características principales (III) Las bases de datos pueden ser grandes tanto en profundidad como en ancho : -Más columnas. Los analistas deben limitar el número de variables a examinar cuando realizan análisis manuales debido a limitaciones de tiempo. Sin embargo, variables que son descartadas porque parecen sin importancia pueden proveer información acerca de modelos desconocidos. Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos, sin preseleccionar un subconjunto de variables. -Más columnas. Los analistas deben limitar el número de variables a examinar cuando realizan análisis manuales debido a limitaciones de tiempo. Sin embargo, variables que son descartadas porque parecen sin importancia pueden proveer información acerca de modelos desconocidos. Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos, sin preseleccionar un subconjunto de variables. -Más filas. Muestras mayores producen menos errores de estimación y desvíos, y permite a los usuarios hacer inferencias acerca de pequeños pero importantes segmentos de población. -Más filas. Muestras mayores producen menos errores de estimación y desvíos, y permite a los usuarios hacer inferencias acerca de pequeños pero importantes segmentos de población.

15 3.Técnicas (I) Las técnicas mas usadas en Data Mining son: Redes neuronales artificiales: modelos que aprenden a través del entrenamiento y semejan la estructura de una red neuronal biológica. Redes neuronales artificiales: modelos que aprenden a través del entrenamiento y semejan la estructura de una red neuronal biológica. Árboles de decisión: estructuras de forma de árbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Árboles de decisión: estructuras de forma de árbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Algoritmos genéticos: técnicas de optimización que usan procesos tales como combinaciones genéticas, mutaciones y selección natural en un diseño basado en los conceptos de evolución. Algoritmos genéticos: técnicas de optimización que usan procesos tales como combinaciones genéticas, mutaciones y selección natural en un diseño basado en los conceptos de evolución.

16 3.Técnicas (II) Método del vecino más cercano: Método del vecino más cercano: Una técnica que clasifica cada registro en un conjunto de datos basado en una combinación de las clases del/de los k registro (s) más similar/es a él en un conjunto de datos históricos (donde k 1). Algunas veces se llama la técnica del vecino k-más cercano. Una técnica que clasifica cada registro en un conjunto de datos basado en una combinación de las clases del/de los k registro (s) más similar/es a él en un conjunto de datos históricos (donde k 1). Algunas veces se llama la técnica del vecino k-más cercano. Regla de inducción: Regla de inducción: La extracción de reglas if-then de datos basados en significado estadístico. La extracción de reglas if-then de datos basados en significado estadístico.

18 4.Fases (I) Fases de un Proyecto de Minería de Datos Los pasos a seguir para la realización de un proyecto de minería de datos son siempre los mismos, independientemente de la técnica de extracción de conocimiento usada. El proceso de minería de datos pasa por las siguientes fases: 1.Filtrado de datos 2.Selección de Variables 3.Extracción de Conocimiento 4.Interpretación y Evaluación 1.Filtrado de datos 2.Selección de Variables 3.Extracción de Conocimiento 4.Interpretación y Evaluación

19 4.Fases (II) Filtrado de datos El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse...) nunca es el idóneo, y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos "en bruto". Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el número de valores posibles (mediante redondeo, clustering,...). El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse...) nunca es el idóneo, y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos "en bruto". Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el número de valores posibles (mediante redondeo, clustering,...).

20 4.Fases (III) Selección de variables Aún después de haber sido preprocesados, en la mayoría de los casos se tiene una gran cantidad de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería. Aún después de haber sido preprocesados, en la mayoría de los casos se tiene una gran cantidad de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería. Los métodos para la selección de características son dos: - Los basados en la elección de los mejores atributos del problema, - Los que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos. Los métodos para la selección de características son dos: - Los basados en la elección de los mejores atributos del problema, - Los que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos.

21 4.Fases (IV) Algoritmos de Extracción de Conocimiento: Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos. Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociación entre dichas variables. También pueden usarse varias técnicas a la vez para generar distintos modelos, aunque generalmente cada técnica obliga a un preprocesado diferente de los datos.

22 4.Fases (V) Interpretación y evaluación: Interpretación y evaluación: Verifica si los resultados son coherentes. El cliente es el que tiene la palabra final. Verifica si los resultados son coherentes. El cliente es el que tiene la palabra final. Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias. Si se obtienen varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si se obtienen varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema.

24 5.Ejemplos Telefonía móvil. Club AC Milán (prevenir lesiones) FBI

26 6.Contras (I) Momento critico de la minería de datos: Que se requiere experiencia. Fáciles Equivocaciones. Fácil hallar patrones equívocos, triviales o no interesantes. Relación coste/Beneficio improductiva. Uso indiscriminado de datos. Que no sea posible resolver los aspectos técnicos de hallar patrones en tiempo o en espacio. Que exista una reacción del publico por el uso indiscriminado de datos personales para ejercicios de Minería de Datos, que obligue a los legisladores a imponer restricciones exageradas (y tal vez absurdas) al uso de la tecnología.. Que exista una reacción del publico por el uso indiscriminado de datos personales para ejercicios de Minería de Datos, que obligue a los legisladores a imponer restricciones exageradas (y tal vez absurdas) al uso de la tecnología..

28 7.Pros (I) Extrae información táctica y estratégica almacenada en sus Data Warehouse. La búsqueda de patrones la realiza en forma automatizada, generando modelos mediante la aplicación de diferentes técnicas. Existe gran diversidad de herramientas de Data Mining en el mercado, lo que facilita la aplicación de este proceso y aumenta el nivel de confianza de sus resultados. No requiere de personal experto en ciencias estadísticas o altamente entrenado. Es suficiente un especialista en análisis de datos y un experto en las áreas de la organización, que tengan conocimientos básicos en áreas estadísticas que les permita entender y aplicar los resultados.

30 8.Conclusiones (I) Nuestra capacidad para almacenar datos ha crecido en los últimos años a velocidades exponenciales. En contrapartida, nuestra capacidad para procesarlos y utilizarlos no ha ido a la par. Nuestra capacidad para almacenar datos ha crecido en los últimos años a velocidades exponenciales. En contrapartida, nuestra capacidad para procesarlos y utilizarlos no ha ido a la par. => data mining se presenta como una tecnología de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes volúmenes de datos. Descubrir nuevos caminos que nos ayuden en la identificación de estructuras en los datos es una de las tareas fundamentales en el data mining. => data mining se presenta como una tecnología de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes volúmenes de datos. Descubrir nuevos caminos que nos ayuden en la identificación de estructuras en los datos es una de las tareas fundamentales en el data mining.

1 DATA MINING Arantza Garcia Arrastia Curso 2004/2005.

Presentaciones similares

Presentación del tema: "1 DATA MINING Arantza Garcia Arrastia Curso 2004/2005."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

1 DATA MINING Arantza Garcia Arrastia Curso 2004/2005.

Presentaciones similares

Presentación del tema: "1 DATA MINING Arantza Garcia Arrastia Curso 2004/2005."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback