La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes.

Presentaciones similares


Presentación del tema: "Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes."— Transcripción de la presentación:

1 Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes Escobar Jeria. Alumno: Víctor Heughes Escobar Jeria. Santiago, Agosto 2003

2 Contenido 3 Motivación. 3 Estado del Arte. 3 Data Mining. 3 Métodos y Técnicas de Data Mining. 3 Ejemplo Práctico. 3 Conclusiones.

3 3 Motivación.

4 Existen estimaciones de que la cantidad de información en el mundo se duplica a cada 20 meses y de la misma manera el número de base de datos están creciendo considerablemente. Es por esta razón, que la velocidad en que se almacenan los datos es muy superior a la velocidad en que se analizan.

5 3 Motivación. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y recolectar datos, debido básicamente a 3 factores: - Los avances de la tecnología ofrecen almacenar y procesar grandes cantidades de datos. -La acumulación de datos con mucha rapidez. -La introducción de nuevos grupos de métodos de desarrollo por el área de la informática.

6 3 Estado del Arte.

7 El Data Mining representa hoy uno de los ejes fundamentales del desarrollo en la competitividad de las Empresas. Históricamente, el desarrollo de la estadística nos ha proporcionado métodos para analizar los datos y encontrar correlaciones y dependencias entre ellas. La definición de Data Mining utiliza términos claves para determinar el rendimiento de un sistema de adquisición de conocimiento. - Precisión. - Interés. - Lenguaje de Alto Nivel.

8 3 Estado del Arte. Historia. Historia. - Los 4 pasos listados fueron revolucionarios, porque daban respuestas correcta y rápida a nuevas inquietudes del negocio. 1.- Data Collection (1960s) Pregunta del Negocio: ¿Cuál fue el promedio del total de ganancia en los últimos 5 años? Entrega de Datos: Estáticos

9 3 Estado del Arte. 2.- Data Access (1980s). Pregunta del Negocio: ¿Cuáles fueron las unidades de venta en Nueva Inglaterra en Marzo pasado? Entrega de Datos: Dinámicos a nivel de registro. 3.-Data Navigation (1990s). Pregunta del Negocio: ¿Cuáles fueron las unidades de venta en Nueva Inglaterra en Marzo pasado? Drill Down a Boston. Entrega de Datos: Dinámicos a muchos niveles.

10 3 Estado del Arte. 4.- Data Mining (2000) Pregunta del Negocio:¿ Qué puede sucederle a las unidades de venta de Boston el próximo mes?¿Por qué? Entrega de Datos: Proactivas. - Si nos remontamos a 1974, en el Departamento de Tecnología de la Escuela de Informática de la Universidad de Giorgia y en conjunto con la Escuela de Medicina de la Universidad de Emory, recibieron una oferta de investigación de la Biblioteca Nacional Medicina.

11 3 Estado del Arte. - Uno de los sistemas más famosos podemos destacar el AM (Lenat, 79) en donde simula el proceso que hace un matemático para descubrir nuevos conceptos y relaciones entre conceptos usando heurística. El Conocimiento. El Conocimiento. - Los elementos caracterizados del conocimineto son los Datos, la Información, la Inteligencia, el Aprendizaje y él mismo. DATOSINFORMACIONINTELIGENCIAAPRENDIZAJECONOCIMIENTO

12 3 Estado del Arte. Ej es un dato. 3 perros..... es un dato. 3 perros guardianes..... es un dato. 3 perros guardianes cuidando una casa en verano es información 3 perros guardianes cuidando una casa en verano, implica que no hay moradores esto es conocimiento

13 3 Data Mining

14 Definición: Definición: La extracción no trivial de información implícita, previamente desconocida y potencialmente útil, a partir de los datos.

15 3 Data Mining Tareas de Data Mining. Tareas de Data Mining. Los algoritmo de Data Mining realizan en general tareas como: - Descripción. - Predicción. - Segmentación. - Análisis de Dependencia. - Detección de Desviación, casos extremos y anomalías.

16 3 Data Mining Proceso de Descubrimiento del Conocimiento en Base Proceso de Descubrimiento del Conocimiento en Base de Datos (KDD). Dominio Específico Recoleción de información Datos Selección Conjunto de Datos Preparación de Datos Datos limpios Preparados Transformación de Datos Minería de Datos Patrones Encontrados Evaluación, Interpretación de patrones Conocimiento Aplicaciones del Conocimiento Información formateada y estructurada

17 3 Data Mining Aprendizaje. Aprendizaje. - El Data Mining es un proceso que interviene la dinámica del método científico, en donde son los datos que dicen o hablan de que es lo que se quiere postular. - Aprendizaje se define como la capacidad de un sistema para experimentar. Un programa de computadora se dice que aprende de experiencia E con respecto a una clase de tarea T y medida de desempeño D, si su desempeño en las tareas T, medidas con D, mejoran con experiencia E.

18 3 Data Mining Tipos Aprendizaje.Tipos Aprendizaje. Supervisado: Supervisado: el aprendizaje inductivo mediante la generalización a partir de una serie de ejemplos y contraejemplos. También conocido como adquisición de concepto o aprendizaje con ejemplos. No - supervisado: No - supervisado: el sistema de aprendizaje analiza una serie de entidades y determina características comunes, que pueden ser agrupadas formando un concepto previamente desconocido. También conocido como formación de concepto o aprendizaje por observación y descubrimiento.

19 3Métodos y Técnicas de Data Mining.

20 Método de Asociación. Regla de Asociación. - Regla de Asociación. Las reglas de Asociación intentan descubrir asociaciones o conexiones entre objetos. Una regla de asociación es de la forma: A A i B B J, que significa que los objetos B B J tienden a aparecer con los objetos A A i dentro de un conjunto de datos.

21 3Métodos y Técnicas de Data Mining. Ej. DNIRenta Familia CiudadProfesiónEdadHijosObesoCasado SantiagoEjecutivo453SS CalamaAbogado250SN ConcepciónEjecutivo352SS ValparaísoCamarero300SS CoquimboAnimador300NN ASOCIACIONES: Casado e (Hijos > 0) están asociado (80%, 4 casos). Obeso y Casado están asociados (80%, 4 casos). Reglas: (Hijos>0)Casado (100%, 2 casos) Casado Obeso (100%, 3 casos)

22 3Métodos y Técnicas de Data Mining. Método de Clasificación. Este método agrupa a los datos según similitudes o clases, también puede ser definido como una etiqueta, rótulo o categoría de un dato en un conjunto de clases conocidas. El uso de este método es para predecir modelos que pueden ser apropiados para cualquier clasificación o técnica de regresión. Dentro de los métodos de clasificación, se destacan los Arboles de Decisión, en donde los resultados pueden expresarse en reglas, el problema puede ser que le número de reglas puede ser enorme.

23 3Métodos y Técnicas de Data Mining. Ej Arbol de Decisión. EjemploAcciónAutorTemaLongitudsitio E1SaltarConocidoNuevoLargoCasa E2LeerDesconocidoNuevoCortoTrabajo E3SaltarDesconocidoViejoLargoTrabajo E4SaltarConocidoViejoLargo Casa E5LeerConocidoNuevoCortoCasa E6SaltarConocidoViejoLargoTrabajo E7SaltarDesconocidoViejoCortoTrabajo E8LeerDesconocidoNuevoCortoTrabajo E9SaltarConocidoViejoLargoCasa E10SaltarConocidoNuevoLargoTrabajo E11SaltarDesconocidoViejoCortoCasa E12SaltarConocidoNuevoLargoTrabajo E13LeerConocidoViejoCortoCasa E14LeerConocidoNuevoCortoTrabajo E15LeerConocidoNuevoCortoCasa E16LeerConocidoViejoCortoTrabajo E17LeerConocidoNuevoCortoCasa E18LeerDesconocidoNuevoCortoTrabajo

24 3Métodos y Técnicas de Data Mining. Longitud Largo corto Tema Saltar NuevoViejo Leer Autor LeerSaltar DesconocidoConocido Las hojas representan las posibles clasificaciones (Saltar o Leer). Los nodos internos representan los distintos atributos (longitud, tema y autor) Las etiquetas de los arcos representan los posibles valores de los atributos (largo, corto, nuevo, viejo, conocido,desconocido) Las ramas del árbol representa las diferentes decisiones, por ejemplo, la segunda rama significa que si la longitud es corta y el tema es nuevo, la acción que realiza es leer.

25 3Métodos y Técnicas de Data Mining. Método de Agrupamiento o Clustering. Es el proceso de agrupar los datos en clases o clusters, de tal forma que los objetos de un clusters tenga similitud alta entre ellos y baja con objetos de otros clusters. La medida de similaridad se define usualmente por proximidad en un espacio mutidimensional. Existe una gran cantidad de algoritmo: - Métodos basados en particiones - Método Aglomerativo o Bootom-up - Método Divisorio o Top-Down

26 3Métodos y Técnicas de Data Mining. - Método basado en densidad. - Método basado en modelos. Ej.Un conjunto de nuevas enfermedades pueden ser agrupadas en varias categorías basadas en similaridades de sus síntomas y los síntomas comunes de las enfermedades pueden ser usados para describir un grupo de enfermedades.

27 3Métodos y Técnicas de Data Mining. Método Predictivo. Conocer a priori como evolucionará una determinada variable en el futuro constituye una ventaja competitiva. A partir de los datos históricos almacenados y utilizando una técnica de Data Mining pueden desarrollarse un modelo que permita estimar con precisión la evolución de una variable en el futuro y tomar las medidas correctas necesarias. Hay numerosos métodos de predicción, que incluyen técnicas de regresión de series temporales y redes neuronales.

28 3Métodos y Técnicas de Data Mining. Redes Neuronales. Ofrecen cualidades como: - Búsqueda automática de todas las correlaciones posibles entre los hechos claves. - Un modelado automático de problemas complejos sin el conocimiento a priori del nivel de la complejidad. - Capacidad de extraer los resultados claves mucho más rápidamente que otras herramientas. Las redes Neuronales son un grupo de neuronas interconectadas con distinta influencia mutua (peso), su memoria se basa en los pesos.

29 3Métodos y Técnicas de Data Mining. Estructura de una Red Neuronal Conexiones con pesos Neurona EntradaSalida

30 3Métodos y Técnicas de Data Mining. WebMining Puede definirse como la aplicación de las técnicas de Data Mining en Internet para el descubrimiento y análisis de información potencialmente útil. Existen 3 clases de WebMining: Web Content Mining: -Web Content Mining: es extraer la información del contenido de los documentos en la web. -Web Structure Mining: -Web Structure Mining: se intenta descubrir un modelo a partir de la topología de enlaces de la red. -Web Usage Mining: -Web Usage Mining: se refiere al descubrimiento y análisis de modelos de acceso de usuarios desde uno o más servidores de la web, mediante la extracción de patrones e información implícita en la actividad de los usuarios de Internet.

31 3Ejemplo Práctico de Data Mining

32 Este ejemplo se desarrolló con datos obtenidos del SESMA, sobre las partículas contaminantes de la Región Metropolitana, registrados por la Red MACAM (Red de Monitoreo Automático Calidad de Aire y Meteorología). El Software ocupado fue el WEKA, que es una herramienta que fue desarrollada por la Universidad de Waikato, Nueva Zelanda. La atención de este software se centra en los algoritmos de clasificación, pero también incluyen implementación de algoritmos para el aprendizaje de reglas de asociaciones y de agrupamiento.

33 3Ejemplo Práctico de Data Mining Al Aplicar el Software WEKA se obtuvo los siguientes resultados: Datos Estadísticos. CO (Monóxido de Carbono) media aritmética: desviación estándar: O 3 (Ozono Troposférico) media aritmética: desviación estándar: MP 10 (Material Particulado menores a 10 micrones) media aritmética: desviación estándar:

34 3Ejemplo Práctico de Data Mining Aplicando el método de Clasificación de Regresión Lineal se obtuvo los siguientes resultados. CO = * O * MP con un coeficiente de correlación igual al 40.53%; O3 = * CO * MP con una coeficiente de correlación que es igual a 44.57% MP10 = * CO * O con un coeficiente de correlación igual a 40.46%

35 Conclusiones. Tema Poco difundido en chile y muy desarrollado en otros paises del mundo No todo lo que brilla es oro La Minería de Datos permite descubrir conocimiento o extraer conocimiento desde enormes volúmenes de datos almacenados en las organizaciones.


Descargar ppt "Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Escuela de Informática. Alumno:Víctor Heughes."

Presentaciones similares


Anuncios Google