Data Mining, La Búsqueda del Conocimiento

Slides:



Advertisements
Presentaciones similares
SISTEMAS DE INFORMACIÓN I
Advertisements

ESTADISTICA A ESTADISTICA A UNMSM - FQIQ
IBD Plan 90 y 2003 Clase 10.
Data Mining Minería de Datos Universidad Tecnológica Metropolitana
© Dr. Iván E. Calimano Formas, usos, etc.
SistematizaciÓn DE EXPERIENCIAS.
Relaciones y diferencias entre minería de datos y estadística
Introducción a la minería de datos
DATA MINING MINERIA DE DATOS Gersom Costas.
Técnicas para la elaboración de un instrumento
Herramientas para la Investigación
METRICAS DE PROCESO Y PROYECTO
• SQL Server Analysis Services Data Mining
Data Mining Integrantes: Rojas Correa, Trinidad Romanskyy, Bohdan
K-NN: K vecinos más cercanos
MÉTODOS DE ANÁLISIS FINANCIEROS
Definición Machine learning traducido al español significa el aprendizaje automático o también aprendizaje de las maquinas. A partir de esto podemos darle.
VIVIANA ACHURY S. ANGIE NATALIA GARCIA S.. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos (Bajo.
Especialista en Business Intelligence Analysis Services SSAS (Sesión 14) Microsoft SQL Server 2008 R2 Suscribase a o escríbanos a
Inteligencia Artificial Adquisición automática del conocimiento
Sistemas de Gestión de Calidad y Ambiente
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
Inteligencia artificial
NUEVAS TECNOLOGIAS PARA EL APRENDIZAJE EN LAS IES
Trabajo de Investigación
Observatorio Tecnológico en el sector TIC Departamento de Innovación 13 de noviembre de 2008.
Proceso de la Investigación
INTELIGENCIA DE NEGOCIOS
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.
Representación del Conocimiento
Se viven nuevos escenarios
Sesión 2: Métodos Probabilísticos Básicos
Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".
Weka.
Historia Síntomas Factores de Influencia Posibles Causas
Business Intelligence y Data Mining
RESUMEN En este artículo se describe en forma breve una de las líneas de investigación que se están llevando a cabo en el Laboratorio de Tecnologías Emergentes.
Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.
Proceso KDD MSc. Carlos Alberto Cobos Lozada
Definición del Tipo de investigación
Introducción a Pentaho BI Suite 3.5
INTRODUCCIÓN A LA INTELIGENCIA ARTIFICIAL Y LOS SISTEMAS EXPERTOS
SISTEMA PARA LA CATEGORIZACIÓN AUTOMÁTICA DE CORREO ELECTRÓNICO Camilo Rodríguez, Departamento de Ingeniería de Sistemas, Universidad Nacional de Colombia.
“Introducción a las Ciencias de la Informática”
1 Prof:Paula Quitral INTRODUCCIÓN MINERIA DE DATOS Departamento de Informática Universidad de Rancagua.
Sistemas Expertos Integrantes Javier Farfán Katherine Jara Héctor Gatica.
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
Generalidades Autor: Yohn Jair Palacios Fecha: octubre 23 de 2013.
Introducción a los Sistemas Inteligentes
Facultad de Ingeniería y Tecnologías Memoria de Grado Geolocalización de documentos en el marco GIS.
LOS SISTEMAS DE INFORMACIÓN INVESTIGACIÓN DE MERCADOS
KDD y Técnicas de Minería de Datos en Weka
Estadística para la gestión educativa Conceptos básicos Mtra. Ing. Rosa María Lamadrid Velazco T.
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
MINISTERIO DE EDUCACIÓN PROVINCIA DE CÓRDOBA 205/10/2015Escuela Normal Superior "Dr. Alejandro Carbó" Para evitar esta acción en el aula, y como dice.
Taller de Inteligencia de Negocios SQL Server Analysis Services Data Mining Semana 11.
ESTADÍSTICA DESCRIPTIVA
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Minería de Datos MC BEATRIZ BELTRÁN MARTÍNEZ FACULTAD DE CIENCIAS DE LA COMPUTACIÓN. Primavera 2016.
DATA MINING. Extracción de información oculta y predecible de grandes bases de datos Poderosa tecnología que ayuda a concentrase en la información importante.

Curso Ciencias Naturales Primaria “La enseñanza de Ciencias Naturales utilizando los materiales de laboratorio y recursos TIC” Lic.Leonardo Aón ETR Región.
Extracción de conocimiento a partir de Recursos Digitales para el Aprendizaje Mtro. Alfredo Zapata González Escuela Superior de Informática.
Gestión de la información y el conocimiento II Bibliometría Ángela Valderrama Muñoz Ingeniera de Sistemas (UdeA) Especialista en Alta Gerencia(UdeA) Magister.
Definición del alcance de la investigación a realizar: exploratorio, descriptiva, correlacional o explicativa. Karla Dempwolff Vera Fabiola Naan Escalante.
Facultad de Informática y Estadística Universidad de Sevilla Departamento de Lenguajes y Sistemas Informáticos. Ayuda en la toma de decisiones G ESTIÓN.
Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.
Transcripción de la presentación:

Data Mining, La Búsqueda del Conocimiento Universidad Tecnológica Metropolitana. Escuela de Informática. Alumno: Víctor Heughes Escobar Jeria. Santiago, Agosto 2003

Contenido Motivación. Estado del Arte. Data Mining. Métodos y Técnicas de Data Mining. Ejemplo Práctico. Conclusiones.

Motivación.

Motivación. Existen estimaciones de que la cantidad de información en el mundo se duplica a cada 20 meses y de la misma manera el número de base de datos están creciendo considerablemente. Es por esta razón, que la velocidad en que se almacenan los datos es muy superior a la velocidad en que se analizan.

Motivación. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y recolectar datos, debido básicamente a 3 factores: - Los avances de la tecnología ofrecen almacenar y procesar grandes cantidades de datos. -La acumulación de datos con mucha rapidez. -La introducción de nuevos grupos de métodos de desarrollo por el área de la informática.

Estado del Arte.

Estado del Arte. El Data Mining representa hoy uno de los ejes fundamentales del desarrollo en la competitividad de las Empresas. Históricamente, el desarrollo de la estadística nos ha proporcionado métodos para analizar los datos y encontrar correlaciones y dependencias entre ellas. La definición de Data Mining utiliza términos claves para determinar el rendimiento de un sistema de adquisición de conocimiento. - Precisión. - Interés. - Lenguaje de Alto Nivel.

Estado del Arte. Historia. - Los 4 pasos listados fueron revolucionarios, porque daban respuestas correcta y rápida a nuevas inquietudes del negocio. 1.- Data Collection (1960’s) Pregunta del Negocio: ¿Cuál fue el promedio del total de ganancia en los últimos 5 años? Entrega de Datos: Estáticos

Estado del Arte. 2.- Data Access (1980’s). Pregunta del Negocio: ¿Cuáles fueron las unidades de venta en Nueva Inglaterra en Marzo pasado? Entrega de Datos: Dinámicos a nivel de registro. 3.-Data Navigation (1990’s). Pregunta del Negocio: ¿Cuáles fueron las unidades de venta en Nueva Inglaterra en Marzo pasado? “ Drill Down” a Boston. Entrega de Datos: Dinámicos a muchos niveles.

Estado del Arte. 4.- Data Mining (2000) Pregunta del Negocio:¿ Qué puede sucederle a las unidades de venta de Boston el próximo mes?¿Por qué? Entrega de Datos: Proactivas. - Si nos remontamos a 1974, en el Departamento de Tecnología de la Escuela de Informática de la Universidad de Giorgia y en conjunto con la Escuela de Medicina de la Universidad de Emory, recibieron una oferta de investigación de la Biblioteca Nacional Medicina.

Estado del Arte. - Uno de los sistemas más famosos podemos destacar el AM (Lenat, 79) en donde simula el proceso que hace un matemático para descubrir nuevos conceptos y relaciones entre conceptos usando heurística. El Conocimiento. - Los elementos caracterizados del conocimineto son los Datos, la Información, la Inteligencia, el Aprendizaje y él mismo. DATOS INFORMACION INTELIGENCIA APRENDIZAJE CONOCIMIENTO

Estado del Arte. Ej. 3...... es un dato. 3 perros..... es un dato. 3 perros guardianes..... es un dato. 3 perros guardianes cuidando una casa en verano...... es información 3 perros guardianes cuidando una casa en verano, implica que no hay moradores....... esto es conocimiento

Data Mining

Data Mining Definición: “ La extracción no trivial de información implícita, previamente desconocida y potencialmente útil, a partir de los datos ”.

Data Mining Tareas de Data Mining. Los algoritmo de Data Mining realizan en general tareas como: - Descripción. - Predicción. - Segmentación. - Análisis de Dependencia. - Detección de Desviación, casos extremos y anomalías.

Data Mining Proceso de Descubrimiento del Conocimiento en Base de Datos (KDD). Dominio Específico Recoleción de información Datos Selección Conjunto de Datos Preparación de Datos Datos limpios Preparados Transformación de Datos Minería de Datos Patrones Encontrados Evaluación, Interpretación de patrones Conocimiento Aplicaciones del Conocimiento Información formateada y estructurada

Data Mining Aprendizaje. - El Data Mining es un proceso que interviene la dinámica del método científico, en donde son los datos que dicen o hablan de que es lo que se quiere postular. - Aprendizaje se define como la capacidad de un sistema para experimentar. Un programa de computadora se dice que aprende de experiencia E con respecto a una clase de tarea T y medida de desempeño D, si su desempeño en las tareas T, medidas con D, mejoran con experiencia E.

Data Mining Tipos Aprendizaje. Supervisado: el aprendizaje inductivo mediante la generalización a partir de una serie de ejemplos y contraejemplos. También conocido como adquisición de concepto o aprendizaje con ejemplos. No - supervisado: el sistema de aprendizaje analiza una serie de entidades y determina características comunes, que pueden ser agrupadas formando un concepto previamente desconocido. También conocido como formación de concepto o aprendizaje por observación y descubrimiento.

Métodos y Técnicas de Data Mining.

Métodos y Técnicas de Data Mining. Método de Asociación. - Regla de Asociación. Las reglas de Asociación intentan descubrir asociaciones o conexiones entre objetos. Una regla de asociación es de la forma: A1 .......Ai B1 .......  BJ , que significa que los objetos B1.... BJ tienden a aparecer con los objetos A1..... Ai dentro de un conjunto de datos.

Métodos y Técnicas de Data Mining. Ej. DNI Renta Familia Ciudad Profesión Edad Hijos Obeso Casado 11251545 5.000.000 Santiago Ejecutivo 45 3 S S 30512526 1.000.000 Calama Abogado 25 0 S N 22451616 3.000.000 Concepción Ejecutivo 35 2 S S 25152516 2.000.000 Valparaíso Camarero 30 0 S S 23525251 1.500.000 Coquimbo Animador 30 0 N N ASOCIACIONES: Casado e (Hijos > 0) están asociado (80%, 4 casos). Obeso y Casado están asociados (80%, 4 casos). Reglas: (Hijos>0) Casado (100%, 2 casos) Casado Obeso (100%, 3 casos)

Métodos y Técnicas de Data Mining. Método de Clasificación. Este método agrupa a los datos según similitudes o clases, también puede ser definido como una etiqueta, rótulo o categoría de un dato en un conjunto de clases conocidas. El uso de este método es para predecir modelos que pueden ser apropiados para cualquier clasificación o técnica de regresión. Dentro de los métodos de clasificación, se destacan los Arboles de Decisión, en donde los resultados pueden expresarse en reglas, el problema puede ser que le número de reglas puede ser enorme.

Métodos y Técnicas de Data Mining. Ej Arbol de Decisión. Ejemplo Acción Autor Tema Longitud sitio E1 Saltar Conocido Nuevo Largo Casa E2 Leer Desconocido Nuevo Corto Trabajo E3 Saltar Desconocido Viejo Largo Trabajo E4 Saltar Conocido Viejo Largo Casa E5 Leer Conocido Nuevo Corto Casa E6 Saltar Conocido Viejo Largo Trabajo E7 Saltar Desconocido Viejo Corto Trabajo E8 Leer Desconocido Nuevo Corto Trabajo E9 Saltar Conocido Viejo Largo Casa E10 Saltar Conocido Nuevo Largo Trabajo E11 Saltar Desconocido Viejo Corto Casa E12 Saltar Conocido Nuevo Largo Trabajo E13 Leer Conocido Viejo Corto Casa E14 Leer Conocido Nuevo Corto Trabajo E15 Leer Conocido Nuevo Corto Casa E16 Leer Conocido Viejo Corto Trabajo E17 Leer Conocido Nuevo Corto Casa E18 Leer Desconocido Nuevo Corto Trabajo

Métodos y Técnicas de Data Mining. Las hojas representan las posibles clasificaciones (Saltar o Leer). Los nodos internos representan los distintos atributos (longitud, tema y autor) Las etiquetas de los arcos representan los posibles valores de los atributos (largo, corto, nuevo, viejo, conocido,desconocido) Longitud Largo corto Tema Saltar Nuevo Viejo Leer Autor Desconocido Conocido Las ramas del árbol representa las diferentes decisiones, por ejemplo, la segunda rama significa que si la longitud es corta y el tema es nuevo, la acción que realiza es leer.

Métodos y Técnicas de Data Mining. Método de Agrupamiento o Clustering. Es el proceso de agrupar los datos en clases o clusters, de tal forma que los objetos de un clusters tenga similitud alta entre ellos y baja con objetos de otros clusters. La medida de similaridad se define usualmente por proximidad en un espacio mutidimensional. Existe una gran cantidad de algoritmo: - Métodos basados en particiones - Método Aglomerativo o Bootom-up - Método Divisorio o Top-Down

Métodos y Técnicas de Data Mining. - Método basado en densidad. - Método basado en modelos. Ej.Un conjunto de nuevas enfermedades pueden ser agrupadas en varias categorías basadas en similaridades de sus síntomas y los síntomas comunes de las enfermedades pueden ser usados para describir un grupo de enfermedades.

Métodos y Técnicas de Data Mining. Método Predictivo. Conocer a priori como evolucionará una determinada variable en el futuro constituye una ventaja competitiva. A partir de los datos históricos almacenados y utilizando una técnica de Data Mining pueden desarrollarse un modelo que permita estimar con precisión la evolución de una variable en el futuro y tomar las medidas correctas necesarias. Hay numerosos métodos de predicción, que incluyen técnicas de regresión de series temporales y redes neuronales.

Métodos y Técnicas de Data Mining. Redes Neuronales. Ofrecen cualidades como: - Búsqueda automática de todas las correlaciones posibles entre los hechos claves. - Un modelado automático de problemas complejos sin el conocimiento “a priori” del nivel de la complejidad. - Capacidad de extraer los resultados claves mucho más rápidamente que otras herramientas. Las redes Neuronales son un grupo de neuronas interconectadas con distinta influencia mutua (peso), su memoria se basa en los pesos.

Métodos y Técnicas de Data Mining. Estructura de una Red Neuronal Conexiones con pesos Neurona Entrada Salida

Métodos y Técnicas de Data Mining. WebMining Puede definirse como la aplicación de las técnicas de Data Mining en Internet para el descubrimiento y análisis de información potencialmente útil. Existen 3 clases de WebMining: -Web Content Mining: es extraer la información del contenido de los documentos en la web. -Web Structure Mining: se intenta descubrir un modelo a partir de la topología de enlaces de la red. -Web Usage Mining: se refiere al descubrimiento y análisis de modelos de acceso de usuarios desde uno o más servidores de la web, mediante la extracción de patrones e información implícita en la actividad de los usuarios de Internet.

Ejemplo Práctico de Data Mining

Ejemplo Práctico de Data Mining Este ejemplo se desarrolló con datos obtenidos del SESMA, sobre las partículas contaminantes de la Región Metropolitana, registrados por la Red MACAM (Red de Monitoreo Automático Calidad de Aire y Meteorología). El Software ocupado fue el WEKA, que es una herramienta que fue desarrollada por la Universidad de Waikato, Nueva Zelanda. La atención de este software se centra en los algoritmos de clasificación, pero también incluyen implementación de algoritmos para el aprendizaje de reglas de asociaciones y de agrupamiento.

Ejemplo Práctico de Data Mining Al Aplicar el Software WEKA se obtuvo los siguientes resultados: Datos Estadísticos. CO (Monóxido de Carbono) media aritmética: 0.2567043010752693 desviación estándar: 0.40533252484091393 O3 (Ozono Troposférico) media aritmética: 23.27016129032258 desviación estándar: 20.516306667480016 MP10 (Material Particulado menores a 10 micrones) media aritmética: 54.44327956981247 desviación estándar: 29.955731501587827.

Ejemplo Práctico de Data Mining Aplicando el método de Clasificación de Regresión Lineal se obtuvo los siguientes resultados. CO = -0.0073 * O3 + 0.0041 * MP10 + 0.2025 con un coeficiente de correlación igual al 40.53%; O3 = -17.8486 * CO + 0.241 * MP10 + 14.7219 con una coeficiente de correlación que es igual a 44.57% MP10 = 22.3916 * CO + 0.5361 * O3 + 36.2703 con un coeficiente de correlación igual a 40.46%

Conclusiones. Tema Poco difundido en chile y muy desarrollado en otros paises del mundo “No todo lo que brilla es oro” La Minería de Datos permite descubrir conocimiento o extraer conocimiento desde enormes volúmenes de datos almacenados en las organizaciones.