Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005

Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005 febles@bioinfo.cufebles@bioinfo.cu http://www.bioinfo.cu

Juan Pedro Febles KDD y MD Temas a tratar Algunos antecedentes académicos. El proceso de descubrimiento de conocimientos en Datos (KDD). La minería de datos, un momento del KDD.

Juan Pedro Febles KDD y MD Objetivos Exponer la urgencia de trascender los métodos tradicionales para estudiar los datos existentes y poder descubrir conocimientos que pueden ser usados en la toma de decisiones. Identificar temas de colaboración entre portadores de los datos y especialistas de las ciencias básicas

Juan Pedro Febles KDD y MD Pincelada de historia académica 1985: Douglas Fisher funda la “ Artificial Intelligence and Statistic Society”. Ligada: “First International Workshop on artificial intelligence and statistic”. A partir de entonces la conferencia es bianual. Objetivo principal: Promover la comunicación entre la comunidad estadística y la de Inteligencia artificial. 1994: Cheesman y Olford escriben: “ We feel that there is great potential for development at the interceccion of artificial Intelligence, computational science and statistic.”

Juan Pedro Febles KDD y MD Familia de problemas como Clasificación IA Estadística Consiste en Encontrar las clases en que se estructura un dominio dado

Juan Pedro Febles KDD y MD El Conocimiento humano Comprender el mundo Tres técnicas básicas para utiliza Diferenciación de la experiencia en objetos particulares y sus atributos Distinción entre el todo y sus partes Clasificación Observación: Un buen número de aplicaciones reales en KDD o bien requieren un proceso de clasificación o son reducibles a el.

Juan Pedro Febles KDD y MD Otros momentos importantes I989: Primer “ Workshop on Kowledge Discovery of Datos” en el seno de IJCAI, International Joint Conference on Artificial Intelligence. 1996: Famosa definición de Fayyad, sobre KDD y MD. “The non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data. “

Juan Pedro Febles KDD y MD Información oculta MD IA Estadística Encontrar patrones Descubrir relaciones Crear modelos Representación Abstracta de la Realidad Problema aplica para que permita MT KDD preparación los datos la interpretación ofrece Significado del conocimiento extraído para La toma de decisiones no si es que son abarca y

Juan Pedro Febles KDD y MD KDD Desde un nivel abstracto: Desarrollo de técnicas y métodos para darle sentido a los datos. El problema básico del KDD es: Partir de un conjunto de datos voluminoso y casi ininteligible y convertirlo en otro: Mas compacto Mas abstracto Mas útil

Juan Pedro Febles KDD y MD Meta Procesar automáticamente grandes cantidades de datos crudos, identificar los patrones más significativos y relevantes, y presentarlos como conocimiento apropiado para satisfacer las metas del usuario.

Juan Pedro Febles KDD y MD Ciencia Astronomía: Los éxitos obtenidos por SKICAT, un sistema usado por los astrónomos para analizar, clasificar y catalogar objetos celestes. 3 terabytes de información Economía Marketing. Inversiones Detección de fraude Telecomunicaciones Limpieza de datos Creciente interés

Juan Pedro Febles KDD y MD

Resumen de los pasos en un proceso de KDD Primero: Esclarecer las características y prioridades del dominio e identificar las metas del proceso que se va a realizar desde el punto de vista del cliente o usuario. Segundo: Seleccionar el conjunto de datos, o enfatizar las variables o muestras sobre los cuales el descubrimiento va a ser ejecutado. Tercero: Limpieza y preprocesamiento de los datos. Incluye eliminación de ruidos, estrategias para recuperar datos perdidos, posibles cambios de los datos, etc.

Juan Pedro Febles KDD y MD Resumen proceso de KDD Cuarto: Reducción y proyección. Se trata de encontrar rasgos útiles para representar los datos de acuerdo a las metas propuestas. Quinto: Se trata de casar las metas del proceso de KDD planteadas en el primer paso, con un método particular de DM. Sexto: Selección de hipótesis. Métodos, algoritmos de MD, parámetros asociados a los modelos. Por ejemplo el usuario final puede estar mas interesado en un modelo predictivo.

Juan Pedro Febles KDD y MD Resumen proceso de KDD Séptimo: Minería de datos. Es la búsqueda de patrones de interés en una forma particular de representación: reglas, árboles, regresión,clustering,etc. Octavo: Interpretación de los patrones minados. Puede incluir visualización de los patrones extraídos. Noveno: Actuar con el conocimiento descubierto: directamente; incorporándolo a otro sistema; documentándolo y publicándolo; etc.

Juan Pedro Febles KDD y MD Minería de Datos: Concepto Minería de Datos o Data Mining tiene distintas definiciones según el área en la que se utiliza, en general se dice que: Permite establecer procesos de forma automatizada para la obtención de información a partir de grandes cantidades de datos.

Juan Pedro Febles KDD y MD MINERIA DE DATOS

Dos tipos de metas Verificación: El sistema esta limitado a la hipótesis del usuario. Descubrimiento: El sistema, automáticamente, encuentra nuevos patrones. Puede ser para: Predicción: Cuando el sistema encuentra patrones por predicción del comportamiento de alguna entidad. Descripción: Donde el sistema presenta los datos de forma inteligible para los humanos.

Juan Pedro Febles KDD y MD Típicamente un algoritmo de DM tiene tres componentes: El modelo. Criterio de preferencia o elección El algoritmo de búsqueda.

Juan Pedro Febles KDD y MD Topologías del modelo Por su función puede ser de clasificación, regresión, clustering, de generación de reglas, reglas de asociación, modelos de dependencia o análisis de secuencias. Por su representación puede ser redes neuronales, árboles de decisión, discriminación lineal, etc.

Juan Pedro Febles KDD y MD Aprendizaje automático (machine learning). Edad: cuatro décadas conocimiento Objetivo: desarrollar métodos computacionales que implementan varias formas de aprendizaje, en particular, mecanismos capaces de inducir conocimiento a partir de datos. Aplicación: problemas que carecen de solución algorítmica eficiente, son vagamente definidos, o informalmente especificados. Ejemplos: diagnostico médico, reconocimiento de patrones visuales y detección de regularidades en enormes cantidades de datos.

Juan Pedro Febles KDD y MD Algoritmos más utilizados en AA Aprendizaje basado en árboles de decisiónAprendizaje basado en árboles de Aprendizaje basado en redes neuronales artificialesAprendizaje basado en redes neuronales artificiales Aprendizaje probabilístico y Bayesiano Aprendizaje basado en instancias Aprendizaje evolutivo Aprendizaje lógico inductivo Aprendizaje por refuerzo

Juan Pedro Febles KDD y MD Tendencias en Aprendizaje Automático 1. Aprendizaje por Refuerzo. 2. Aprendizaje estadístico. Maquinas de soporte vectorial Aprendizaje de redes bayesianas 3. Métodos basados en conjunto de clasificadores 4. Razonamiento basado en casos

Juan Pedro Febles KDD y MD Reconocimiento de patrones (pattern recognition o matching), Edad: + de cuatro décadas Objetivo: estudiar el desarrollo y aplicación de sistemas complejos basados en técnicas "blandas" (redes neuronales, lógica borrosa, algoritmos evolutivos, etc.) para la tarea de clasificación adaptable de patrones, en una doble vertiente de reconocimiento y de focalización (conocimiento contextual). Aplicación: problemas de los que no se dispone de un modelo matemático, o el modelo es demasiado complejo, o las propiedades estadísticas de los datos son muy variables Ejemplos: patrones visuales basados en imágenes aéreas o satelitales, clasificación y diagnóstico, problemas relacionados en el campo del control inteligente, etc.

Juan Pedro Febles KDD y MD soft-computing Edad: ultimas dos décadas Característica: engloba gran parte de las metodologías que pueden ser aplicadas en DM. Algunas de las metodologías más extendidas y usadas son: algoritmos genéticos, lógica fuzzy, redes neuronales, razonamiento basado en casos, conjuntos rough o hibridaciones de las anteriores.

Juan Pedro Febles KDD y MD Métodos de la Minería de Datos 1.Clasificación 2.Regresión 3.Agrupamiento (Clustering) 4.Resumen 5.Modelado de dependencia 6.Análisis de secuencias

Juan Pedro Febles KDD y MD Clasificación Obtener un modelo que permita asignar un caso de clase desconocida a una clase concreta.

Juan Pedro Febles KDD y MD Agrupamiento (clustering) Hacer corresponder cada caso a una clase. Estas clases se obtienen directamente de los datos de entrada usando medidas de similaridad.

Juan Pedro Febles KDD y MD Modelado de Dependencias Obtener descripciones de dependencias existentes entre variables. Ejemplo reglas de asociación.

Juan Pedro Febles KDD y MD Regresión Obtener un modelo que permita predecir el valor numérico de alguna variable

Juan Pedro Febles KDD y MD Resumen Obtener representaciones compactas para subconjuntos de los datos de entrada. (Análisis interactivo de datos, generación automática de informes, visualización de datos, etc.)

Juan Pedro Febles KDD y MD Análisis de secuencias Se intenta modelar la evolución temporal de alguna variable, confines descriptivos o predictivos

MINERIA DE DATOS

Juan Pedro Febles KDD y MD La mayoría de los datos que se necesitan para el Data Mining se encuentran en bases de datos heterogéneas que necesitan ser integradas para su posterior análisis por Data Mining. En este sentido el Data warehouse es una de las tecnologías claves de gestión de datos para llevar a cabo Data Mining. En español pueden ser llamados: almacenes o bodegas de datos Data warehouse

Juan Pedro Febles KDD y MD Almacenes de Datos y Minería de Datos  Los almacenes de datos no son imprescindibles para hacer extracción de conocimiento a partir de datos.  se puede hacer minería de datos sobre un simple fichero de datos.  Las ventajas de organizar un almacén de datos para realizar minería de datos se amortizan sobradamente a medio y largo plazo cuando:  tenemos grandes volúmenes de datos, o  éstos aumentan con el tiempo, o  provienen de fuentes heterogéneas o  se van a combinar de maneras arbitrarias y no predefinidas. ¿Es necesario tener almacenes de datos para realizar minería de datos?

Juan Pedro Febles KDD y MD Es un subconjunto de un DW para un propósito específico. Se puede ver como una vista del DW orientada a un aspecto de un negocio, con un tiempo de vida reducido Su función es apoyar a otros sistemas para la toma de decisiones. Un datamart debe permitir consultas de muchas formas usando herramientas OLAP. Dos enfoques para construir DW: 1. Construir primero un núcleo del DW y luego hacer varios datamarts. 2. Construir primero un datamart e ir expandiendo la bodega de datos y añadiendo nuevos datamarts. Datamart

Juan Pedro Febles KDD y MD RETOS 1.La facilidad con que se puede caer en una falsa interpretación. 2.Las precisión de las mediciones (tiempo, instrumento,…). 3.La protección a la privacidad (empleo de tarjetas de créditos como fuente de datos, …).

Juan Pedro Febles KDD y MD MD vs MT la minería de datos pretende extraer los metadatos a partir de información textual necesariamente estructuradala minería de datos pretende extraer los metadatos a partir de información textual necesariamente estructurada la minería de textos no se limita sólo a la información que cumple con requerimientos específicos o que está organizada de forma manual, sino que aplica a todo tipo de información. la minería de textos no se limita sólo a la información que cumple con requerimientos específicos o que está organizada de forma manual, sino que aplica a todo tipo de información.

Juan Pedro Febles KDD y MD Swanson y Smalheiser “el stress se asocia a las migrañas. El estrés genera pérdidas de magnesio. Los bloqueadores de calcio previenen las migrañas. El magnesio es un bloqueador natural del calcio. La difusión de la depresión cortical (SCD) aparece en casos de migraña. Altos niveles de magnesio inhiben el SCD. Los pacientes con migraña tienen una alta agregación de plaquetas. El magnesio puede suprimir la agregación de plaquetas”

Juan Pedro Febles KDD y MD Conclusión de Swanson y Smalheiser vínculo entre la falta de magnesio y algunos tipos de migrañas.

Criterios para seleccionar aplicaciones Criterios prácticos: existe potencialmente un impacto significativo, no hay métodos alternativos, existe soporte del cliente para su desarrollo, no existen problemas de legalidad o violación a información privilegiada. Criterios técnicos: existen suficientes datos, atributos relevantes, poco ruido en los datos, y conocimiento del dominio.

Juan Pedro Febles KDD y MD Conclusión principal El DCBD y su fase fundamental de MD es una actividad computacional extremadamente compleja que sólo rinde frutos si se tiene una metodología adecuada de trabajo como la descrita y se lleva a cabo con la participación interdisciplinaria de los especialistas del área del problema y del dominio de los datos y los especialistas en computación y matemática correspondientes. El proceso es altamente iterativo y las iteraciones son dictadas por las validaciones de los resultados que obligan a consecuentes reformulaciones del problema y reconsideración y refinamiento de los datos y algoritmos utilizados.

Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005

Presentaciones similares

Presentación del tema: "Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005

Presentaciones similares

Presentación del tema: "Juan Pedro Febles KDD y MD “KDD y MD” “KDD y MD” Dr. Juan Pedro Febles Rodríguez BIOINFO CITMA2005"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback