Métodos y Herramientas Computacionales para el Análisis y la Visualización Informétrica Responsable: Dr. Humberto Carrillo Calvet
Problemática La cantidad de datos que se genera y almacena hoy en día en cualquier área de conocimiento es tan vasta, que rebasa las capacidades de asimilación de cualquier ser humano. Este hecho ha ocasionado el nacimiento de nuevas disciplinas como la denominada “Descubrimiento de Conocimiento en Bases de Datos” (KDD), que se enfoca en la extracción de información a partir del procesamiento de grandes cantidades de datos.
Motivación Frente a este escenario, resulta apremiante contar con métodos y herramientas computacionales capaces de analizar de forma automática y eficiente la gran cantidad de información acumulada en cualquier disciplina.
Objetivo Investigar técnicas y algoritmos de la inteligencia computacional para basar en ellos el desarrollo de sistemas de software que faciliten el análisis de información y descubrimiento de conocimiento en grandes bases de datos. Particularmente se investigarán técnicas que permitan la visualización automática de información digital.
Objetivos Específicos Investigar técnicas y algoritmos de la inteligencia computacional que permitan la visualización automática de información digital. Diseñar metodologías, de análisis de información, basadas en técnicas de la inteligencia computacional. Diseñar y desarrollar prototipos de software que implementen las metodologías planteadas.
Antecedentes Desarrollo de la Metodología ViBlioSOM. Aplicación de técnicas de Minería de Textos Diseño e implementación de algoritmos que construyen redes Bayesianas a partir de datos Aplicaciones de redes Bayesianas en diferentes dominios: medicina, bioinformática y educación
Metodología ViBlioSOM Está basada en la utilización secuencial de una colección de sistemas de software que sirven para el procesamiento y análisis inteligente de datos de carácter cienciométrico, mediante el uso de redes neuronales del tipo SOM.
Base de Ficheros “PubMed” La fuente de datos es la base de datos MedLine de la Biblioteca Nacional de Medicina de los Estados Unidos (National Library of Medice, NLM). MedLine: Gratuita. Contiene más de 14 millones de registros. Recupera referencias bibliográficas de más de 4,500 revistas médicas desde el año de 1966.
La ontología MeSH Vocabulary consta de aproximadamente 23, 000 conceptos.
Penetración de las Matemáticas en la Biomedicina Proporción de documentos indexados con algún término perteneciente a Mathematics (Total de documentos 1,109,035 )
Visualización e interpretación de resultados arrojados por la red neuronal Mapas de componentes
Visualización e interpretación de resultados arrojados por la red neuronal Mapas de componentes
Análisis de Conglomerados (Clustering) Visualización e interpretación de resultados arrojados por la red neuronal Análisis de Conglomerados (Clustering)
Relaciones entre componentes Mathematics Decision Trees Mathematical Computing Decision Support Techniques Neural Networks Finite Element Analysis Algorithms Game Theory Decision Theory Nonlinear Dynamics Fourirer Analysis Games Experimental Fractals
Desarrollo y explotación de corpus lingüísticos. Minería de Textos Desarrollo y explotación de corpus lingüísticos. Reconocimiento de patrones lingüísticos. Explotación de métodos y recursos estadísticos. candidatos
Algoritmos que construyen Redes Bayesianas Base de datos X1 X2 X3 X4 algoritmo El resultado: una red Bayesiana
Aplicaciones de Redes Bayesianas en diversos dominios Diagnóstico de cáncer de seno Diagnóstico de cáncer cérvico-uterino Evaluación del potencial de marcadores genéticos para el diagnóstico y diferenciación de tipos de cáncer Evaluación de trayectorias escolares de alumnos universitarios
Resultados esperados El desarrollo de metodologías para la extracción de conocimiento en bases de datos bibliográficas. El desarrollo de metodologías para la clasificación no supervisada de documentos, basados tanto en el resumen (abstract) como en las palabras claves
Resultados esperados Un prototipo de software que implemente la metodología ViBlioSOM. Un prototipo de software para la minería de datos con Redes Bayesianas. Un prototipo de motor de extracción terminológica basado en reglas lingüísticas y métodos estadísticos El diseño de un sistema de software que integre la funcionalidad de los prototipos construidos.
Estrategia de trabajo Conformación de dos equipos de trabajo, uno para la construcción del software propuesto y otro para la transferencia e investigación de algoritmos para el pre-procesamiento, minería de datos, evaluación y visualización.
Estrategia para el Desarrollo de Software Diseño basado en componentes Mejor manejo de código: reutilización, depuración, mantenimiento, evolución. Componente Implementa la interfaz visual y con el usuario Clase de objetos que sólo implementa algoritmos. Paquete de clases Paquete de componentes
Fusión de métodos de minería de datos Utilizando componentes de software de manera natural se consigue que los datos de salida de un algoritmo que pertenece a una metodología se puedan usar como entrada de un algoritmo de otra metodología. Redes bayesianas Mapas auto-organizados (SOM) Matriz de Datos
Reutilización en otros dominios Los distintos paquetes de componentes se podrán usar para construir aplicaciones en distintos dominios de investigación: Bibliometría Bioinformática Procesos Industriales Bolsa de valores Trayectoria Escolar Control Mapas auto-organizados (SOM) Redes bayesianas
Avances Se llevaron a cabo distintas aplicaciones experimentales con la metodología ViBlioSOM. Se diseñó y desarrolló un prototipo de software que implementa dicha metodología. Se están realizando distintas pruebas con este prototipo a partir del cual se planea realizar una segunda etapa de desarrollo.
Productos Obtenidos Prototipo de software que implementa la metodología ViBlioSOM. Tesis conjunta de licenciatura en Ciencias de la Computación. Tesis de Actuaría
Participantes Investigador Responsable: Humberto Carrillo Calvet, (Facultad de Ciencias) Investigadores participantes (6): Nieves Martínez de la Escalera Castells (Facultad de Ciencias) Gerardo Sierra Martínez (Instituto de Ingeniería) Alfonso Medina Urrea (Instituto de Ingeniería) Nicandro Cruz Ramírez (Universidad Veracruzana) María Victoria Guzmán Sánchez (Instituto Finlay) Técnicos participantes (5): Luis Nava Fernández (Facultad de Ciencias) José Luis Jiménez Andrade (Facultad de Ciencias) Romel Calero (Instituto Finlay) Mary Carmen Trejo Avila (Facultad de Ciencias) Alexei Eleusis Díaz Vera (Facultad de Ciencias) Alumnos de Posgrado(4): Elio Villaseñor García Ernesto Ramírez Montalvo Luis Alberto Barrón Cedeño Ricardo Olvera