Aplicaciones de Data Mining en ciencia y tecnología Ontologias. 1 Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
Organización del conocimiento en ontologías Una ontología es una representación formal de un conjunto de conceptos y de las relaciones entre ellos Una ontología debe contar con un vocabulario controlado que se usa para modelar el dominio del conocimiento Los conceptos en una ontología normalmente se organizan en forma jerárquica Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
Organización del conocimiento en ontologías Un ejemplo, la Gene Ontology (GO) u Ontología Génica Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
Ontología Génica La GO está formada en realidad por tres ontologías, que describen tres aspectos biológicos diferentes: Componente celular Función molecular Proceso biológico Dentro de cada una de ellas, se establecen relaciones entre conceptos de diferentes tipos, por ejemplo: is_a part_of Los términos tienen un descripción y un código asignado: GO:0005623 cell Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
Anatomía de un término GO Este término GO esta asignado a 1913 genes 1 2 3 4 Accession: es el código que se le asigna al término Ontology: ontología a la que pertence el término Definition: una definición en lenguaje natural Community: GO es un recurso en cambio permanente Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
El grafo de la ontología GO Los términos de la ontología pueden tener más de un padre La ubicación de un término en el grafo y sus relaciones constituyen una definición (controlada) Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
Las relaciones dentro de la ontología GO Dos de las relaciones más importantes de la ontología GO son: is_a El término hijo pertenece completamente al tipo del padre, pero se lo puede discriminar de otros términos hermanos. part_of El término hijo es un constituyente del padre. En combinación con otros hijos conforman el padre. Otras ontologías pueden definir otras relaciones, y propiedades específicas de las relaciones (simetría, antisimetría, reflexividad, etc) Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
Un gen con anotaciones GO El término GO:0001764, neuron migration, está asignado, entre otros al gen abi-1 del gusano C. elegans. El gen abi-1 tiene en total 19 términos GO asignados ¿Quién hace las asignaciones de términos GO? ¿Qué son los códigos de evidencia? Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
Para distinguir estos casos, se crearon los códigos de evidencia: Las anotaciones GO las puede realizar un curador utilizando la bibliografía publicada, un software, un científico a partir de datos experimentales. Para distinguir estos casos, se crearon los códigos de evidencia: Experimental Evidence Codes EXP: Inferred from Experiment IDA: Inferred from Direct Assay IPI: Inferred from Physical Interaction IMP: Inferred from Mutant Phenotype IGI: Inferred from Genetic Interaction IEP: Inferred from Expression Pattern Computational Analysis Evidence Codes ISS: Inferred from Sequence or Structural Similarity ISO: Inferred from Sequence Orthology ISA: Inferred from Sequence Alignment ISM: Inferred from Sequence Model IGC: Inferred from Genomic Context RCA: inferred from Reviewed Computational Analysis Author Statement Evidence Codes TAS: Traceable Author Statement NAS: Non-traceable Author Statement Curator Statement Evidence Codes IC: Inferred by Curator ND: No biological Data available Automatically-assigned Evidence Codes IEA: Inferred from Electronic Annotation El proceso de asignación de términos ontológicos se puede automatizar !! Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
¿Para qué sirve una ontología?. 1 GO:00001111 GEN A GO:00002222 GEN B GEN C GO:00003333 GEN D GO:00004444 Genes con funciones coordinadas Asignaciones calificadas por códigos de evidencia Términos ontológicos relacionados entre sí Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
¿Para qué sirve una ontología?. 2 Los resultados de un análisis de agrupamientos se pueden describir a partir de las anotaciones ontológicas de las instancias agrupadas (metadata). El análisis ontológico es relativamente insensible a cambios en la anotación: dos instancias con anotaciones cercanas en el grafo se reconocerán como instancias similares, aún cuando las anotaciones no sean idénticas. La extracción de conocimiento se transforma en un proceso más fácilmente tratable por una computadora. Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
Herramientas para construir ontologías Una de las más usadas y de código abierto es Protégé (http://protege.stanford.edu/) Actualmente hay dos versiones disponibles, 3.4 y 4.0. La diferencia entre ellas es el tipo de metodología de modelado que soportan (frames y/o OWL) Más información: http://protegewiki.stanford.edu/index.php/Protege4Migration Para quien se inicia, usar una herramienta basada en frames puede ser más fácil. OWL es un estándar más nuevo y en crecimiento. Las versiones 3.4 y 4.0 ofrecen distinto grado de soporte del modelo OWL. Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN
Herramientas para construir ontologías En la carpeta del curso en el ftp de la maestría pueden encontrar un tutorial en español para Protégé-frames y uno en inglés para Protégé-OWL (cuidado, tiene algunos errores). Los dos documentos están en el sitio oficial de Protégé. Ahí también pueden encontrar más documentación y ejemplos. Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN