Aplicaciones de Data Mining en ciencia y tecnología Ontologias. 2

Slides:



Advertisements
Presentaciones similares
METODOLOGÍA ORIENTADA A OBJETOS CARACTERISTICAS DEL PROCESO
Advertisements

Modelo Entidad Relación
Diagrama de Clases Por: Ing. Juan Carlos Contreras Villegas
CRISP-DM (
Aplicaciones de Data Mining en ciencia y tecnología Ontologias. 1
Aplicaciones de Data Mining en ciencia y tecnología Bioinformática
Arquitectura CLARO-TECNOTREE
INGENIERIA DE SOFTWARE II Trayecto III. Trimestre I
Detecting DUPLICATE OBJECTS IN XML DOCUMENTS
Unidad académica: Ingenierías
Aplicación del paradigma orientado a objetos
UNIDAD II Modelo de Datos.
DIAGRAMA DE COMPONENTES INTEGRANTES Córdova Vásquez Giovanny Escobar Alvares Calixto Gomez Quinteros Adelaida Pinto Flores Yarmila.
Diagramas de clases Modelan la vista estática del sistema
DIAGRAMA DE CLASE.
Estructura de Datos En C++
Introducción a Java II.
Abstracción de los datos y Orientación a Objeto Clase 13.
Introducción a la programación Orientada a objetos
Facultad: Turismo Y Hotelería
Probabilidad condicional
UNIDAD 2 CLASES Y OBJETOS. CLASE Elementos cabecera y cuerpo de la clase. Cabecera: aporta información fundamental sobre la clase en sí y constituye de.
Clases 4 Pruebas de Hipótesis
E Experimentos aleatorios. Espacio muestral
Recuperaci ó n Basada en Contenido M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Especificación de Consultas M
Diagramas de Clase Angela Carrillo R..
Arquitectura de la Información Prof. Adelaide Bianchini – Dpto. de Computación y Tecnología de la Información, Universidad Simón Bolívar. Febrero 2006.
Estructura de Datos y Algoritmos
Fundamentos de Programación
Datos: Estadística.
UNIVERSIDAD JUÁREZ AUTÓNOMA DE TABASCO D IVISIÓN A CADÉMICA DE E DUCACIÓN Y A RTES L IC. C IENCIAS DE LA E DUCACIÓN Asignatura: Herramientas informáticas.
3. Análisis de Correspondencias Simples
Métricas Técnicas para Sistemas Orientados a Objeto
Una introducción a la computación evolutiva
GUTIÉRREZ GRANADOS HÉCTOR DANIEL
Diagrama de Clases ACI 570.
Introducción a UML DIAGRAMA DE CLASES Departamento de Informática
Bases de Datos.
Unidad 2.1: INTRODUCCIÓN A LA ORIENTACIÓN A OBJETOS.
Probabilidad y Estadística
Programación orientada a objetos
Reconocimiento de caras usando Histogramas de Gradientes Orientados
Ingeniería de Requisitos
Ing. Esp. Ricardo Cujar. Programación Orientada a Objetos  Modelo de desarrollo de software.  Modo de pensar del hombre y no de la máquina.  Abstracción.
Probabilidad y Estadística
LIC. JOSEPH RUITON RICRA
DESARROLLO DE PROYECTOS DE SOFTWARE ACTIVIDAD Y CASOS DE USO BARTOLOME CRUZ CRUZ.
Modelan la vista estática del sistema Elementos básicos: Clases Relaciones Objeto: Representación de una entidad discreta (real o abstracta) - Estado:
CONCEPTOS.
PROGRAMACIÓN IV INTRODUCCIÓN.

Ing. Johanna Macias Algoritmo, Estructura y Programación III.
Tipo de relación entre clases Es uno de los aspectos que distinguen el paradigma de orientación a objetos frente a otros paradigmas. Mecanismo que,
Acceso a Datos Erick López Ovando Licenciado en Informática.
Matemáticas Discretas MISTI
ORIENTACIÓN A OBJETOS El paradigma.
UNSa Sede Regional Oran TEU - TUP. Un espacio vectorial (o espacio lineal) es el objeto básico de estudio del álgebra lineal.álgebra lineal A los elementos.
La Programación Orientado a Objetos
TEMA 2 : ALGEBRA DE MATRICES.
PRESENTACION DE INGENIERIA ORIENTADA A OBJETOS
Las distancias en el espacio
Para cada uno de los atributos, indicaremos su campo de descripción. Cuando un campo no dispone de este (como el.
MEDIDAS DE DISPERSIÓN Pedro Godoy Gómez. Miden qué tanto se dispersan las observaciones alrededor de su media. MEDIDAS DE DISPERSIÓN.
Programación Orientada a Objetos Unidad 5. Los objetos son entidades que combinan estado Contiene toda la información denominados atributos REPASO Cada.
Modelado UML Diagrama de Clases
Métodos en Java. Estructura de un programa en Java ► La relación con la vida misma la podemos ver en el siguiente comentario: Imaginemos que dos clases.
Concepto de Tipo y Subtipo Diseño e Implementación Fundamentos de Programación Departamento de Lenguajes y Sistemas Informáticos Unidad Didáctica 10 Versión.
OPERADORES CINEMÁTICOS Roger Miranda Colorado
Estructura de Datos Departamento de Programación Universidad Metropolitana Contenido: UML. Envío de mensajes. Relaciones. Asociación. Agregación o composición.
Transcripción de la presentación:

Aplicaciones de Data Mining en ciencia y tecnología Ontologias. 2 Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Desarrollo de ontologías Clases Clases slots slots Clases facetas o restricciones de rol Clases Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Desarrollo de ontologías Clases Las clases son el centro de las ontologías Describen conceptos de un dominio Se relacionan jerárquicamente con superclases y subclases Slots Describen las propiedades de las clases y sus instancias Facetas Son los tipos de datos y rangos de valores que puede tomar un slot Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Metodología de desarrollo de ontologías 1. ¿Cuál es el dominio y alcance de la ontología? ¿Quién va a usar la ontología? ¿Para qué? ¿Quién la va a mantener? Formular preguntas de competencia Son ejemplos de las preguntas típicas que haría un usuario de la ontología 2. ¿Existe alguna ontología que se pueda reutilizar? http://owl.cs.manchester.ac.uk/repository/ http://www.daml.org/ontologies/ Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Metodología de desarrollo de ontologías 3. Enumerar términos importantes para la ontología Preparar una lista de sustantivos y acciones que describan los conceptos que debería incluir la ontología ¿Se pueden establecer propiedades para los términos? 4. Definir las clases y las relaciones jerárquicas entre ellas Se utilizan metodologías top-dow, bottom-up o combinadas Este proceso es iterativo 5. Definir los slots Determinar el tipo de propiedades: intrínsecas, extrínsecas, partes-de, relaciones con otros individuos Las clases heredan todos los slots de las superclases Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Metodología de desarrollo de ontologías 6. Definir las restricciones de rol de los slots Determinar el tipo de valor de los slots: String, Number, Boolean, Enumerated (listas de valores permitidos), Instance (relaciones con otras clases) Establecer el rango y dominio de los slots de tipo Instance: el rango es el conjunto de clases admitidas y el dominio son las clases que incluyen al slot 7. Crear instancias Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Algunos puntos importantes durante el desarrollo. 1 Prestar atención a las relaciones entre clases ¿qué es más conveniente: is-a, has-a, kind-of, otra…? Verificar que las clases hermanas no sean subclases “is-a” ocultas Una subclase sólo se justifica si agrega información a la clase parental Usar sólo plurales o singulares para nombrar clases. Ayuda a evitar el problema anterior ¿Las relaciones de transitividad tienen sentido? Evitar los ciclos en las jerarquías Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Algunos puntos importantes durante el desarrollo. 2 ¿La profundidad de la jerarquía es excesiva? ¿O la jerarquía es muy plana? ¿Las relaciones de herencia múltiple son claras? ¿Son suficientes? Recordar que las ontologías son dinámicas y se modifican con el uso y al adquirir experiencia Al modificar una ontología, preguntar(se) ¿Se debe crear una clase nueva o agregar una propiedad a una clase existente? ¿agregar una clase, o una instancia? Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Similitud semántica entre nodos de una ontología La similitud semántica entre dos términos en una medida del parecido entre dos términos que pertenecen a una lista Se puede pensar una ontología como una estructura donde los nodos (términos) cercanos son más similares entre si que otros más alejados Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

¿Cómo se puede medir la similitud semántica? Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Tres familias de medidas de similitud semántica: Medidas que usan el contenido de la información (IC): p(ti): probabilidad de ocurrencia del término ti en el corpus*. IC(ti) = -log(p(ti)) Para calcular p(ti) debemos tener en cuenta la frecuencia de ti y todos sus términos hijos… corpus: en análisis de textos es una colección de documentos; en bioinformática, la totalidad de términos GO asignados a un genoma Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Cálculo de la probabilidad de ocurrencia de ti La frecuencia del término ti es la cantidad de veces que éste aparece citado, más todas las citas de sus descendientes La probabilidad de ti es el cociente entre su frecuencia y la frecuencia de la raíz de la ontología, o sea, la suma de todas las citas. Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Similitud semántica entre nodos de una ontología …entonces, un término poco frecuente tiene un contenido de información mayor que uno más frecuente IC(ti) = -log(p(ti)) Similitud semántica entre nodos de una ontología medida de Resnik MCA: menor ancestro común medida de Li Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Extensión a objetos con más de un término ontológico asignado (p. ej Extensión a objetos con más de un término ontológico asignado (p.ej., dos genes con varios GO cada uno) Realizar todas las comparaciones pareadas entre los términos de un objeto con los términos del otro. Si en la comparación pareada los dos términos son idénticos, ese el MAC entre ellos. Para términos diferentes, determinar el MAC La similitud entre objetos es la media de los IC o el máximo IC Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Medidas de similitud de superposición de términos En ambas medidas se determina la intersección entre los conjuntos de términos a cada objeto, incluyendo los ancestros y excluyendo la raíz. La segunda es una medida normalizada. Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN

Medidas de similitud en el modelo de espacio vectorial similitud coseno v1 y v2 son los vectores de atributos (p.ej., los términos GO compartidos) v1.v2 es el producto escalar entre los dos vectores ||v|| es la norma del vector (raíz cuadrada del producto escalar del vector consigo mismo) Esta medida no depende de las relaciones ontológicas Marcelo A. Soria (soria@agro.uba.ar) Maestria en Data Mining. DC-FCEN