La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

A plicaciones de D ata M ining en c iencia y t ecnología Ontologias. 2 Marcelo A. Soria Maestria en Data Mining. DC-FCEN.

Presentaciones similares


Presentación del tema: "A plicaciones de D ata M ining en c iencia y t ecnología Ontologias. 2 Marcelo A. Soria Maestria en Data Mining. DC-FCEN."— Transcripción de la presentación:

1 A plicaciones de D ata M ining en c iencia y t ecnología Ontologias. 2 Marcelo A. Soria Maestria en Data Mining. DC-FCEN

2 Marcelo A. Soria Maestria en Data Mining. DC-FCEN Desarrollo de ontologías Clases slots facetas o restricciones de rol Clases slots

3 Marcelo A. Soria Maestria en Data Mining. DC-FCEN Las clases son el centro de las ontologías Describen conceptos de un dominio Se relacionan jerárquicamente con superclases y subclases Desarrollo de ontologías Clases Slots Describen las propiedades de las clases y sus instancias Facetas Son los tipos de datos y rangos de valores que puede tomar un slot

4 Marcelo A. Soria Maestria en Data Mining. DC-FCEN Metodología de desarrollo de ontologías 1. ¿Cuál es el dominio y alcance de la ontología? ¿Quién va a usar la ontología? ¿Para qué? ¿Quién la va a mantener? Formular preguntas de competencia Son ejemplos de las preguntas típicas que haría un usuario de la ontología 2. ¿Existe alguna ontología que se pueda reutilizar?

5 Marcelo A. Soria Maestria en Data Mining. DC-FCEN Metodología de desarrollo de ontologías 3. Enumerar términos importantes para la ontología Preparar una lista de sustantivos y acciones que describan los conceptos que debería incluir la ontología ¿Se pueden establecer propiedades para los términos? 4. Definir las clases y las relaciones jerárquicas entre ellas Se utilizan metodologías top-dow, bottom-up o combinadas Este proceso es iterativo 5. Definir los slots Determinar el tipo de propiedades: intrínsecas, extrínsecas, partes-de, relaciones con otros individuos Las clases heredan todos los slots de las superclases

6 Marcelo A. Soria Maestria en Data Mining. DC-FCEN Metodología de desarrollo de ontologías 6. Definir las restricciones de rol de los slots Determinar el tipo de valor de los slots: String, Number, Boolean, Enumerated (listas de valores permitidos), Instance (relaciones con otras clases) Establecer el rango y dominio de los slots de tipo Instance: el rango es el conjunto de clases admitidas y el dominio son las clases que incluyen al slot 7. Crear instancias

7 Marcelo A. Soria Maestria en Data Mining. DC-FCEN Algunos puntos importantes durante el desarrollo. 1 Prestar atención a las relaciones entre clases ¿qué es más conveniente: is-a, has-a, kind-of, otra…? Verificar que las clases hermanas no sean subclases is-a ocultas Una subclase sólo se justifica si agrega información a la clase parental Usar sólo plurales o singulares para nombrar clases. Ayuda a evitar el problema anterior ¿Las relaciones de transitividad tienen sentido? Evitar los ciclos en las jerarquías

8 Marcelo A. Soria Maestria en Data Mining. DC-FCEN Algunos puntos importantes durante el desarrollo. 2 ¿La profundidad de la jerarquía es excesiva? ¿O la jerarquía es muy plana? ¿Las relaciones de herencia múltiple son claras? ¿Son suficientes? Recordar que las ontologías son dinámicas y se modifican con el uso y al adquirir experiencia Al modificar una ontología, preguntar(se) ¿Se debe crear una clase nueva o agregar una propiedad a una clase existente? ¿agregar una clase, o una instancia?

9 Marcelo A. Soria Maestria en Data Mining. DC-FCEN Similitud semántica entre nodos de una ontología La similitud semántica entre dos términos en una medida del parecido entre dos términos que pertenecen a una lista Se puede pensar una ontología como una estructura donde los nodos (términos) cercanos son más similares entre si que otros más alejados

10 Marcelo A. Soria Maestria en Data Mining. DC-FCEN ¿Cómo se puede medir la similitud semántica?

11 Marcelo A. Soria Maestria en Data Mining. DC-FCEN Tres familias de medidas de similitud semántica: Medidas que usan el contenido de la información (IC): IC(t i ) = -log(p(t i )) p(t i ): probabilidad de ocurrencia del término t i en el corpus*. corpus: en análisis de textos es una colección de documentos; en bioinformática, la totalidad de términos GO asignados a un genoma Para calcular p(t i ) debemos tener en cuenta la frecuencia de t i y todos sus términos hijos…

12 Marcelo A. Soria Maestria en Data Mining. DC-FCEN Cálculo de la probabilidad de ocurrencia de t i La frecuencia del término t i es la cantidad de veces que éste aparece citado, más todas las citas de sus descendientes La probabilidad de t i es el cociente entre su frecuencia y la frecuencia de la raíz de la ontología, o sea, la suma de todas las citas.

13 Marcelo A. Soria Maestria en Data Mining. DC-FCEN Similitud semántica entre nodos de una ontología medida de Resnik MCA: menor ancestro común IC(t i ) = -log(p(t i )) …entonces, un término poco frecuente tiene un contenido de información mayor que uno más frecuente medida de Li

14 Marcelo A. Soria Maestria en Data Mining. DC-FCEN Extensión a objetos con más de un término ontológico asignado (p.ej., dos genes con varios GO cada uno) 1.Realizar todas las comparaciones pareadas entre los términos de un objeto con los términos del otro. 2.Si en la comparación pareada los dos términos son idénticos, ese el MAC entre ellos. 3.Para términos diferentes, determinar el MAC 4.La similitud entre objetos es la media de los IC o el máximo IC

15 Marcelo A. Soria Maestria en Data Mining. DC-FCEN Medidas de similitud de superposición de términos En ambas medidas se determina la intersección entre los conjuntos de términos a cada objeto, incluyendo los ancestros y excluyendo la raíz. La segunda es una medida normalizada.

16 Marcelo A. Soria Maestria en Data Mining. DC-FCEN Medidas de similitud en el modelo de espacio vectorial similitud coseno v 1 y v 2 son los vectores de atributos (p.ej., los términos GO compartidos) v 1.v 2 es el producto escalar entre los dos vectores ||v|| es la norma del vector (raíz cuadrada del producto escalar del vector consigo mismo) Esta medida no depende de las relaciones ontológicas


Descargar ppt "A plicaciones de D ata M ining en c iencia y t ecnología Ontologias. 2 Marcelo A. Soria Maestria en Data Mining. DC-FCEN."

Presentaciones similares


Anuncios Google