La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Proyecto SIFIA Sistema de Inteligencia basado en Fuentes de Información Abierta.

Presentaciones similares


Presentación del tema: "Proyecto SIFIA Sistema de Inteligencia basado en Fuentes de Información Abierta."— Transcripción de la presentación:

1 Proyecto SIFIA Sistema de Inteligencia basado en Fuentes de Información Abierta

2 Proyecto SIFIA Índice y Proyectos Satélite

3 Proyecto SIFIA Beneficios del Software Libre ● Cada vez más demandado por la sociedad. ● Distribución a escala masiva. ● Aumenta la demanda de soporte. ● Se cobra por los servicios asociados, y no por la distribución del producto...

4 Proyecto SIFIA Introducción SIFIA: Inteligencia Proceso de obtener, evaluar y contrastar información. Tipos de Inteligencia: –Militar –Empresarial/Competitiva –Policial, política... Inteligencia Basada en Fuentes de Información Abiertas: basada en aquellas fuentes públicamente disponibles.

5 Proyecto SIFIA Introducción SIFIA: Ciclo de Inteligencia

6 Proyecto SIFIA Ejemplo de aplicación: Vigilancia Tecnológica

7 Proyecto SIFIA Introducción SIFIA: Necesidad de SIFIA Productos Similares: –Pentaho Open BI Suite: Conjunto de herramientas opensource y privativas. Solo hace minería de datos, no de textos. –Microsoft BI Suite: Office + SQL Server. Solo proporciona una interfaz de consulta.

8 Proyecto SIFIA Introducción SIFIA: Arquitectura de SIFIA

9 Proyecto SIFIA Introducción SIFIA: Información Adicional Desarrollado principalmente en Python. Más información en: http://proyectos.citic.es/sifia/ http://proyectos.citic.es/sifia/

10 YAPP, Yet Another Paralell Python

11 YAPPDefinición “YAPP es un framework minimalista de programación distribuida asíncrona desarrollado en Python”

12 YAPPVentajas Simple. Compacto. Escrito en Python. Despliegue automático.

13 YAPPArquitectura

14 YAPP Nuevos elementos de proceso

15 JetTag, recuperación de información y etiquetado de la World Wide Web

16 JetTag Necesidades del proyecto SIFIA El proyecto SIFIA pretende que la Web sea una de sus fuentes principales de conocimiento. ¿Cómo extraer información útil de la Web?

17 JetTag Proyecto Satélite de SIFIA JetTag nace como proyecto satélite dentro de SIFIA.

18 “JetTag es una herramienta de uso general que facilita la tarea de extraer información de la Web” ¿Qué procedimientos utiliza para extraer información de una fuente tan diversa?... JetTagDefinición

19 La extracción de datos debe permitirnos obviar cierta información no necesaria para algunas consultas: La Web como fuente de información La naturaleza de la Web: información que no aporta conocimiento

20 Aprovechando la estructura de algunas webs para extraer la mayor cantidad de información posible: La Web como fuente de información La naturaleza de la Web: aprovechando la estructura

21 Y aplicar a estos datos una serie de etiquetas: La Web como fuente de información Etiquetando la información

22 La Web como fuente de información Resultado Final Dando como resultado una salida de datos totalmente estructurada: XML, JSON, CSV.

23 La Web como fuente de información JetTagConf: ficheros de configuración Y un fichero de configuración que nos permite repetir la consulta posteriormente: ¿Probamos JetTag?...

24 ClassOn, Software libre de clasificación y etiquetado automático

25 El ser humano lo clasifica todo: ● Open Directory Project (Dmoz). ● Directorios de nuestro ordenador. ● Categorías de los sistemas americano y europeo de patentes. ClassOn Clasificación y Etiquetado Automático

26 El texto es la principal vía de comunicación en Internet. Las estadísticas revelan que un 95% de la información de la Red es desestructurada. A día de hoy sólo esta clasificado un 10% de la información que circula nuestras redes. (Fuente: Estudio de IDC, patrocinado por EMC http://www.emc.com/about/destination/digital_universe) ClassOn Clasificación y Etiquetado Automático

27 Algoritmos clásicos: Redes bayesianas (Filtros antispam). k-ésimo vecino más cercano. Máquinas de vectores de soporte. ClassOn Clasificación y Etiquetado Automático

28 Problema: Extraer sobre qué tipo de patentes puede referirse un texto. Muchas categorías con muchos ejemplos de cada una. Las máquinas de vectores de soporte se adaptan a este problema. ClassOn Clasificación y Etiquetado Automático

29 Minería de Datos. Minería de Conceptos. Extracción de conceptos de un texto. Saber sobre qué temas trata, de qué habla. ClassOn Clasificación y Etiquetado Automático

30 La Wikipedia: Un enorme repositorio de conceptos. Un texto por concepto, no tratamos con categorías. Relacionar un texto con los textos que son similares de la Wikipedia. ClassOn Algoritmo ClassOn

31 Ontopya, almacén de conocimientos

32 “SIFIA necesita un sistema de almacenamiento escalable y que trabaje con modelos de conocimiento.” Ontopya ¿Por qué surge Ontopya?

33 Integración de los siguientes elementos: Base de datos relacional‏. ORM (Object-relation mapping)‏. Interfaz Web de administración. Aplicación de modelado UML. Ontopya Solución Propuesta

34 OntopyaArquitectura

35 2 * 0..1 1 SubclassOf hasRelations Diagramas Clases UML OWL-Lite OntopyaMetamodelo

36 OntopyaUniversoClase propiedad Subclase Clase ** Cualquier modelo de datos que cumpla: Herencia de clases simple Relaciones muchos a muchos Relaciones nombradas

37 OntopyaFases Definición dinámica ontología Creación automática modelo de datos Gestión datos mediante ORM

38 parent * MODELO * METAMODELO * Ontopya Definición dinámica de ontologías

39 METAMODELO API UML WEB OWL Ontopya Definición dinámica de ontologías

40 API Ontopya Definición de ontologías desde API

41 WEB Ontopya Definición de ontologías desde Web

42 UML Ontopya Definición de ontologías desde UML

43 OWL Ontopya Definición de ontologías desde OWL

44 Ontopya Creación automática de modelos de datos MODELO METAMODELO

45 MODELO BASE DE DATOS Ontopya Creación automática de modelos de datos

46 Gestión de objetos a través del ORM de Django: API Ontopya Gestión de datos mediante el ORM

47 MODELO CLASES METAMODELO OWL WEB UML API MODELO E/R Ontopya Para finalizar...

48 Gracias Preguntas y Sugerencias


Descargar ppt "Proyecto SIFIA Sistema de Inteligencia basado en Fuentes de Información Abierta."

Presentaciones similares


Anuncios Google