Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porMaría Victoria Reyes Acosta Modificado hace 8 años
1
Proyecto SIFIA Sistema de Inteligencia basado en Fuentes de Información Abierta
2
Proyecto SIFIA Índice y Proyectos Satélite
3
Proyecto SIFIA Beneficios del Software Libre ● Cada vez más demandado por la sociedad. ● Distribución a escala masiva. ● Aumenta la demanda de soporte. ● Se cobra por los servicios asociados, y no por la distribución del producto...
4
Proyecto SIFIA Introducción SIFIA: Inteligencia Proceso de obtener, evaluar y contrastar información. Tipos de Inteligencia: –Militar –Empresarial/Competitiva –Policial, política... Inteligencia Basada en Fuentes de Información Abiertas: basada en aquellas fuentes públicamente disponibles.
5
Proyecto SIFIA Introducción SIFIA: Ciclo de Inteligencia
6
Proyecto SIFIA Ejemplo de aplicación: Vigilancia Tecnológica
7
Proyecto SIFIA Introducción SIFIA: Necesidad de SIFIA Productos Similares: –Pentaho Open BI Suite: Conjunto de herramientas opensource y privativas. Solo hace minería de datos, no de textos. –Microsoft BI Suite: Office + SQL Server. Solo proporciona una interfaz de consulta.
8
Proyecto SIFIA Introducción SIFIA: Arquitectura de SIFIA
9
Proyecto SIFIA Introducción SIFIA: Información Adicional Desarrollado principalmente en Python. Más información en: http://proyectos.citic.es/sifia/ http://proyectos.citic.es/sifia/
10
YAPP, Yet Another Paralell Python
11
YAPPDefinición “YAPP es un framework minimalista de programación distribuida asíncrona desarrollado en Python”
12
YAPPVentajas Simple. Compacto. Escrito en Python. Despliegue automático.
13
YAPPArquitectura
14
YAPP Nuevos elementos de proceso
15
JetTag, recuperación de información y etiquetado de la World Wide Web
16
JetTag Necesidades del proyecto SIFIA El proyecto SIFIA pretende que la Web sea una de sus fuentes principales de conocimiento. ¿Cómo extraer información útil de la Web?
17
JetTag Proyecto Satélite de SIFIA JetTag nace como proyecto satélite dentro de SIFIA.
18
“JetTag es una herramienta de uso general que facilita la tarea de extraer información de la Web” ¿Qué procedimientos utiliza para extraer información de una fuente tan diversa?... JetTagDefinición
19
La extracción de datos debe permitirnos obviar cierta información no necesaria para algunas consultas: La Web como fuente de información La naturaleza de la Web: información que no aporta conocimiento
20
Aprovechando la estructura de algunas webs para extraer la mayor cantidad de información posible: La Web como fuente de información La naturaleza de la Web: aprovechando la estructura
21
Y aplicar a estos datos una serie de etiquetas: La Web como fuente de información Etiquetando la información
22
La Web como fuente de información Resultado Final Dando como resultado una salida de datos totalmente estructurada: XML, JSON, CSV.
23
La Web como fuente de información JetTagConf: ficheros de configuración Y un fichero de configuración que nos permite repetir la consulta posteriormente: ¿Probamos JetTag?...
24
ClassOn, Software libre de clasificación y etiquetado automático
25
El ser humano lo clasifica todo: ● Open Directory Project (Dmoz). ● Directorios de nuestro ordenador. ● Categorías de los sistemas americano y europeo de patentes. ClassOn Clasificación y Etiquetado Automático
26
El texto es la principal vía de comunicación en Internet. Las estadísticas revelan que un 95% de la información de la Red es desestructurada. A día de hoy sólo esta clasificado un 10% de la información que circula nuestras redes. (Fuente: Estudio de IDC, patrocinado por EMC http://www.emc.com/about/destination/digital_universe) ClassOn Clasificación y Etiquetado Automático
27
Algoritmos clásicos: Redes bayesianas (Filtros antispam). k-ésimo vecino más cercano. Máquinas de vectores de soporte. ClassOn Clasificación y Etiquetado Automático
28
Problema: Extraer sobre qué tipo de patentes puede referirse un texto. Muchas categorías con muchos ejemplos de cada una. Las máquinas de vectores de soporte se adaptan a este problema. ClassOn Clasificación y Etiquetado Automático
29
Minería de Datos. Minería de Conceptos. Extracción de conceptos de un texto. Saber sobre qué temas trata, de qué habla. ClassOn Clasificación y Etiquetado Automático
30
La Wikipedia: Un enorme repositorio de conceptos. Un texto por concepto, no tratamos con categorías. Relacionar un texto con los textos que son similares de la Wikipedia. ClassOn Algoritmo ClassOn
31
Ontopya, almacén de conocimientos
32
“SIFIA necesita un sistema de almacenamiento escalable y que trabaje con modelos de conocimiento.” Ontopya ¿Por qué surge Ontopya?
33
Integración de los siguientes elementos: Base de datos relacional. ORM (Object-relation mapping). Interfaz Web de administración. Aplicación de modelado UML. Ontopya Solución Propuesta
34
OntopyaArquitectura
35
2 * 0..1 1 SubclassOf hasRelations Diagramas Clases UML OWL-Lite OntopyaMetamodelo
36
OntopyaUniversoClase propiedad Subclase Clase ** Cualquier modelo de datos que cumpla: Herencia de clases simple Relaciones muchos a muchos Relaciones nombradas
37
OntopyaFases Definición dinámica ontología Creación automática modelo de datos Gestión datos mediante ORM
38
parent * MODELO * METAMODELO * Ontopya Definición dinámica de ontologías
39
METAMODELO API UML WEB OWL Ontopya Definición dinámica de ontologías
40
API Ontopya Definición de ontologías desde API
41
WEB Ontopya Definición de ontologías desde Web
42
UML Ontopya Definición de ontologías desde UML
43
OWL Ontopya Definición de ontologías desde OWL
44
Ontopya Creación automática de modelos de datos MODELO METAMODELO
45
MODELO BASE DE DATOS Ontopya Creación automática de modelos de datos
46
Gestión de objetos a través del ORM de Django: API Ontopya Gestión de datos mediante el ORM
47
MODELO CLASES METAMODELO OWL WEB UML API MODELO E/R Ontopya Para finalizar...
48
Gracias Preguntas y Sugerencias
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.