Proyecto SIFIA Sistema de Inteligencia basado en Fuentes de Información Abierta
Proyecto SIFIA Índice y Proyectos Satélite
Proyecto SIFIA Beneficios del Software Libre ● Cada vez más demandado por la sociedad. ● Distribución a escala masiva. ● Aumenta la demanda de soporte. ● Se cobra por los servicios asociados, y no por la distribución del producto...
Proyecto SIFIA Introducción SIFIA: Inteligencia Proceso de obtener, evaluar y contrastar información. Tipos de Inteligencia: –Militar –Empresarial/Competitiva –Policial, política... Inteligencia Basada en Fuentes de Información Abiertas: basada en aquellas fuentes públicamente disponibles.
Proyecto SIFIA Introducción SIFIA: Ciclo de Inteligencia
Proyecto SIFIA Ejemplo de aplicación: Vigilancia Tecnológica
Proyecto SIFIA Introducción SIFIA: Necesidad de SIFIA Productos Similares: –Pentaho Open BI Suite: Conjunto de herramientas opensource y privativas. Solo hace minería de datos, no de textos. –Microsoft BI Suite: Office + SQL Server. Solo proporciona una interfaz de consulta.
Proyecto SIFIA Introducción SIFIA: Arquitectura de SIFIA
Proyecto SIFIA Introducción SIFIA: Información Adicional Desarrollado principalmente en Python. Más información en:
YAPP, Yet Another Paralell Python
YAPPDefinición “YAPP es un framework minimalista de programación distribuida asíncrona desarrollado en Python”
YAPPVentajas Simple. Compacto. Escrito en Python. Despliegue automático.
YAPPArquitectura
YAPP Nuevos elementos de proceso
JetTag, recuperación de información y etiquetado de la World Wide Web
JetTag Necesidades del proyecto SIFIA El proyecto SIFIA pretende que la Web sea una de sus fuentes principales de conocimiento. ¿Cómo extraer información útil de la Web?
JetTag Proyecto Satélite de SIFIA JetTag nace como proyecto satélite dentro de SIFIA.
“JetTag es una herramienta de uso general que facilita la tarea de extraer información de la Web” ¿Qué procedimientos utiliza para extraer información de una fuente tan diversa?... JetTagDefinición
La extracción de datos debe permitirnos obviar cierta información no necesaria para algunas consultas: La Web como fuente de información La naturaleza de la Web: información que no aporta conocimiento
Aprovechando la estructura de algunas webs para extraer la mayor cantidad de información posible: La Web como fuente de información La naturaleza de la Web: aprovechando la estructura
Y aplicar a estos datos una serie de etiquetas: La Web como fuente de información Etiquetando la información
La Web como fuente de información Resultado Final Dando como resultado una salida de datos totalmente estructurada: XML, JSON, CSV.
La Web como fuente de información JetTagConf: ficheros de configuración Y un fichero de configuración que nos permite repetir la consulta posteriormente: ¿Probamos JetTag?...
ClassOn, Software libre de clasificación y etiquetado automático
El ser humano lo clasifica todo: ● Open Directory Project (Dmoz). ● Directorios de nuestro ordenador. ● Categorías de los sistemas americano y europeo de patentes. ClassOn Clasificación y Etiquetado Automático
El texto es la principal vía de comunicación en Internet. Las estadísticas revelan que un 95% de la información de la Red es desestructurada. A día de hoy sólo esta clasificado un 10% de la información que circula nuestras redes. (Fuente: Estudio de IDC, patrocinado por EMC ClassOn Clasificación y Etiquetado Automático
Algoritmos clásicos: Redes bayesianas (Filtros antispam). k-ésimo vecino más cercano. Máquinas de vectores de soporte. ClassOn Clasificación y Etiquetado Automático
Problema: Extraer sobre qué tipo de patentes puede referirse un texto. Muchas categorías con muchos ejemplos de cada una. Las máquinas de vectores de soporte se adaptan a este problema. ClassOn Clasificación y Etiquetado Automático
Minería de Datos. Minería de Conceptos. Extracción de conceptos de un texto. Saber sobre qué temas trata, de qué habla. ClassOn Clasificación y Etiquetado Automático
La Wikipedia: Un enorme repositorio de conceptos. Un texto por concepto, no tratamos con categorías. Relacionar un texto con los textos que son similares de la Wikipedia. ClassOn Algoritmo ClassOn
Ontopya, almacén de conocimientos
“SIFIA necesita un sistema de almacenamiento escalable y que trabaje con modelos de conocimiento.” Ontopya ¿Por qué surge Ontopya?
Integración de los siguientes elementos: Base de datos relacional. ORM (Object-relation mapping). Interfaz Web de administración. Aplicación de modelado UML. Ontopya Solución Propuesta
OntopyaArquitectura
2 * SubclassOf hasRelations Diagramas Clases UML OWL-Lite OntopyaMetamodelo
OntopyaUniversoClase propiedad Subclase Clase ** Cualquier modelo de datos que cumpla: Herencia de clases simple Relaciones muchos a muchos Relaciones nombradas
OntopyaFases Definición dinámica ontología Creación automática modelo de datos Gestión datos mediante ORM
parent * MODELO * METAMODELO * Ontopya Definición dinámica de ontologías
METAMODELO API UML WEB OWL Ontopya Definición dinámica de ontologías
API Ontopya Definición de ontologías desde API
WEB Ontopya Definición de ontologías desde Web
UML Ontopya Definición de ontologías desde UML
OWL Ontopya Definición de ontologías desde OWL
Ontopya Creación automática de modelos de datos MODELO METAMODELO
MODELO BASE DE DATOS Ontopya Creación automática de modelos de datos
Gestión de objetos a través del ORM de Django: API Ontopya Gestión de datos mediante el ORM
MODELO CLASES METAMODELO OWL WEB UML API MODELO E/R Ontopya Para finalizar...
Gracias Preguntas y Sugerencias