Estudio comparativo de los API’s de búsqueda de Google, Yahoo y Bing para el desarrollo de aplicaciones anti plagio de textos en documentos. Director:

Slides:



Advertisements
Presentaciones similares
MANUAL PARA LA ELABORACIÓN DE INVESTIGACIONES TIPO MONOGRAFIA
Advertisements

Búsqueda de una frase exacta
Temas tipos para micro proyectos de investigación
Sistema de Información Cultural, CONACULTA México, 2006 SiC / RENiC Aspectos técnicos relevantes para un Sistema de Información (SI)
Sistema de Alarmas de Mercado Aspectos Tecnológicos X Reunión Responsables de Sistemas de Información La Antigua, Guatemala Setiembre 2008.
CREACIÓN DE PÁGINAS WEB CON SHAREPOINT DESIGNER 2007 (Sesión 1) Ricardo Ferrís Castell ( ) Departament D Informàtica.
Herramientas informáticas
Caso de Éxito: Team System, CMMI, Metodologías Ágiles
¿Evaluamos bien? Es evidente la necesidad de filtros que permitan una recuperación de información con calidad y alta relevancia. Existe la necesidad de.
TEMA 20. OFFICE 2003 E INTERNET: INSERTAR HIPERVÍNCULOS Y NAVEGAR ENTRE ELLOS. GUARDAR COMO PÁGINA WEB.
1 Reporte Componente Impacto Por Orden Territorial Por Departamento No Disponible ND *Los indicadores para el año 2008 no fueron calculados.
Portal Hacienda Digital
Pensiones Civiles del Estado PROYECTO: Página Web PCE
DIRECTOR: ING. DIEGO MARCILLO CODIRECTOR: ING. JAIME ANDRANGO
Creación del prototipo de la red del campus
METODOLOGÍAS ÁGILES “PROCESO UNIFICADO ÁGIL (AUP)
MI PROGRAMA DE FORMACION
Reporte de estadía para titulación de nivel Ingeniería
Reporte de estadía para titulación de nivel Técnico Superior Universitario Esquema general 29 de Noviembre de 2010.
Propósito Introducción Tema Actividades de aprendizaje Actividades de aprendizaje El éxito fundamental de la web se basa en tres aspectos principales:
SILVIA BEATRIZ GAVILANES NARANJO KELLY VERÓNICA CARVAJAL CUJI
MÉTODO ÁGIL SCRUM APLICADO A LA IMPLANTACIÓN DE UN SISTEMA INFORMÁTICO PARA EL PROCESO DE RECOLECCIÓN MASIVA DE INFORMACIÓN CON TECNOLOGÍA MÓVIL Como.
DESARROLLO E IMPLEMENTACIÓN DE UNA TIENDA VIRTUAL UTILIZANDO OSCOMMERCE, CASO PRÁCTICO TIENDA VIRTUAL PARA MATERIAL ELÉCTRICO Y TELEFÓNICO DE MEDIA Y BAJA.
PROYECTO DE GRADO ANÁLISIS, DISEÑO, DESARROLLO E IMPLEMENTACIÓN DE UN SISTEMA WEB PARA EL CONTROL DE UN TALLER TÉCNICO AUTOMOTRIZ EN PLATAFORMA PHP –
ESPE – Departamento de Ciencias de la Computación
ESCUELA POLITÉCNICA DEL EJÉRCITO ANÁLISIS, DISEÑO E IMPLEMENTACIÓN DE UNA TIENDA VIRTUAL UTILIZANDO OSCOMMERCE, CASO PRÁCTICO TIENDA VIRTUAL DE PAPEL.
ESCUELA POLITÉCNICA DEL EJÉRCITO CARRERA DE INGENIERÍA DE SISTEMAS
“COMPARACIÓN DE LOS SISTEMAS DE GESTIÓN DE CONTENIDOS, DE SOFTWARE LIBRE: JOOMLA, DRUPAL, LIFERAY Y APLICACIÓN AL CASO PRÁCTICO PARA LA AGENCIA DE VIAJES.
Índice 1. Introducción, objetivos y justificación del proyecto.
Proyecto de Ingeniería de Software 2008
PREÁMBULO Red Digitel Equipos Router Enlace de Internet Sede A INTERNET SOLUCIONES DE INTERNET DEDICADO PREÁMBULO.
JUDITH ELIZABETH LUÉVANO AGUILAR
Características Técnicas
Características Técnicas
Proyecto Fin de Carrera E.T.S. Ingeniería Informática 26 de Septiembre de 2006 DESARROLLO DE UN COMPONENTE TECLADO ALUMNO: Fco. Javier Sánchez Ramos TUTORES:
ESCUELA POLITÉCNICA DEL EJÉRCITO
UNIVERSIDAD DE LA FF. AA. ESPE CARRERA DE INGENIERIA DE SISTEMAS PROYECTO DE TESIS : “Análisis, diseño, construcción e implementación de una Guía Interactiva.
1. Introducción 2. Planteamiento del Problema 3. Objetivo General 4. Objetivos Específicos 5. Alcances 6. Limitaciones 7. Metodología de Desarrollo.
MAESTRÍA DE GERENCIA EN SISTEMA
InfoPath Ventajas y Uso.
Aplicación Web para Informes de Asignaturas de Trabajo en Grupo
Unidad VI Documentación
DESARROLLO DE UNA APLICACIÓN MÓVIL PARA APOYAR AL TURISMO DEL CENTRO HISTÓRICO, UTILIZANDO REALIDAD AUMENTADA Y GEOLOCALIZACIÓN, PARA LA EMPRESA VLBS.
Ingeniería en Sistemas de Información Diseño de Sistemas (3K1)
Integrantes: Jorge Herrera M. Carlos Rodríguez R..
ANÁLISIS DE FACTIBILIDAD Y SELECCIÓN DE UN FRAMEWORK DE BÚSQUEDA GLOBAL PARA SU IMPLEMENTACIÓN EN EL SISTEMA GESTOR FIDUCIA FONDOS JEE DE LA EMPRESA GESTORINC.
INGENIERÍA EN SISTEMAS E INFORMÁTICA
Sprint 02 Sprint Review.
Tecnologías para el Aprendizaje
Análisis y Diseño de un Sistema Geo-referenciado para Atender las Necesidades Turísticas del Perú “TuriPerú” Expositora: Vega Marca, Jaqueline Asesor:
Servicio de sindicación
Gabriel Montañés León. RSS es el acrónimo de Really Simple Sindication (Sindicación Realmente Simple). Es un formato basado en el lenguaje XML que permite.
Especialización en Desarrollo de Software
Introducción al Lenguaje. ¿ Qué es PHP ? O Hypertext Pre-processoes (PHP) es un lenguaje de "código abierto" interpretado, de alto nivel, embebido en.
1 Clase 3 Registro de resultados Tecnología de la Comunicación I.
Trabajo de diploma Estelí, octubre del 2014 Ingeniería Agropecuaria Unidad I. El protocolo de investigación.
Facultad de Ingeniería y Tecnologías Memoria de Grado Geolocalización de documentos en el marco GIS.
Introducción al proceso de verificación y validación.
FACULTAD DE CIENCIAS COMPUTACIONALES Y TELECOMUNICACIONES ASIGNATURA:
Es una web en donde se muestran varias direcciones de páginas que contienen el tema que se está buscando. Sus orígenes se remontan al año de 1994, cuando.
BUSINESS T&G Think & Grow Uniclass Business Intelligence La solución Business Objects que analiza los procesos de su negocio.
PARÁMETROS PARA LA PRESENTACIÓN DE PROYECTOS EN SISTEMAS
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
MAESTRÍA EN GESTIÓN DE LA CALIDAD Y PRODUCTIVIDAD PROYECTO DE GRADO DE MAESTRÍA EN “CALIDAD Y PRODUCTIVIDAD” PROYECTO 1I: MODELAMIENTO DE LOS PROCESOS.
Autores: Myriam Montes, Iván Viera, Carlos Caizaguano, José Sancho
“ANALISIS, DISEÑO, DESARROLLO E IMPLANTACIÓN DE LOS MÓDULOS DE ADMINISTRACIÓN, ACADEMICO Y DOBE ORIENTADO A LA WEB PARA EL COLEGIO MILITAR Nº 10 ABDÓN.
1.ª Parte: Dónde y cómo buscar información.  Cuando se busca información sobre un tema, es necesario emplear una «estrategia de búsqueda» para optimizar.
GESTIÓN Y ADMINISTRACIÓN WEB. INTRODUCCIÓN A INTERNET Internet constituye una vía de comunicación y una fuente de recursos de información a escala mundial.
Internet Infranet Protocolo World Wide Web Hipertexto Página web Sitio web Protocolo http Código HTML Editores HTML Portal Url Navegadores: A. Internet.
Transcripción de la presentación:

Estudio comparativo de los API’s de búsqueda de Google, Yahoo y Bing para el desarrollo de aplicaciones anti plagio de textos en documentos. Director: Cesar Villacis Codirector: Marco Vergara Autor: Jorge Cárdenas

Agenda Introducción Objetivos Alcance Herramientas Metodologías Estudio comparativo de los API’s de búsqueda Prototipo de software final Conclusiones Recomendaciones

Introducción Web 2.0. Sitios web con copyright. Aplicaciones de detección de plagio en universidades y empresas. Licencias Creative Commons. Uso de los API’s de búsqueda en la detección de plagio. Breve introducción Proliferación de plagio de documentos debido al internet. Componentes de las aplicaciones anti plagio. API’s de búsqueda como componentes en aplicaciones anti plagio. Estudio comparativo de los API’s de búsqueda. Planteamiento del problema

Introducción Realidad del intento de controlar el plagio en instituciones y universidades. Motivo del estudio comparativo de los API’s de búsqueda. Como obtener el mejor API de búsqueda para el desarrollo de aplicaciones anti plagio. Un prototipo de software final para validar el estudio. Justificación El API de búsqueda de Google es el mejor API para el desarrollo de aplicaciones anti plagio de textos en documentos. Hipótesis de trabajo

Objetivos Objetivo General Realizar un estudio comparativo de los API’s de búsqueda de Google, Yahoo y Bing para el desarrollo de aplicaciones anti plagio de textos en documentos con un prototipo de software para validarlo.

Objetivos Objetivos específicos Analizar la arquitectura, funcionamiento y los fundamentos teóricos aplicados al desarrollo de aplicaciones anti plagio de textos en documentos. Estudiar los conceptos teóricos acerca de XML, JSON, el protocolo TCP y HTTP para consumir API’s de búsqueda. Investigar las principales características y funcionalidades de los API’s de búsqueda de Google, Yahoo y Bing.

Objetivos Objetivos específicos Definir los criterios comparativos teóricos basados en la documentación de los API’s de búsqueda y los criterios comparativos prácticos basados en el diseño y las pruebas de funcionalidad del prototipo básico de software. Realizar un cuadro comparativo teórico y uno práctico basados en los criterios comparativos respectivamente definidos.

Objetivos Objetivos específicos Determinar el API más adecuado para su uso en el diseño e implementación de un prototipo de software final de una aplicación anti plagio de textos en documentos basados en los resultados del estudio. Aplicar la metodología Scrum, XP con UML más el patrón de diseño MVC, para desarrollar los prototipos de software básico y final de una aplicación anti plagio de textos en documentos. Utilizar la tecnología ASP.NET MVC 3 con el lenguaje de programación C#, para desarrollar el prototipo de software final de una aplicación anti plagio de textos en documentos.

Alcance Estudio de las aplicaciones anti plagio de textos en documentos, funcionamiento y técnicas Investigación de los API’s de búsqueda de Google, Yahoo y Bing Análisis comparativo contempla dos cuadros Implementación de un prototipo de software básico y uno final Metodología del estudio

Alcance Metodologías para el desarrollo del prototipo Tecnologías de los prototipos Limitaciones de los prototipos Utilización de UML Implementación y pruebas del prototipo

Herramientas VersionOne Windows Forms ASP.NET MVC 3 Power Designer 16 Visual Studio 2010 Express Notepad++ SQL Server 2008 Express y Management Studio Internet Explorer 9 IIS 7 Windows 7

Metodologías XP Scrum Utilización en el proyecto Definición Fundamentos Documentos Definición de Sprint Beneficios XP Valores Características Actividades Fases Ventajas y Desventajas

Lenguaje de modelado UML Utilización en el proyecto Definición Aplicaciones Modelado

Scrum, XP con UML Planificación del proyecto Desarrollo de software Diseño y modelado de los prototipos

Estudio comparativo de los API’s de búsqueda Conceptos Útiles Web 2.0 API RESTful HTTP TCP XML JSON ASP.NET MVC 3 Razor Engine OAuth Diff

Estudio comparativo de los API’s de búsqueda Google Search API Custom Search API JSON/Atom Custom Search API

Estudio comparativo de los API’s de búsqueda Google Custom Search API Panel de control Definición Creación del motor de búsqueda

Estudio comparativo de los API’s de búsqueda JSON/Atom Custom Search API Función Requisitos previos Características Precios Operaciones del API Formato de datos Estilo de llamadas

Estudio comparativo de los API’s de búsqueda Yahoo BOSS API Definición Características Precios Tipos de invocación al API Tipos de servicios

Estudio comparativo de los API’s de búsqueda Bing Search API Búsqueda personalizada Características Utilización Tipos de Fuentes

Estudio comparativo de los API’s de búsqueda Ventajas Tiempos de respuesta Falsos positivos Formatos Tipos fuente Numero de resultados Estándares Desventajas Resúmenes cortos Costo Cantidad de caracteres Crawler Peticiones limitadas

Criterios de comparación teórica basados en la documentación de los API’s y experiencia de terceros Ponderación Tipos de documentos de búsqueda 30 Resumen extenso Fecha de última actualización del sitio 20 Madurez del API Tipos de formatos de respuesta Tipos de fuentes de búsqueda

Criterios de comparación teórica basados en la documentación de los API’s y experiencia de terceros Ponderación Número máximo de resultados por pagina 20 Filtrado de pornografía Lenguajes que soporta 30 Implementación de OpenSearch Autorización OAuth Sitios preferenciales de búsqueda

Criterios de comparación teórica basados en la documentación de los API’s y experiencia de terceros Ponderación Restringir sitios de búsqueda 20 Resumen libre de HTML 30 Filtrado de duplicados Costo de las peticiones Configuración del API 10 Monetización

Criterios de comparación teórica basados en la documentación de los API’s y experiencia de terceros Ponderación Tipos de fuentes de búsqueda simultáneos 20 Número aproximado de aplicaciones utilizando el API 10 Número de aplicaciones anti plagio utilizando el API o directamente el motor de búsqueda Total 470

Generación del cuadro comparativo teórico ponderado Ponderación para los criterios teóricos Ponderación/Valor Descripción 0-10 Poco relevante 11-20 Relevante 21-30 Muy relevante

Generación del cuadro comparativo teórico ponderado Peso para el detalle de los criterios teóricos Peso/Valor Descripción Nada útil 1 Poco útil 2 Útil 3 o + Muy útil

Generación del cuadro comparativo teórico ponderado Valores obtenidos Criterio Google Yahoo Bing Tipos de documentos de búsqueda 25/30 28/30 30/30 Resumen extenso 10/30 Fecha de última actualización del sitio 0/20 20/20 Madurez del API 10/20 Tipos de formatos de respuesta Tipos de fuentes de búsqueda 5/30

Generación del cuadro comparativo teórico ponderado Valores obtenidos Criterio Google Yahoo Bing Número máximo de resultados por pagina 10/20 20/20 Filtrado de pornografía Lenguajes que soporta 30/30 20/30 Implementación de OpenSearch Autorización OAuth 0/20 Sitios preferenciales de búsqueda 0/30

Generación del cuadro comparativo teórico ponderado Valores obtenidos Criterio Google Yahoo Bing Restringir sitios de búsqueda 20/20 0/20 Resumen libre de HTML 30/30 Filtrado de duplicados 0/30 Costo de las peticiones 20/30 Configuración del API 10/10 Monetización

Generación del cuadro comparativo teórico ponderado Valores obtenidos Criterio Google Yahoo Bing Tipos de fuentes de búsqueda simultáneos 0/20 20/20 Número aproximado de aplicaciones utilizando el API 10/10 5/10 Número de aplicaciones anti plagio utilizando el API o directamente el motor de búsqueda 10/20

Generación del cuadro comparativo teórico ponderado Resultados obtenidos Cálculo Google Yahoo Bing Total 350/470 368/470 330/470 Total API / 100 74,47 78,30 70,21

Criterios de comparación práctica basados en el diseño y pruebas funcionales del prototipo. Ponderación Tiempo promedio de espera en el API de búsqueda utilizando un documento de 2 párrafos en la primera ejecución 30 Tiempo promedio de espera en el API de búsqueda utilizando un documento de 2 párrafos ejecutando 3 veces seguidas el análisis comenzando desde la segunda ejecución

Criterios de comparación práctica basados en el diseño y pruebas funcionales del prototipo. Ponderación Tiempo promedio de espera en el API de búsqueda utilizando un documento de 5 párrafos en la primera ejecución 30 Tiempo promedio de espera en el API de búsqueda utilizando un documento de 5 párrafos ejecutando 3 veces seguidas el análisis comenzando desde la segunda ejecución

Tiempo necesario para el desarrollo del consumo del API de búsqueda Criterios de comparación práctica basados en el diseño y pruebas funcionales del prototipo. Criterio Ponderación Tiempo necesario para el desarrollo del consumo del API de búsqueda 25 Similitud de los sitios consultados mediante el API vs los de la web del proveedor del API 50

Criterios de comparación práctica basados en el diseño y pruebas funcionales del prototipo. Ponderación Tiempo de espera para obtener los resultados del análisis de plagio en un documento con 2 párrafos 30 Tiempo de espera para obtener los resultados del análisis de plagio en un documento con 5 párrafos 50 Total 275

Generación del cuadro comparativo práctico ponderado Ponderación para los criterios prácticos Ponderación/Valor Descripción 1-25 Relevante 26-50 Muy relevante

Generación del cuadro comparativo práctico ponderado Valores obtenidos Criterio Google Yahoo Bing Tiempo promedio de espera en el API de búsqueda utilizando un documento de 2 párrafos en la primera ejecución 10/30 20/30 Tiempo promedio de espera en el API de búsqueda utilizando un documento de 2 párrafos ejecutando 3 veces seguidas el análisis comenzando desde la segunda ejecución

Generación del cuadro comparativo práctico ponderado Valores obtenidos Criterio Google Yahoo Bing Tiempo promedio de espera en el API de búsqueda utilizando un documento de 5 párrafos en la primera ejecución 20/30 10/30 Tiempo promedio de espera en el API de búsqueda utilizando un documento de 5 párrafos ejecutando 3 veces seguidas el análisis comenzando desde la segunda ejecución 30/30

Generación del cuadro comparativo práctico ponderado Valores obtenidos Criterio Google Yahoo Bing Tiempo necesario para el desarrollo del consumo del API de búsqueda 15/25 5/25 Similitud de los sitios consultados mediante el API vs los de la web del proveedor del API 50/50 25/50 0/50

Generación del cuadro comparativo práctico ponderado Valores obtenidos Criterio Google Yahoo Bing Tiempo de espera para obtener los resultados del análisis de plagio en un documento con 2 párrafos 10/30 30/30 20/30 Tiempo de espera para obtener los resultados del análisis de plagio en un documento con 5 párrafos 50/50 30/50 10/50

Generación del cuadro comparativo práctico ponderado Resultados obtenidos Cálculo Google Yahoo Bing Total 205/275 150/275 135/275 Total API / 100 74,54 54,54 49,09

Sprint resultados del estudio comparativo Pesos del estudio comparativo teórico y práctico Estudio Peso en porcentaje Comparativo teórico 40% Comparativo práctico 60% Total 100%

Sprint resultados del estudio comparativo Resultados del estudio comparativo teórico y práctico Estudio/API 100% Google Yahoo Bing Comparativo teórico 74,47 78,30 70,21 Comparativo práctico 74,54 54,54 49,09

Sprint resultados del estudio comparativo Resultados del estudio comparativo teórico y práctico aplicando el peso respectivo con la formula 𝑌 = 𝑋∗40 100 y la fórmula 𝑌 = 𝑋∗60 100 Estudio/API 100% Google Yahoo Bing Comparativo teórico 29,79/40 31,32/40 28,08/40 Comparativo práctico 44,72/60 32,72/60 29,45/60 Total 74,51/100 64,05/100 57,54/100

Presentación del prototipo básico de software

Presentación del prototipo final de software

Conclusiones y Recomendaciones Las aplicaciones anti plagio de textos en documentos tienen una arquitectura definida en 2 componentes elementales: Fuente de comparación ya se mediante la implementación de un crawler para obtener fuentes de internet o base de datos documental; y el analizador de similitudes en textos. XML y JSON son los formatos más utilizados en servicios web REST y en los API’s de búsqueda, son sencillos de leer y escribir y ocupan poco ancho de banda. Cada API de búsqueda tiene sus particularidades por ejemplo: Yahoo y Bing pueden buscar en distintas fuentes o servicios como web, imágenes, blogs noticias; mientras que Google es más preciso en los resultados que devuelve y posee un filtro para quitar duplicados.

Conclusiones y Recomendaciones El API de Google es el mejor API para el desarrollo de aplicaciones anti plagio de textos en documentos en el ámbito práctico principalmente por sus tiempos de respuesta y porque los sitios devueltos por el API son muy aproximados a la fuente real. El API de Yahoo es el mejor API para el desarrollo de aplicaciones anti plagio de textos en documentos en el ámbito teórico ya que tiene más opciones de personalización para la búsqueda, como también más tipos de fuentes en donde buscar. Imágenes, Blogs, entre otros. El API de Bing a pesar de ser el que menores tiempos de respuesta genera y además la única gratuita, este devuelve resultados poco o nada relacionados a la fuente real, haciendo que el algoritmo de diff se demore más.

Conclusiones y Recomendaciones El mejor API para el desarrollo de aplicaciones anti plagio de textos en documentos basados en el estudio comparativo teórico y práctico es el de Google llamado Google Custom Search API Json/Atom. El algoritmo diff tiene incidencia directa en el rendimiento del aplicativo.

Conclusiones y Recomendaciones Utilizar un API de búsqueda para que un Crawler no busque en toda la Internet por fuentes de comparación. Usar JSON como formato para consumir los API’s de búsqueda ahorra más ancho de banda que XML y es más sencillo de analizar. El API de Google es una versión Labs por lo cual no se debería considerar como opción para uso en un ambiente en producción por ahora. El API de Bing es una versión gratuita momentáneamente por lo cual se debería considerar un costo por su uso si se planteara utilizar en un ambiente de producción.

Conclusiones y Recomendaciones Para mejorar el rendimiento de la aplicación se podría implementar un algoritmo diff más eficiente. Se podría implementar una versión de detección de plagio de imágenes utilizando el tipo de fuente Imagen de los API de búsqueda de Yahoo o Bing. Se podría verificar plagio en documentos en otros idiomas mediante la utilización de las opciones de personalización de la búsqueda de los API’s. Usar software para la gestión de la metodología Scrum para mayor control del proyecto.

Muchas gracias por su atención.