La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Estudio comparativo de los API’s de búsqueda de Google, Yahoo y Bing para el desarrollo de aplicaciones anti plagio de textos en documentos. Director:

Presentaciones similares


Presentación del tema: "Estudio comparativo de los API’s de búsqueda de Google, Yahoo y Bing para el desarrollo de aplicaciones anti plagio de textos en documentos. Director:"— Transcripción de la presentación:

1 Estudio comparativo de los API’s de búsqueda de Google, Yahoo y Bing para el desarrollo de aplicaciones anti plagio de textos en documentos. Director: Cesar Villacis Codirector: Marco Vergara Autor: Jorge Cárdenas

2 Agenda Introducción Objetivos Alcance Herramientas Metodologías
Estudio comparativo de los API’s de búsqueda Prototipo de software final Conclusiones Recomendaciones

3 Introducción Web 2.0. Sitios web con copyright.
Aplicaciones de detección de plagio en universidades y empresas. Licencias Creative Commons. Uso de los API’s de búsqueda en la detección de plagio. Breve introducción Proliferación de plagio de documentos debido al internet. Componentes de las aplicaciones anti plagio. API’s de búsqueda como componentes en aplicaciones anti plagio. Estudio comparativo de los API’s de búsqueda. Planteamiento del problema

4 Introducción Realidad del intento de controlar el plagio en instituciones y universidades. Motivo del estudio comparativo de los API’s de búsqueda. Como obtener el mejor API de búsqueda para el desarrollo de aplicaciones anti plagio. Un prototipo de software final para validar el estudio. Justificación El API de búsqueda de Google es el mejor API para el desarrollo de aplicaciones anti plagio de textos en documentos. Hipótesis de trabajo

5 Objetivos Objetivo General
Realizar un estudio comparativo de los API’s de búsqueda de Google, Yahoo y Bing para el desarrollo de aplicaciones anti plagio de textos en documentos con un prototipo de software para validarlo.

6 Objetivos Objetivos específicos
Analizar la arquitectura, funcionamiento y los fundamentos teóricos aplicados al desarrollo de aplicaciones anti plagio de textos en documentos. Estudiar los conceptos teóricos acerca de XML, JSON, el protocolo TCP y HTTP para consumir API’s de búsqueda. Investigar las principales características y funcionalidades de los API’s de búsqueda de Google, Yahoo y Bing.

7 Objetivos Objetivos específicos
Definir los criterios comparativos teóricos basados en la documentación de los API’s de búsqueda y los criterios comparativos prácticos basados en el diseño y las pruebas de funcionalidad del prototipo básico de software. Realizar un cuadro comparativo teórico y uno práctico basados en los criterios comparativos respectivamente definidos.

8 Objetivos Objetivos específicos
Determinar el API más adecuado para su uso en el diseño e implementación de un prototipo de software final de una aplicación anti plagio de textos en documentos basados en los resultados del estudio. Aplicar la metodología Scrum, XP con UML más el patrón de diseño MVC, para desarrollar los prototipos de software básico y final de una aplicación anti plagio de textos en documentos. Utilizar la tecnología ASP.NET MVC 3 con el lenguaje de programación C#, para desarrollar el prototipo de software final de una aplicación anti plagio de textos en documentos.

9 Alcance Estudio de las aplicaciones anti plagio de textos en documentos, funcionamiento y técnicas Investigación de los API’s de búsqueda de Google, Yahoo y Bing Análisis comparativo contempla dos cuadros Implementación de un prototipo de software básico y uno final Metodología del estudio

10 Alcance Metodologías para el desarrollo del prototipo
Tecnologías de los prototipos Limitaciones de los prototipos Utilización de UML Implementación y pruebas del prototipo

11 Herramientas VersionOne Windows Forms ASP.NET MVC 3 Power Designer 16
Visual Studio 2010 Express Notepad++ SQL Server 2008 Express y Management Studio Internet Explorer 9 IIS 7 Windows 7

12 Metodologías XP Scrum Utilización en el proyecto Definición
Fundamentos Documentos Definición de Sprint Beneficios XP Valores Características Actividades Fases Ventajas y Desventajas

13 Lenguaje de modelado UML Utilización en el proyecto Definición
Aplicaciones Modelado

14 Scrum, XP con UML Planificación del proyecto Desarrollo de software
Diseño y modelado de los prototipos

15 Estudio comparativo de los API’s de búsqueda
Conceptos Útiles Web 2.0 API RESTful HTTP TCP XML JSON ASP.NET MVC 3 Razor Engine OAuth Diff

16 Estudio comparativo de los API’s de búsqueda
Google Search API Custom Search API JSON/Atom Custom Search API

17 Estudio comparativo de los API’s de búsqueda
Google Custom Search API Panel de control Definición Creación del motor de búsqueda

18 Estudio comparativo de los API’s de búsqueda
JSON/Atom Custom Search API Función Requisitos previos Características Precios Operaciones del API Formato de datos Estilo de llamadas

19 Estudio comparativo de los API’s de búsqueda
Yahoo BOSS API Definición Características Precios Tipos de invocación al API Tipos de servicios

20 Estudio comparativo de los API’s de búsqueda
Bing Search API Búsqueda personalizada Características Utilización Tipos de Fuentes

21 Estudio comparativo de los API’s de búsqueda
Ventajas Tiempos de respuesta Falsos positivos Formatos Tipos fuente Numero de resultados Estándares Desventajas Resúmenes cortos Costo Cantidad de caracteres Crawler Peticiones limitadas

22 Criterios de comparación teórica basados en la documentación de los API’s y experiencia de terceros
Ponderación Tipos de documentos de búsqueda 30 Resumen extenso Fecha de última actualización del sitio 20 Madurez del API Tipos de formatos de respuesta Tipos de fuentes de búsqueda

23 Criterios de comparación teórica basados en la documentación de los API’s y experiencia de terceros
Ponderación Número máximo de resultados por pagina 20 Filtrado de pornografía Lenguajes que soporta 30 Implementación de OpenSearch Autorización OAuth Sitios preferenciales de búsqueda

24 Criterios de comparación teórica basados en la documentación de los API’s y experiencia de terceros
Ponderación Restringir sitios de búsqueda 20 Resumen libre de HTML 30 Filtrado de duplicados Costo de las peticiones Configuración del API 10 Monetización

25 Criterios de comparación teórica basados en la documentación de los API’s y experiencia de terceros
Ponderación Tipos de fuentes de búsqueda simultáneos 20 Número aproximado de aplicaciones utilizando el API 10 Número de aplicaciones anti plagio utilizando el API o directamente el motor de búsqueda Total 470

26 Generación del cuadro comparativo teórico ponderado
Ponderación para los criterios teóricos Ponderación/Valor Descripción 0-10 Poco relevante 11-20 Relevante 21-30 Muy relevante

27 Generación del cuadro comparativo teórico ponderado
Peso para el detalle de los criterios teóricos Peso/Valor Descripción Nada útil 1 Poco útil 2 Útil 3 o + Muy útil

28 Generación del cuadro comparativo teórico ponderado
Valores obtenidos Criterio Google Yahoo Bing Tipos de documentos de búsqueda 25/30 28/30 30/30 Resumen extenso 10/30 Fecha de última actualización del sitio 0/20 20/20 Madurez del API 10/20 Tipos de formatos de respuesta Tipos de fuentes de búsqueda 5/30

29 Generación del cuadro comparativo teórico ponderado
Valores obtenidos Criterio Google Yahoo Bing Número máximo de resultados por pagina 10/20 20/20 Filtrado de pornografía Lenguajes que soporta 30/30 20/30 Implementación de OpenSearch Autorización OAuth 0/20 Sitios preferenciales de búsqueda 0/30

30 Generación del cuadro comparativo teórico ponderado
Valores obtenidos Criterio Google Yahoo Bing Restringir sitios de búsqueda 20/20 0/20 Resumen libre de HTML 30/30 Filtrado de duplicados 0/30 Costo de las peticiones 20/30 Configuración del API 10/10 Monetización

31 Generación del cuadro comparativo teórico ponderado
Valores obtenidos Criterio Google Yahoo Bing Tipos de fuentes de búsqueda simultáneos 0/20 20/20 Número aproximado de aplicaciones utilizando el API 10/10 5/10 Número de aplicaciones anti plagio utilizando el API o directamente el motor de búsqueda 10/20

32 Generación del cuadro comparativo teórico ponderado
Resultados obtenidos Cálculo Google Yahoo Bing Total 350/470 368/470 330/470 Total API / 100 74,47 78,30 70,21

33 Criterios de comparación práctica basados en el diseño y pruebas funcionales del prototipo.
Ponderación Tiempo promedio de espera en el API de búsqueda utilizando un documento de 2 párrafos en la primera ejecución 30 Tiempo promedio de espera en el API de búsqueda utilizando un documento de 2 párrafos ejecutando 3 veces seguidas el análisis comenzando desde la segunda ejecución

34 Criterios de comparación práctica basados en el diseño y pruebas funcionales del prototipo.
Ponderación Tiempo promedio de espera en el API de búsqueda utilizando un documento de 5 párrafos en la primera ejecución 30 Tiempo promedio de espera en el API de búsqueda utilizando un documento de 5 párrafos ejecutando 3 veces seguidas el análisis comenzando desde la segunda ejecución

35 Tiempo necesario para el desarrollo del consumo del API de búsqueda
Criterios de comparación práctica basados en el diseño y pruebas funcionales del prototipo. Criterio Ponderación Tiempo necesario para el desarrollo del consumo del API de búsqueda 25 Similitud de los sitios consultados mediante el API vs los de la web del proveedor del API 50

36 Criterios de comparación práctica basados en el diseño y pruebas funcionales del prototipo.
Ponderación Tiempo de espera para obtener los resultados del análisis de plagio en un documento con 2 párrafos 30 Tiempo de espera para obtener los resultados del análisis de plagio en un documento con 5 párrafos 50 Total 275

37 Generación del cuadro comparativo práctico ponderado
Ponderación para los criterios prácticos Ponderación/Valor Descripción 1-25 Relevante 26-50 Muy relevante

38 Generación del cuadro comparativo práctico ponderado
Valores obtenidos Criterio Google Yahoo Bing Tiempo promedio de espera en el API de búsqueda utilizando un documento de 2 párrafos en la primera ejecución 10/30 20/30 Tiempo promedio de espera en el API de búsqueda utilizando un documento de 2 párrafos ejecutando 3 veces seguidas el análisis comenzando desde la segunda ejecución

39 Generación del cuadro comparativo práctico ponderado
Valores obtenidos Criterio Google Yahoo Bing Tiempo promedio de espera en el API de búsqueda utilizando un documento de 5 párrafos en la primera ejecución 20/30 10/30 Tiempo promedio de espera en el API de búsqueda utilizando un documento de 5 párrafos ejecutando 3 veces seguidas el análisis comenzando desde la segunda ejecución 30/30

40 Generación del cuadro comparativo práctico ponderado
Valores obtenidos Criterio Google Yahoo Bing Tiempo necesario para el desarrollo del consumo del API de búsqueda 15/25 5/25 Similitud de los sitios consultados mediante el API vs los de la web del proveedor del API 50/50 25/50 0/50

41 Generación del cuadro comparativo práctico ponderado
Valores obtenidos Criterio Google Yahoo Bing Tiempo de espera para obtener los resultados del análisis de plagio en un documento con 2 párrafos 10/30 30/30 20/30 Tiempo de espera para obtener los resultados del análisis de plagio en un documento con 5 párrafos 50/50 30/50 10/50

42 Generación del cuadro comparativo práctico ponderado
Resultados obtenidos Cálculo Google Yahoo Bing Total 205/275 150/275 135/275 Total API / 100 74,54 54,54 49,09

43 Sprint resultados del estudio comparativo
Pesos del estudio comparativo teórico y práctico Estudio Peso en porcentaje Comparativo teórico 40% Comparativo práctico 60% Total 100%

44 Sprint resultados del estudio comparativo
Resultados del estudio comparativo teórico y práctico Estudio/API 100% Google Yahoo Bing Comparativo teórico 74,47 78,30 70,21 Comparativo práctico 74,54 54,54 49,09

45 Sprint resultados del estudio comparativo
Resultados del estudio comparativo teórico y práctico aplicando el peso respectivo con la formula 𝑌 = 𝑋∗ y la fórmula 𝑌 = 𝑋∗60 100 Estudio/API 100% Google Yahoo Bing Comparativo teórico 29,79/40 31,32/40 28,08/40 Comparativo práctico 44,72/60 32,72/60 29,45/60 Total 74,51/100 64,05/100 57,54/100

46 Presentación del prototipo básico de software

47 Presentación del prototipo final de software

48 Conclusiones y Recomendaciones
Las aplicaciones anti plagio de textos en documentos tienen una arquitectura definida en 2 componentes elementales: Fuente de comparación ya se mediante la implementación de un crawler para obtener fuentes de internet o base de datos documental; y el analizador de similitudes en textos. XML y JSON son los formatos más utilizados en servicios web REST y en los API’s de búsqueda, son sencillos de leer y escribir y ocupan poco ancho de banda. Cada API de búsqueda tiene sus particularidades por ejemplo: Yahoo y Bing pueden buscar en distintas fuentes o servicios como web, imágenes, blogs noticias; mientras que Google es más preciso en los resultados que devuelve y posee un filtro para quitar duplicados.

49 Conclusiones y Recomendaciones
El API de Google es el mejor API para el desarrollo de aplicaciones anti plagio de textos en documentos en el ámbito práctico principalmente por sus tiempos de respuesta y porque los sitios devueltos por el API son muy aproximados a la fuente real. El API de Yahoo es el mejor API para el desarrollo de aplicaciones anti plagio de textos en documentos en el ámbito teórico ya que tiene más opciones de personalización para la búsqueda, como también más tipos de fuentes en donde buscar. Imágenes, Blogs, entre otros. El API de Bing a pesar de ser el que menores tiempos de respuesta genera y además la única gratuita, este devuelve resultados poco o nada relacionados a la fuente real, haciendo que el algoritmo de diff se demore más.

50 Conclusiones y Recomendaciones
El mejor API para el desarrollo de aplicaciones anti plagio de textos en documentos basados en el estudio comparativo teórico y práctico es el de Google llamado Google Custom Search API Json/Atom. El algoritmo diff tiene incidencia directa en el rendimiento del aplicativo.

51 Conclusiones y Recomendaciones
Utilizar un API de búsqueda para que un Crawler no busque en toda la Internet por fuentes de comparación. Usar JSON como formato para consumir los API’s de búsqueda ahorra más ancho de banda que XML y es más sencillo de analizar. El API de Google es una versión Labs por lo cual no se debería considerar como opción para uso en un ambiente en producción por ahora. El API de Bing es una versión gratuita momentáneamente por lo cual se debería considerar un costo por su uso si se planteara utilizar en un ambiente de producción.

52 Conclusiones y Recomendaciones
Para mejorar el rendimiento de la aplicación se podría implementar un algoritmo diff más eficiente. Se podría implementar una versión de detección de plagio de imágenes utilizando el tipo de fuente Imagen de los API de búsqueda de Yahoo o Bing. Se podría verificar plagio en documentos en otros idiomas mediante la utilización de las opciones de personalización de la búsqueda de los API’s. Usar software para la gestión de la metodología Scrum para mayor control del proyecto.

53 Muchas gracias por su atención.


Descargar ppt "Estudio comparativo de los API’s de búsqueda de Google, Yahoo y Bing para el desarrollo de aplicaciones anti plagio de textos en documentos. Director:"

Presentaciones similares


Anuncios Google