La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Estudio comparativo de los APIs de búsqueda de Google, Yahoo y Bing para el desarrollo de aplicaciones anti plagio de textos en documentos. Director: Cesar.

Presentaciones similares


Presentación del tema: "Estudio comparativo de los APIs de búsqueda de Google, Yahoo y Bing para el desarrollo de aplicaciones anti plagio de textos en documentos. Director: Cesar."— Transcripción de la presentación:

1 Estudio comparativo de los APIs de búsqueda de Google, Yahoo y Bing para el desarrollo de aplicaciones anti plagio de textos en documentos. Director: Cesar Villacis Codirector: Marco Vergara Autor: Jorge Cárdenas

2 Agenda Introducción Objetivos Alcance Herramientas Metodologías Estudio comparativo de los APIs de búsqueda Prototipo de software final Conclusiones Recomendaciones

3 Introducción Web 2.0. Sitios web con copyright. Aplicaciones de detección de plagio en universidades y empresas. Licencias Creative Commons. Uso de los APIs de búsqueda en la detección de plagio. Breve introducción Proliferación de plagio de documentos debido al internet. Componentes de las aplicaciones anti plagio. APIs de búsqueda como componentes en aplicaciones anti plagio. Estudio comparativo de los APIs de búsqueda. Planteamiento del problema

4 Introducción Realidad del intento de controlar el plagio en instituciones y universidades. Motivo del estudio comparativo de los APIs de búsqueda. Como obtener el mejor API de búsqueda para el desarrollo de aplicaciones anti plagio. Un prototipo de software final para validar el estudio. Justificación El API de búsqueda de Google es el mejor API para el desarrollo de aplicaciones anti plagio de textos en documentos. Hipótesis de trabajo

5 Objetivos Objetivo General Realizar un estudio comparativo de los APIs de búsqueda de Google, Yahoo y Bing para el desarrollo de aplicaciones anti plagio de textos en documentos con un prototipo de software para validarlo.

6 Objetivos Objetivos específicos Analizar la arquitectura, funcionamiento y los fundamentos teóricos aplicados al desarrollo de aplicaciones anti plagio de textos en documentos. Estudiar los conceptos teóricos acerca de XML, JSON, el protocolo TCP y HTTP para consumir APIs de búsqueda. Investigar las principales características y funcionalidades de los APIs de búsqueda de Google, Yahoo y Bing.

7 Objetivos Objetivos específicos Definir los criterios comparativos teóricos basados en la documentación de los APIs de búsqueda y los criterios comparativos prácticos basados en el diseño y las pruebas de funcionalidad del prototipo básico de software. Realizar un cuadro comparativo teórico y uno práctico basados en los criterios comparativos respectivamente definidos.

8 Objetivos Objetivos específicos Determinar el API más adecuado para su uso en el diseño e implementación de un prototipo de software final de una aplicación anti plagio de textos en documentos basados en los resultados del estudio. Aplicar la metodología Scrum, XP con UML más el patrón de diseño MVC, para desarrollar los prototipos de software básico y final de una aplicación anti plagio de textos en documentos. Utilizar la tecnología ASP.NET MVC 3 con el lenguaje de programación C#, para desarrollar el prototipo de software final de una aplicación anti plagio de textos en documentos.

9 Alcance Estudio de las aplicaciones anti plagio de textos en documentos, funcionamiento y técnicas Investigación de los APIs de búsqueda de Google, Yahoo y Bing Análisis comparativo contempla dos cuadros Implementación de un prototipo de software básico y uno final Metodología del estudio

10 Alcance Metodologías para el desarrollo del prototipo Tecnologías de los prototipos Limitaciones de los prototipos Utilización de UML Implementación y pruebas del prototipo

11 Herramientas VersionOne Windows Forms ASP.NET MVC 3 Power Designer 16 Visual Studio 2010 Express Notepad++ SQL Server 2008 Express y Management Studio Internet Explorer 9 IIS 7 Windows 7

12 Metodologías Scrum Utilización en el proyecto Definición Fundamentos Documentos Definición de Sprint Beneficios XP Utilización en el proyecto Definición Valores Características Actividades Fases Ventajas y Desventajas

13 Lenguaje de modelado UML Utilización en el proyecto Definición Aplicaciones Modelado

14 Scrum, XP con UML Scrum Planificación del proyecto XP Desarrollo de software UML Diseño y modelado de los prototipos

15 Estudio comparativo de los APIs de búsqueda Conceptos Útiles Web 2.0APIRESTfulHTTPTCPXMLJSON ASP.NET MVC 3 Razor Engine OAuthDiff

16 Estudio comparativo de los APIs de búsqueda Google Search API Custom Search API JSON/Atom Custom Search API

17 Estudio comparativo de los APIs de búsqueda Google Custom Search API Panel de control Definición Creación del motor de búsqueda

18 Estudio comparativo de los APIs de búsqueda JSON/Atom Custom Search API Función Requisitos previos CaracterísticasPrecios Operaciones del API Formato de datos Estilo de llamadas

19 Estudio comparativo de los APIs de búsqueda Yahoo BOSS API DefiniciónCaracterísticasPrecios Tipos de invocación al API Tipos de servicios

20 Estudio comparativo de los APIs de búsqueda Bing Search API Búsqueda personalizada Características Utilización Tipos de Fuentes

21 Estudio comparativo de los APIs de búsqueda Ventajas Tiempos de respuesta Falsos positivos Formatos Tipos fuente Numero de resultados Estándares Desventajas Resúmenes cortos Costo Cantidad de caracteres Crawler Peticiones limitadas

22 Criterios de comparación teórica basados en la documentación de los APIs y experiencia de terceros CriterioPonderación Tipos de documentos de búsqueda30 Resumen extenso30 Fecha de última actualización del sitio20 Madurez del API20 Tipos de formatos de respuesta20 Tipos de fuentes de búsqueda30

23 Criterios de comparación teórica basados en la documentación de los APIs y experiencia de terceros CriterioPonderación Número máximo de resultados por pagina20 Filtrado de pornografía20 Lenguajes que soporta30 Implementación de OpenSearch20 Autorización OAuth20 Sitios preferenciales de búsqueda30

24 Criterios de comparación teórica basados en la documentación de los APIs y experiencia de terceros CriterioPonderación Restringir sitios de búsqueda20 Resumen libre de HTML30 Filtrado de duplicados30 Costo de las peticiones30 Configuración del API10 Monetización10

25 Criterios de comparación teórica basados en la documentación de los APIs y experiencia de terceros CriterioPonderación Tipos de fuentes de búsqueda simultáneos 20 Número aproximado de aplicaciones utilizando el API 10 Número de aplicaciones anti plagio utilizando el API o directamente el motor de búsqueda 20 Total470

26 Generación del cuadro comparativo teórico ponderado Ponderación para los criterios teóricos Ponderación/ValorDescripción 0-10Poco relevante 11-20Relevante 21-30Muy relevante

27 Generación del cuadro comparativo teórico ponderado Peso para el detalle de los criterios teóricos Peso/ValorDescripción 0Nada útil 1Poco útil 2Útil 3 o +Muy útil

28 Generación del cuadro comparativo teórico ponderado Valores obtenidos Criterio GoogleYahooBing Tipos de documentos de búsqueda 25/3028/3030/30 Resumen extenso 10/3030/3010/30 Fecha de última actualización del sitio 0/2020/20 Madurez del API 10/2020/20 Tipos de formatos de respuesta 20/20 Tipos de fuentes de búsqueda5/3030/3025/30

29 Generación del cuadro comparativo teórico ponderado Valores obtenidos Criterio GoogleYahooBing Número máximo de resultados por pagina 10/2020/20 Filtrado de pornografía20/20 Lenguajes que soporta30/3020/3030/30 Implementación de OpenSearch20/20 Autorización OAuth20/20 0/20 Sitios preferenciales de búsqueda30/300/30

30 Generación del cuadro comparativo teórico ponderado Valores obtenidos Criterio GoogleYahooBing Restringir sitios de búsqueda 20/20 0/20 Resumen libre de HTML 30/30 Filtrado de duplicados 30/300/30 Costo de las peticiones 20/300/3030/30 Configuración del API 10/10 Monetización10/10

31 Generación del cuadro comparativo teórico ponderado Valores obtenidos Criterio GoogleYahooBing Tipos de fuentes de búsqueda simultáneos 0/2020/20 Número aproximado de aplicaciones utilizando el API 10/10 5/10 Número de aplicaciones anti plagio utilizando el API o directamente el motor de búsqueda 20/20 10/20

32 Generación del cuadro comparativo teórico ponderado Resultados obtenidos Cálculo GoogleYahooBing Total 350/470368/470330/470 Total API / ,4778,3070,21

33 Criterios de comparación práctica basados en el diseño y pruebas funcionales del prototipo. CriterioPonderación Tiempo promedio de espera en el API de búsqueda utilizando un documento de 2 párrafos en la primera ejecución 30 Tiempo promedio de espera en el API de búsqueda utilizando un documento de 2 párrafos ejecutando 3 veces seguidas el análisis comenzando desde la segunda ejecución 30

34 Criterios de comparación práctica basados en el diseño y pruebas funcionales del prototipo. CriterioPonderación Tiempo promedio de espera en el API de búsqueda utilizando un documento de 5 párrafos en la primera ejecución 30 Tiempo promedio de espera en el API de búsqueda utilizando un documento de 5 párrafos ejecutando 3 veces seguidas el análisis comenzando desde la segunda ejecución 30

35 Criterios de comparación práctica basados en el diseño y pruebas funcionales del prototipo. CriterioPonderación Tiempo necesario para el desarrollo del consumo del API de búsqueda 25 Similitud de los sitios consultados mediante el API vs los de la web del proveedor del API 50

36 Criterios de comparación práctica basados en el diseño y pruebas funcionales del prototipo. CriterioPonderación Tiempo de espera para obtener los resultados del análisis de plagio en un documento con 2 párrafos 30 Tiempo de espera para obtener los resultados del análisis de plagio en un documento con 5 párrafos 50 Total275

37 Generación del cuadro comparativo práctico ponderado Ponderación para los criterios prácticos Ponderación/ValorDescripción 1-25Relevante 26-50Muy relevante

38 Generación del cuadro comparativo práctico ponderado Valores obtenidos Criterio GoogleYahooBing Tiempo promedio de espera en el API de búsqueda utilizando un documento de 2 párrafos en la primera ejecución 10/3020/30 Tiempo promedio de espera en el API de búsqueda utilizando un documento de 2 párrafos ejecutando 3 veces seguidas el análisis comenzando desde la segunda ejecución 20/3010/3020/30

39 Generación del cuadro comparativo práctico ponderado Valores obtenidos Criterio GoogleYahooBing Tiempo promedio de espera en el API de búsqueda utilizando un documento de 5 párrafos en la primera ejecución 20/3010/3020/30 Tiempo promedio de espera en el API de búsqueda utilizando un documento de 5 párrafos ejecutando 3 veces seguidas el análisis comenzando desde la segunda ejecución 30/3020/3030/30

40 Generación del cuadro comparativo práctico ponderado Valores obtenidos Criterio GoogleYahooBing Tiempo necesario para el desarrollo del consumo del API de búsqueda 15/255/2515/25 Similitud de los sitios consultados mediante el API vs los de la web del proveedor del API 50/5025/500/50

41 Generación del cuadro comparativo práctico ponderado Valores obtenidos Criterio GoogleYahooBing Tiempo de espera para obtener los resultados del análisis de plagio en un documento con 2 párrafos 10/3030/3020/30 Tiempo de espera para obtener los resultados del análisis de plagio en un documento con 5 párrafos 50/5030/5010/50

42 Generación del cuadro comparativo práctico ponderado Resultados obtenidos Cálculo GoogleYahooBing Total 205/275150/275135/275 Total API / ,5454,5449,09

43 Sprint resultados del estudio comparativo Pesos del estudio comparativo teórico y práctico EstudioPeso en porcentaje Comparativo teórico40% Comparativo práctico60% Total100%

44 Sprint resultados del estudio comparativo Resultados del estudio comparativo teórico y práctico Estudio/API 100%GoogleYahooBing Comparativo teórico74,4778,3070,21 Comparativo práctico74,5454,5449,09

45 Sprint resultados del estudio comparativo Estudio/API 100%GoogleYahooBing Comparativo teórico 29,79/4031,32/4028,08/40 Comparativo práctico 44,72/6032,72/6029,45/60 Total74,51/10064,05/10057,54/100

46 Presentación del prototipo básico de software

47 Presentación del prototipo final de software

48 Conclusiones y Recomendaciones Conclusiones Las aplicaciones anti plagio de textos en documentos tienen una arquitectura definida en 2 componentes elementales: Fuente de comparación ya se mediante la implementación de un crawler para obtener fuentes de internet o base de datos documental; y el analizador de similitudes en textos. XML y JSON son los formatos más utilizados en servicios web REST y en los APIs de búsqueda, son sencillos de leer y escribir y ocupan poco ancho de banda. Cada API de búsqueda tiene sus particularidades por ejemplo: Yahoo y Bing pueden buscar en distintas fuentes o servicios como web, imágenes, blogs noticias; mientras que Google es más preciso en los resultados que devuelve y posee un filtro para quitar duplicados.

49 Conclusiones y Recomendaciones Conclusiones El API de Google es el mejor API para el desarrollo de aplicaciones anti plagio de textos en documentos en el ámbito práctico principalmente por sus tiempos de respuesta y porque los sitios devueltos por el API son muy aproximados a la fuente real. El API de Yahoo es el mejor API para el desarrollo de aplicaciones anti plagio de textos en documentos en el ámbito teórico ya que tiene más opciones de personalización para la búsqueda, como también más tipos de fuentes en donde buscar. Imágenes, Blogs, entre otros. El API de Bing a pesar de ser el que menores tiempos de respuesta genera y además la única gratuita, este devuelve resultados poco o nada relacionados a la fuente real, haciendo que el algoritmo de diff se demore más.

50 Conclusiones y Recomendaciones Conclusiones El mejor API para el desarrollo de aplicaciones anti plagio de textos en documentos basados en el estudio comparativo teórico y práctico es el de Google llamado Google Custom Search API Json/Atom. El algoritmo diff tiene incidencia directa en el rendimiento del aplicativo.

51 Conclusiones y Recomendaciones Recomendaciones Utilizar un API de búsqueda para que un Crawler no busque en toda la Internet por fuentes de comparación. Usar JSON como formato para consumir los APIs de búsqueda ahorra más ancho de banda que XML y es más sencillo de analizar. El API de Google es una versión Labs por lo cual no se debería considerar como opción para uso en un ambiente en producción por ahora. El API de Bing es una versión gratuita momentáneamente por lo cual se debería considerar un costo por su uso si se planteara utilizar en un ambiente de producción.

52 Conclusiones y Recomendaciones Recomendaciones Para mejorar el rendimiento de la aplicación se podría implementar un algoritmo diff más eficiente. Se podría implementar una versión de detección de plagio de imágenes utilizando el tipo de fuente Imagen de los API de búsqueda de Yahoo o Bing. Se podría verificar plagio en documentos en otros idiomas mediante la utilización de las opciones de personalización de la búsqueda de los APIs. Usar software para la gestión de la metodología Scrum para mayor control del proyecto.

53 Muchas gracias por su atención.


Descargar ppt "Estudio comparativo de los APIs de búsqueda de Google, Yahoo y Bing para el desarrollo de aplicaciones anti plagio de textos en documentos. Director: Cesar."

Presentaciones similares


Anuncios Google