Detección de bots en reportes estadísticos

Slides:



Advertisements
Presentaciones similares
Primer nivel – Piramide SEO
Advertisements

INTEGRANTES: NOVOA TAFUR, EINSTEIN MANUEL RODRÍGUEZ POSTIGO, JULIO CESAR.
OCTUBRE OBJETIVOS: Mejorar la gestión de los servicios de información para satisfacer las necesidades de los usuarios facilitándoles la consulta.
CMS ABIERTO Y CMS CERRADO MARÍA CAMILA MUÑOZ U TATIANA ARIAS CHAPARRO U CAROLINA FIGUEROA U
Extracción, Almacenamiento, Búsqueda, y Análisis de Información en la Web Acotada por Dominios de Interés Dr. Víctor J. Sosa-Sosa M.C. Jaime I. López-Veyna.
PARCES (Programa de acompañamiento en pro del rendimiento académico en la educación superior) Autor. Consultor. Ignasi Lorente Puchades TFM Solución móvil.
PRESENTACIÓN DRUPAL Versión 0.1 Por Ricardo Chang.
Trabajo de Dokeos Realizado por: Katherine Mayorga.
JIMENA CASTAÑEDA 5º AÑO “B”.  Internet es un conjunto descentralizado de redes de comunicación interconectadas que utilizan la familia de protocolos.
La mercadotecnia tal y como la conocemos no es la misma que conocíamos hace algunos años y tampoco será la misma en un futuro próximo. Desde la llegada.
COMUNICACIÓN Y TIC Ángela Espinosa Hayler Peñaranda.
Dayanna Marcela Verjel Carrascal Sofía Suárez Suárez.
Páginas web de información confiable. 1. Página web información confiable.
BASE DE DATOS EN LA WEB POR- OSIRYS MARCIAGA JESUS NIETO.
ALFRESCO.
Tema: Análisis de una red trocal multiservicio para encriptación de información sobre MPLS basada en el estándar IETF con el protocolo GETVPN Autor:
Conferencia 2. Herramientas generales y especializadas de Internet
Google Play Store o Play Store para abreviar, es la aplicación que la gente con tabletas y smartphones Android utiliza para descargar juegos, aplicaciones.
La infraestructura colaborativa de gvSIG
MBA – Universidad Columbia
Biblioteca Virtual, Repositorio Institucional y Observatorio Tecnológico Objetivo: Recuperar y gestionar toda la documentación científica, revistas, tesis,
GESTIÓN DEL RIESGO E INGENERÍA DE SOFTWARE BASADO EN COMPONENTES
INTEGRACIÓN DE LAS TECNOLOGÍAS EN SISTEMAS
Presentación de la plataforma de soporte a las webs de los departamentos en entorno DRUPAL
Gestión de Polibuscador el portal de la Biblioteca Digital de la Universidad Politécnica de Valencia Inmaculada Ribes Llopes 3ª Reunión Expania (Grupo.
Flujo de Marketing Digital Instapage Instapage en Zarita Instape sirve para crear y publicar un sitio web sencillo de una página en solo un instante.
ACCESIBILIDAD WEB.
Manejo Básico de Google Drive
Tema DISEÑO E IMPLANTACIÓN DE UNA SOLUCIÓN INFORMÁTICA INTEGRADA QUE APOYE AL DESARROLLO DEL PENSAMIENTO CRÍTICO EN LA CARRERA DE INGENIERÍA EN SISTEMAS.
REPOSITORIO WEB.
BÚSQUEDA DE INFORMACIÓN EN LA WEB
Universidad Autónoma de Bucaramanga
MOPROSOFT.
Objetivos General y específico:
Inscripción Programa de investigación:
Unidad I Herramientas de la web 2.0.
Ana Fernanda Rodríguez Hoyos
PAGINA WEB Una página web, o página electrónica, o página digital, o ciberpágina es un documento o información electrónica capaz de contener texto, sonido,
¿Quiénes deben publicar?
Gestión del Sistema y Servicios de Salud 7 Fundamentos de Planificación: Planificación por objetivos Elaboración de Proyectos: el marco lógico Julio Jaramillo.
La Web Semántica Equipo: 3 Efrain Hernandez Salazar
MR Herramienta de utilidad para detectar oportunidades de mejora en la calidad y ahorros de energía eléctrica. Adquisición, visualización y administración.
Universidad Nacional Autónoma de Honduras
A3 de solución de problemas A3 de propuesta
Gabriel Alonso Navarro Altamar
DISEÑO WEB Sesion 1.
Consolidación de la Red Mexicana de Repositorios Institucionales – REMERI e iniciativas de desarrollo y colaboración MTE Rosalina Vázquez Tapia Directora.
DEFINICIÓN DE CONTABILIDAD
Diseño y propuesta de implementación de una intranet como herramienta para la gestión de información en la Oficina Central de CUPET.
Servicios Virtuales al Estudiante
UNA CONTRIBUCIÓN A LA GESTIÓN DE LA INFORMACIÓN DE CIENCIA, TECNOLOGÍA E INNOVACIÓN Universidad de las Ciencias Informáticas Centro de Gobierno Electrónico.
Tema 4 SRI Vicente Sánchez Patón I.E.S Gregorio Prieto
Benemérita Universidad Autónoma de San Luis Potosí (UASLP), México
PhD. Alejandro Uribe Tirado Profesor-Investigador Escuela Interamericana de Bibliotecología Grupo Información, Conocimiento y Sociedad Universidad.
Servidor de Reportes basado en Tecnología Java y XML
Presentación de resultado de proyectos financiados
Oscar Navarrete J. Jorge Gutiérrez A.
Oscar Navarrete J. Jorge Gutiérrez A.
Hexa-Middleware ¿Qué es?
Importancia de los sistemas de información administrativo
ANÁLISIS DE LA SITUACIÓN DE SALUD
Taller OcenDocs Latinoamericano
Docente: Valerio Herrera, Luis E. Experiencia Formativa III Semana 4: Servidores Web.
RANKING WEBOMETRICS VISIBILIDAD SITIOS WEB DE UNIVERSIDADES DEL MUNDO Producción académica e información general en la web de la Universidad Icesi Posiciones.
ARQUITECTURA DE UN NAVEGADOR WEB ESTO SE REFIERE AL SOFTWARE O HARDWARE? Un navegador web es un programa que codifica y decodifica una serie de reglas,
Propuesta de objetivos
Análisis de Procesos Informáticos Ing. Renato Toasa  Daniel Quintana  Leonardo Herrera  Fernando Moya.
Instrucciones Todos los proyectos deben completar e ingresar esta presentación como parte de la postulación, dado que con esta se presenta el proyecto.
PROPUESTA PROYECTO WEB “CONTROL DE SERVICIO CFE MARIA LOMBARDO”
Las Tecnologías de la Información y la Comunicación (TIC) son todos aquellos recursos, herramientas y programas que se utilizan para procesar, administrar.
Transcripción de la presentación:

Detección de bots en reportes estadísticos Benemérita Universidad Autónoma de San Luis Potosí (UASLP), México congresos.unlp.edu.ar/biredial-istec Detección de bots en reportes estadísticos Juan Manuel Catá Ariel J. Lira Marisa R. De Giusti Esta obra está bajo una Licencia Creative Commons Atribución-CompartirIgual 4.0 Internacional.

El problema Los repositorios digitales concentran una gran cantidad de enlaces entrantes y muchos contenidos de calidad por lo que resultan de mucho interés para los bots que navegan la World Wide Web

¿Qué es un bot? Un bot es un software autónomo capaz de llevar a cabo tareas concretas e imitar el comportamiento humano.

Objetivos típicos de los bots Aceptables Descarga e indexación de páginas y recursos: buscadores Análisis de links: visibilidad, SEO Descarga de archivos: para análisis de las publicaciones, detección de plagio, etc. No aceptables Buscan acceder a información protegida Encontrar vulnerabilidades publicar datos no autorizados Ads

Comportamiento de bots Correcto se identifican como bots en el userAgent - (Mozilla/5.0 (compatible; robot de Google/2.1; +http://www.google.com/bot.html)) respetan robots.txt no realizan más de 1 acceso en simultáneo Consecuencias Permiten difundir los contenidos que el sitio desea aumenta el impacto

Comportamiento de bots Incorrecto no cumplen con las reglas mencionadas Consecuencias degradan la performance ensucian las estadísticas

Ejemplos Bots conocidos Bots desconocidos Contenidos Googlebot, Bing, Baidu, Yahoo Slurp. Visibilidad Majestic SEO, Ahrefs, entre otros Otras aplicaciones específicas Bots desconocidos buscadores pequeños

Accesos de bots Gráfico extraído del artículo “2015 Bot Traffic Report: Humans Take Back the Web, Bad Bots Not Giving Any Ground” https://www.incapsula.com/blog/bot-traffic-report-2015.html

Influencia de los bots en las estadísticas Los accesos al sistema de bots no identificados generan cientos y miles de registros de accesos espurios que llevan a estadísticas poco confiables. Si los datos estadísticos no son confiables, se pierde el potencial que tienen las estadísticas del repositorio como herramienta de gestión

Estadísticas de un repositorio Cantidad de accesos a un recurso Documentos más descargados Acceso a los recursos de una colección Distribución de accesos por país de origen Tasa de accesos por fecha Fechas con mayor cantidad de accesos entre otras

Estadísticas en DSpace DSpace incluye, desde la versión 1.6, un módulo de estadísticas: registrar todos los accesos al sistema, tanto de usuarios normales como de bots basado en Apache Solr

Detección de bots en DSpace Actualmente DSpace cuenta con mecanismos para identificar los bots que acceden al repositorio Mediante listas de ip limitado desactualizado Mediante listas de user-agent Hay bots que no se identifican a través del user agent

Solución propuesta Desarrollar una herramienta que detecte patrones de comportamiento de bots a partir del análisis de los accesos registrados y que permita: filtrar accesos existentes de sistemas automáticos Mantener la información obtenida para considerar los accesos futuros La herramienta debe: implementar una heurística de detección basada en reglas ser configurable integrable a DSpace

Reglas Estas reglas analizan los registros de acceso en busca de patrones de comportamiento sospechosos. Cada una de estas reglas implementan un criterio específico de búsqueda. Algunos ejemplos: Cantidad de accesos durante un período de tiempo Análisis de agentes de usuarios direcciones IP pertenecientes a la misma subred

Diseño modular La ventaja de utilizar este modelo es la adaptabilidad y extensibilidad que provee Agregar o quitar reglas del conjunto de reglas que serán ejecutadas Crear e integrar nuevas reglas que se adapten a las necesidades del repositorio

Configurable No todos los repositorios son iguales: Volúmenes distintos de información Flujos distintos de la información Accesos de distintos tipos de bots Por lo que la definición de la heurística debe ser un proceso extremadamente dinámico que permita ajustar los parámetros de búsqueda de las reglas.

Integrado a DSpace El prototipo de la herramienta funciona como una extensión del módulo de gestión de estadísticas que provee DSpace, por lo que si es aceptado por la comunidad de desarrollo, estaría disponible en cualquier instalación de DSpace, esto, sumado a la capacidad de configuración, lo convierten en una herramienta de suma utilidad para cualquier repositorio implementado con DSpace

Resultados preliminares Se realizaron pruebas preliminares sobre el repositorio CIC-digital de la comisión nacional de investigaciones científicas de la provincia de Buenos Aires (Argentina) Se recopilaron los datos de accesos a ítems del repositorio entre julio del 2015 y julio del 2016 Se ejecutó la herramienta buscando IP’s que hayan realizado más de 50 accesos a ítems por hora, en ese período. Posteriormente, las IP’s detectadas fueron marcadas como bot y se volvieron a recopilar los datos del paso 1 filtrando las IP detectadas en el paso 2

Impacto en las estadísticas https://docs.google.com/spreadsheets/d/18yd6OW3iGx_IhlWrUm9NeOQVHy19p7P- 9uUeNItu7NY/edit#gid=0

Conclusiones y trabajos futuros Los resultados preliminares convalidan el sentido del desarrollo y obligan a continuar con el refinamiento de la herramienta, particularmente para reducir la cantidad de falsos negativos que aún escapan al detector y hacer un análisis más exhaustivo de los resultados obtenidos para prevenir falsos positivos. A futuro: más y mejores reglas bloqueo automático de bots maliciosos a partir de otras herramientas como fail2ban mejores reportes

Juan Manuel Cata, juan@sedici.unlp.edu.ar Ariel J. Lira, alira@sedici.unlp.edu.ar Marisa R. De Giusti, marisa.degiusti@sedici.unlp.edu.ar