Prof. Manuel Blázquez Ochando

Slides:



Advertisements
Presentaciones similares
INTEGRANTES: NOVOA TAFUR, EINSTEIN MANUEL RODRÍGUEZ POSTIGO, JULIO CESAR.
Advertisements

Nombre de la Institución evaluada: Dirección de Previsión de Carabineros DIPRECA URL de su sitio web: boton=Hom.
CMS ABIERTO Y CMS CERRADO MARÍA CAMILA MUÑOZ U TATIANA ARIAS CHAPARRO U CAROLINA FIGUEROA U
Gestión comercial y servicio de atención al cliente Unidad 2. Conocimiento del mercado Gestión comercial y servicio de atención al cliente Unidad 2. Conocimiento.
“ SISTEMA DE INFORMACIÓN GEOGRAFICA PARA EL CONTROL Y SEGUIMIENTO DE PROYECTOS, UNA APLICACIÓN GVSIG” Raul Fernando Molina Rodriguez 30 de septiembre del.
INFLUENCIA DE LA MODERNIZACION TECNOLOGICA EN LOS SISTEMAS DE MANTENIMIENTO DE SEÑALIZACION EN LA C.A. METRO DE CARACAS JOHAN PERDOMO C.I.: CARACAS,
COMUNICACIÓN Y TICS Károl Fernanda Barragán M. Jennylith Dayana Ardila P. Wendy Paola Pinto F.
La web es un medio relativamente joven, y en constante evolución. En poco tiempo hemos pasado de una web estática, en la que el usuario tenía un papel.
COMUNICACIÓN Y TIC Ángela Espinosa Hayler Peñaranda.
Nuevas Tecnologías Conveniencias e Inconveniencias Educativas.
CiviDay México.
Sistema Online de Firma Electrónica
Sistema Nacional de Información Básica en Materia de Salud - SINBA
TECNOLOGÍAS DE LA INFORMACIÓN Y DE LA COMUNICACIÓN (TIC’S)
Calidad de metadatos y visibilidad académica en repositorios institucionales de universidades peruanas ALHUAY-QUISPE, Joel* ; QUISPE-RIVEROS, David**
Repositorio digital de Tesis
Enfoques Modernos de Enseñanza
Visual ITP y Web ITP Raquel Sánchez Díaz Universidad de Salamanca.
SERVIDOR ESCUELA LINUX
Presentación de la plataforma de soporte a las webs de los departamentos en entorno DRUPAL
Gestión de Polibuscador el portal de la Biblioteca Digital de la Universidad Politécnica de Valencia Inmaculada Ribes Llopes 3ª Reunión Expania (Grupo.
Tema DISEÑO E IMPLANTACIÓN DE UNA SOLUCIÓN INFORMÁTICA INTEGRADA QUE APOYE AL DESARROLLO DEL PENSAMIENTO CRÍTICO EN LA CARRERA DE INGENIERÍA EN SISTEMAS.
LOS DIFERENTES LENGUAJES DE PROGRAMACION PARA LA WEB
Sistema de Bibliotecas y de información
La representación técnica a lo largo de la historia
Portales de revistas digitales
Jornadas Temas Actuales en Bibliotecología
Suite de herramientas de inteligencia para Android
La Receta para Buscar… GOOGLE.
Conceptos y definición básicos
Miguel García Ruiz Jackeline Giraldo Urrea
Inscripción Programa de investigación:
Unidad I Herramientas de la web 2.0.
UNIDAD I: INTRODUCCIÓN AL DISEÑO WEB.
Diseño y Edición de Paginas web
Resultados del proyecto LexCuba para contribuir al acceso abierto a documentos jurídicos vitales para especialistas y población.
Para reflexionar ¿Cuál es la importancia de la información para la investigación y el desarrollo de la innovación técnica? ¿Cuáles son las principales.
Actividad 3 Herramienta tarea
PROVEEDOR DATA WAREHOUSE TERADATA
Parte 4 HTML.
Las revistas de Biblioteconomía y Documentación en Internet
PRESENTADO POR: IVONNE HERNANDEZ
CCAPA Tecnologías de Información SAC Ref.: Presentación OSA-ERP
CCAPA Tecnologías de Información SAC Ref.: Presentación OSA-ERP
Conocimiento de la nueva moneda virtual Bitcoin entre los estudiantes de Ciencias Administrativas de la Universidad Interamericana de Panamá. Integrantes:
FUNDAMENTOS DE PROGRAMACION EN ENTORNO WEB. Rodrigo Cabello Ing. Informático Director de proyectos Think – Ideas in Motion FUNDAMENTOS.
APLICACIÓN DE NUEVAS TECNOLOGÍAS EN LA CONSERVACIÓN Y ANÁLISIS DEL PATRIMONIO CULTURAL Herramientas para la Investigación.
Base de Datos TECNICATURA SUPERIOR EN INFORMÁTICA PROF.: GUANUCO, JUAN CARLOS.
DISEÑO WEB Sesion 1.
Unix es un sistema operativo de tiempo compartido, controla los recursos de una computadora y los asigna entre los usuarios. Permite a los usuarioscorrer sus programas.
Consolidación de la Red Mexicana de Repositorios Institucionales – REMERI e iniciativas de desarrollo y colaboración MTE Rosalina Vázquez Tapia Directora.
Comprensión y obtención de los requerimientos
Page 1. Page 2 Los lineamientos básicos que debe contener las paginas HTML.
CONCEPTES AVANÇATS DE SISTEMES OPERATIUS Departament d’Arquitectura de Computadors (Seminaris de CASO) Autors Distribuciones de LINUX Raúl González Martínez.
La representación técnica a lo largo de la historia
Gestión Estadística Institucional: Competencias para el futuro
Entendiendo PHP En diseño de software en el Front-end es la parte del software que interactúa con los usuarios. Es la persona que se encarga del diseño.
2.1. Estructura de análisis del mercado UNIDAD 2 Estudio de mercado.
Conceptos relacionados con la interfaz gráfica Taller de diseño página Web.
¡Bienvenido! “Ponemos la mejor Tecnología al alcance de TI”
Importancia de los sistemas de información administrativo
BASE DE DATOS (Parte N°1) Docente: Lic. David I. López Pérez.
La programación de objetivos didácticos en Terminótica
Estrategias de búsquedas y uso de bases de datos
modalidades de la investigación según diseño y tipo
Base de datos años  En la década de los años 80’, se desarrolló el SQL, un lenguaje de consultas que permite consultar, valga la redundancia,
Docente: Lic. María Machicado Estudiantes: Ingrith Mariela Benito Astorga Jasmine Karen Espinoza Tellez.
APRENDIZAJE CLAVE DEL CAMPO PROFESIONAL INFORMÁTICA EJESCOMPONENTESCONTENIDOS CENTRALES  Dar respuesta acorde a los cambios tecnológicos  Aportar mano.
Transcripción de la presentación:

Prof. Manuel Blázquez Ochando Desarrollo tecnológico y documental del webcrawler Mbot: prueba de análisis web de la universidad española Prof. Manuel Blázquez Ochando manuel.blazquez@pdi.ucm.es http://www.mblazquez.es/ “Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013”

Planteamiento y objetivos No existen herramientas de webcrawling realmente sencillas de utilizar , gestionar e instalar En el año 2010 comienza el desarrollo del webcrawler Mbot Mínimos requerimientos de instalación, fácil configuración y ejecución Organización de la información tabulada en BD para su empleo extensivo en investigaciones cibermétricas En el año 2011 se termina la primera versión de Mbot y se inicia su experimentación “Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013”

Hitos de la experimentación con Mbot 2011-02-28. Primeras pruebas del Mbot webcrawler http://www.mblazquez.es/documents/articulo-pruebas1-mbot.html Demostración pública en línea Análisis de repositorios institucionales, universidades, c. investigación 2011-06-30. Análisis de la web y usabilidad: prueba de funcionamiento de Mbot webcrawler. En: X Congreso del Capítulo español de ISKO. Análisis completo del sitio web de NASA y ESA Más de 60.000 enlaces, 3 niveles de profundidad, ratio de extracción de 1,3 páginas por segundo, 15.000 imágenes, 500 canales de sindicación, obtenidos en 1 hora y media de análisis “Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013”

2012-11-30. Análisis webmétrico de los medios de comunicación brasileños: prensa, radio y televisión. En: I Seminario Hispano Brasileño de Biblioteconomía y Documentación 1.315 medios de comunicación, más de 2 millones de enlaces, 2 niveles de profundidad, 4000 canales de sindicación especializados, creación del primer mapa de la web brasileña de medios de comunicación 2013-05-24. FESABID 2013. Prueba de análisis web de la universidad española Muestra de 147 sedes universitarias analizadas 270.000 enlaces únicos 1GB de datos “Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013”

Especificaciones de Mbot Obtener datos: enlaces, metadatos, canales de sindicación, imágenes, documentos, archivos multimedia, imágenes, código fuente, texto completo depurado. Almacenamiento: Base de datos SQL y archivos tabulados Rastreo de páginas vinculadas con un máximo de 10 niveles de análisis Análisis de la web orientado al establecimiento de rankings, la usabilidad y accesibilidad Análisis automático de las macroestructuras web. Análisis de grafo automáticos “Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013”

Un vistazo a Mbot

Nº de recursos analizados Análisis de la web universitaria española Nivel de profundidad del análisis Nº de recursos analizados Nº de enlaces únicos Sitios web Páginas web Tamaño en MB Nivel 1 147 8.108 1.544 6.564 5 Nivel 2 6.479 41.031 5.165 35.866 109.7 Nivel 3 30.425 220.794 19.365 201.429 920.2 Total 37.051 269.933 26.074 243.859 1034.9 Tiempos de ejecución Inicio 2012-10-12T12:30:36+01:00 - Fin 2012-10-13T18:11:10+01:00 “Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013”

Porcentaje de enlaces únicos Análisis de dominios ES (45,21%), EDU (29,60%) y COM (14,97%) Dominios .es .de .uk .us .com .org .net .edu Nº sitios 3.645 73 146 7 2.838 1.207 335 1.075 Nº páginas 118.385 819 686 4.438 37.573 4.965 6.785 78.814 Porcentaje de enlaces únicos 45,21% 0,33% 0,31% 1,65% 14,97% 2,29% 2,64% 29,60% “Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013”

Porcentaje relativo a formatos web Tipología de páginas web según su programación Equilibrio entre la web estática y dinámica Se emplea más la programación en PHP que ASP a la hora de elaborar páginas web en la universidad Práctica inexistencia de web semántica en formato RDF Formato .html .xml .rdf .rss .php .asp Nº de enlaces 59.267 166 2.811 38.512 22.202 Porcentaje relativo a formatos web Enlaces a páginas estáticas 49,47% Enlaces a páginas dinámicas 50,53%

Macroestructura de la web Componente Porcentaje MAIN 9,60% IN 0,24% OUT 2,84% ISLAND 84,41% TENTACLE IN 0,12% TENTACLE OUT 2,55% TUNNEL 0,21% “Desarrollo tecnológico y documental del webcrawler Mbot, Manuel Blázquez Ochando. 24 de mayo de 2013”

Mapa web de la universidad española http://www.youtube.com/user/mblazquez7channel

Conclusiones El programa webcrawler Mbot logra efectuar análisis webmétricos y cibermétricos, que incluyen el análisis básico de los componentes de la macroestrutura de la web, su composición, características y formatos de forma sencilla y completamente automática sin necesidad de efectuar posteriores procesos de tabulación.  Se demuestra la necesidad de seguir mejorando la efectividad del programa, ya que analiza el 90% del total de enlaces únicos que se recopilan. Este efecto puede ser debido a fallos en la composición de los enlaces relativos más complejos. La herramienta hace posible los micro-estudios de la web, lo que ayudará a democratizar y ampliar el uso de los webcrawlers para todos los profesionales de la información, sin un conocimiento exhaustivo en las metrías, proporcionando información ya depurada y procesada, con la que conocer mejor el crecimiento de la web por sectores ó áreas de conocimiento.

El futuro de Mbot, será la consolidación del interfaz gráfico de control, de los distintos modos de ejecución a saber: 1) análisis de rankings, 2) análisis de enlaces, 3) análisis de contenidos, 4) análisis de usabilidad y accesibilidad. Finalmente, una vez superadas las pruebas de ejecución y rendimiento, la herramienta será puesta a disposición de cualquier investigador como programa de código abierto. En relación a la web universitaria española, se concluye que un análisis a 3 niveles, permite obtener más de 250.000 enlaces únicos de los que 26.000 son sitios web, suponiendo en conjunto un total de más de 1GB de tamaño total. Los dominios de tipo ES son los más abundantes con el 45% del total, junto con los de tipo académico EDU con un 29%. La presencia de dominios de terceros países es muy reducida, lo cual indica una baja interrelación de la web universitaria española con instituciones académicas extranjeras.

Los documentos de texto, imágenes y audiovisuales representan un 35% del total de enlaces únicos extraídos, quedando un 75% de sitios y páginas web entre las que se encuentra un equilibrio cuantitativo próximo al 50% entre el número de webs estáticas y dinámicas. Sólo el 15% de la web universitaria española se encuentra en los valores altos de interconexión de sus enlaces. El resto queda débilmente vinculado, lo cual sugiere una red de universidades poco cooperativa. La representación gráfica de la web de la universidad española, permite corroborar este hecho, destacando el alto número de islas, comprobando cómo la web universitaria española es en sí misma una gran isla.