Análisis de la persistencia y del estado de páginas web en los resultados de Google José Luis Ortega, José Antonio Prieto, Natalia Arroyo, Víctor Pareja,

Slides:



Advertisements
Presentaciones similares
PREMIE ANTE LA RESPONSABILIDAD SOCIAL
Advertisements

Presencia de las bibliotecas de hospitales españoles en la red Toledano Muñoz, Mª José. Romero Palomar, Inmaculada. Gutiérrez Casado, Natalia Hospital.
MÉTODOS DE ESTIMACIÓN Y GESTIÓN DEL RIESGO
Isidro F. Aguillo Laboratorio de Internet
1 Programa de Capacitación sobre la Estimación de Costos de las Resoluciones Propuesta preliminar Noviembre 2, 2010 Departamento de Planificación y Evaluación.
Director: Julio Pindado Profesorado: Dr. Julio Pindado
Cibermetría Estado de la cuestión
ASESORA: Msc. Isabel Romero Srta. María Fernanda Crespo Peñafiel
Curso de Informática de Usuario
EndNote X2.
Buscar bibliografía en
CONSTRUCCIÓN DEL MARCO TEÓRICO
ANAIS BUITRAGO AIDA BEATRIZ GONZALEZ ANDREA OROZCO
Formato y redacción de la memoria
La recolección de metadatos y su aplicación en España Xavier Agenjo Francisca Hernández FESABID ª Jornadas Españolas de Documentación.
Revistas: -Periódicos: -Semanarios. -Diarios -Revistas: -Divulgativas
Programa Conjunto: Juventud, Empleo y Migración Programa Conjunto Juventud, Empleo y Migración Modelo de Atención Integral de la Ventanilla Única para.
Planes de Acción Costa Rica Contenido Principales resultados diagnóstico SEN Misión y Visión Lineamientos estratégicos Proyectos.
EL USO DE LIBROS ELECTRÓNICOS EN ALUMNOS UNIVERSITARIOS DEL SUR DE TAMAULIPAS 1 Michelle Recio Saucedo Sergio Correa Gutiérrez (Universidad Autónoma de.
EVALUACION INTERNA NIVEL MEDIO
Biblioteca Virtual Ocenet Consulta ¡Bienvenidos!.
UNIDAD II EL CONSUMIDOR ON LINE “Investigación de mercados en línea”
Biblioteca Complutense Biblioteca Complutense de Madrid: evaluando cargas de trabajo para la mejora del servicio público. José A. Berbes Cardos Javier.
Recursos de Información
Evaluación de la actividad científica a través de la Web Isidro F. Aguillo Laboratorio de Internet CINDOC-CSIC FACULTAT DE BIBLIOTECONOMIA I DOCUMENTACIÓ.
Buscador semántico para la recuperación de Tesis Electrónicas en la Biblioteca UNET Una aproximación Ing. Jennifer Flores (LCAR UNET) Ing. Jhonnie Padrón.
ENCUESTA DE SATISFACCION USUARIOS ISP 2009 PRODUCTO COSMETICOS
Porque de un texto o palabra se puede pasar a otro en el mismo documento a otro, también recibe este nombre porque soporta imágenes y sonidos. El hipertexto.
Análisis Bibliográfico: Cultura Empresarial Selene Cruz Martínez Barcelona, 4 de Abril de 2008 : gestor de referencias bibliográficas.
Pasos de un estudio de simulacion (repaso).
Presentación del Informe eCanarias de mayo de 2014 Observatorio Canario de las Telecomunicaciones y la Sociedad de la Información Agencia Canaria.
V CONGRESO INTERNACIONAL DE PERIODISMO EN LA RED: REINVENTAR LOS MEDIOS Dep. Periodismo II. Fac. Ciencias de la Información. Madrid noviembre 2011.
Programa de la asignatura: Informática Educativa
Cómo buscar información… en 5 minutos. Cómo buscar información en 5 minutos Antes de buscar debe tener claro qué información existe y sus canales de distribución.
METODOLOGIA I RADIOLOGIA E IMAGENOLOGIA PROF. CARLOS TORRES
VICTOR MANUEL MONTAGUT ORTEGA BIBLIOTECOLOGO
C OMPETENCIAS EN EL USO DE INFORMACIÓN CIENTÍFICA L IC. A LICIA D ÍAZ C OSTOFF -B IBLIOTECA F ACULTAD V ETERINARIA U DELA R Competencias en el uso de.
Estudio comparativo rediseño portal web. Centro de Cómputo y de Procesamiento de Información [ 1 de junio de 2010 ] UNIVERSIDAD.
Tecnología de la Comunicación I
Catálogo y Repositorio de Producción Científica de la UGR 1 PRODUCCIÓN CIENTÍFICA UGR Por Antonio Fernández Porcel Juan José Sánchez Guerrero.
Bienvenidos a la Biblioteca Actividad de Libre Configuración “Fuentes de Información en Turismo” Curso José Manuel Vinagre Lobo, Ana María Surián.
Se calcula que los mayores motores de búsqueda muestran sólo entre un tercio y la mitad de los documentos disponibles al público en la Red. Se ha estimado.
Aulas virtuales.
FATLA Fundación para la Actualización Tecnológica de Latinoamérica Programa de Experto en Procesos Elearning Módulo 5 - Metodología PACIE - Capacitación.
Muchas de las investigaciones sobre el comportamiento de los usuarios de la Web que se están realizando en poblaciones de personas nacidas posteriormente.
WORD WIDE WEB Nace a principios de los años 90 en Suiza. Su función es ordenar y distribuir la información que existe en internet. La World Wide Web se.
Yahoo (primer índice de búsqueda)
VISIBILIDAD. PAGINA WEB ADMINISTRADA Y DISEÑADA POR BOKU BILINGÜE TODOS LOS MIEMBROS DEL CONSORCIO TENDRÁN VÍNCULOS A LA PÁGINA, EN LAS PÁGINAS LOCALES.
Lic. Adalberto Avendaño Prieto.
Recursos de información y herramientas de búsqueda Red Municipal de Bibliotecas de Córdoba 18 y 19 de diciembre, 2008.
World Wide Web en la Educación  Es el que de un texto o palabra se puede pasar a otro en el mismo documento o a otro, también recibe este nombre porque.
WEB 2,0 Es la Evolución de las aplicaciones estáticas a dinámicas donde la colaboración del usuario es necesaria El término Web 2.0 comprende aquellos.
Búsqueda de Información en Internet
CURSO: USO DE LAS TECNOLOGÍAS DE LA INFORMACIÓN Y LA COMUNICACIÓN EN LA MEJORA DE LOS PROCESOS DE APRENDIZAJE.
Revisión de literatura y construcción del marco teórico
1 "Revista impresa o electrónica. ¿Cuál es la alternativa? El caso de la Revista Electrónica de Investigación Educativa (REDIE)" Dra. Graciela Cordero.
TECNOLOGÍAS DE INFORMACIÓN Y COMUNICACIÓN.
Chile a mediados del siglo XX Trabajo de Investigación
Sitios y Herramientas Web Educativos Grupo # 3 Tecnología Educativa II.
Informes de Laboratorio
Retos del DANE COLOMBIA para satisfacer las nuevas necesidades de sus Usuarios Retos del DANE COLOMBIA para satisfacer las nuevas necesidades de sus Usuarios.
Determinación de problemas
CURSO DE LAS TIC EN LA MEJORA DE LOS PROCESOS DE APRENDIZAJE PROFESOR. JOSÉ AARON RUIZ VICTORIA ESCUELA: EMILIO VON BEHRING SAN SIMON YEHUALTEPEC 16 DE.
PRESENTADO POR: MARCELA MERICY LEON NEIRA JOSE ANTONIO RODRIGUEZ SANCHEZ.
Minería de texto Análisis Documental.
CAMILO ANDRÉS ZAPATA PALACIO Docente Tecnología e Informática I.E. Maestro Fernando Botero Sede Bachillerato Medellín – Antioquia PLANILLAS INTERACTIVAS.
Metodologías Conae Control de la Demanda Eléctrica
Contexto Los cambios de las formas de la comunicación a través de la historia. Las estadísticas. Los paradigmas.
FUENTE DE INFORMACION Obra para ser consultada en busca de unidades definidas de informacion y no para ser leida de principio a fin Obra que solamente.
Por: Ing. Ramiro Mejías Rodríguez
Transcripción de la presentación:

Análisis de la persistencia y del estado de páginas web en los resultados de Google José Luis Ortega, José Antonio Prieto, Natalia Arroyo, Víctor Pareja, Isidro Aguillo Laboratorio de Internet CINDOC (CSIC)

Introducción Crecimiento exponencial del web en la década de los noventa. Crecimiento exponencial del web en la década de los noventa. – Incorporación masiva de contenidos. – Medio de gran expectativa social y economica. El ritmo de crecimiento de sedes web se ralentiza hasta llegar, en el periodo , a un decrecimiento del 1% (O’Neill et al., 2003). El ritmo de crecimiento de sedes web se ralentiza hasta llegar, en el periodo , a un decrecimiento del 1% (O’Neill et al., 2003). –Crisis de las puntocom. –Estabilización en la incorporación de contenidos.

Trabajos relacionados Harter y Kim (1996): Harter y Kim (1996): – citas electrónicas en revistas electrónicas. – 1/3 no disponibles. Koehler (1999, 2002, 2004): Koehler (1999, 2002, 2004): – periodo 1999 – – páginas operativas sólo el 34,4% Nelson y Allen (2002): Nelson y Allen (2002): – bibliotecas digitales a lo largo de un año. – 3% de objetos no disponibles (linkrot). – Medio más estable.

Objetivos Estabilidad de los índices del buscador Google. Estabilidad de los índices del buscador Google. Estado y disponibilidad de los resultados. Estado y disponibilidad de los resultados. Estimación de la persistencia en las consultas. Estimación de la persistencia en las consultas.

Metodología I Tres consultas Tres consultas – “alhambra de granada” (500 resultados) – “mezquita de cordoba” (500 resultados) – “catedral de jaen” (230 resultados) durante 15 semanas (frec. semanal) durante 15 semanas (frec. semanal) – del 29 de enero de 2004 al 6 de mayo de 2004

Metodología II Seguimiento de las páginas obtenidas a partir de la primera consulta.Seguimiento de las páginas obtenidas a partir de la primera consulta. Disponibilidad de los resultados a lo largo del tiempo.Disponibilidad de los resultados a lo largo del tiempo.

Metodología III Herramientas Web Data Extractor 4.0Web Data Extractor 4.0 –Extracción de los resultados de las distintas consultas realizadas. Xenu's Link Sleuth Xenu's Link Sleuth – Comprobación del estado en que se encuentran dichos resultados.

Resultados El número de documentos que permanecen en cada consulta, originarios de la primera, desciende describiendo una curva logarítmica inversa. R 2 < 0,9

Resultados Se asemeja al descenso de la actividad radioactiva de un isótopo a lo largo del tiempo. Se asemeja al descenso de la actividad radioactiva de un isótopo a lo largo del tiempo. Permite estimar el ritmo de decaimiento de la consulta. Permite estimar el ritmo de decaimiento de la consulta.

Vida Media Tiempo transcurrido desde la observación original hasta el momento en que sólo recuperamos la mitad de resultados de la consulta original. ConsultasVida Media alhambra de granada0,048 mezquita de cordoba0,058 catedral de jaen0,227

Fórmula del Decaimiento R t =R 0 e (- t) Donde = -0,693t/T (1/2) = -0,693t/T (1/2) R t = Persistencia de resultados después del intervalo tR t = Persistencia de resultados después del intervalo t R 0 = Resultados de la primera consulta.R 0 = Resultados de la primera consulta. e = base del logaritmo natural (2,718...).e = base del logaritmo natural (2,718...). t = tiempo transcurrido en años.t = tiempo transcurrido en años. T (1/2) = Vida Media de la consulta.T (1/2) = Vida Media de la consulta.

Resultados “alhambra de granada”

Resultados “mezquita de cordoba”

Resultados “catedral de jaen”

Resultados Formatos Mayor permanencia para páginas estáticas frente a páginas dinámicas y ficheros de programación. Consultas Programación alhambra de granada1,2% mezquita de cordoba3,67% catedral de jaen0,96%

Resultados Estado Alto porcentaje de páginas no operativas (linkrot). Entre 14,2% y 27% ConsultasForbidden RequestNot FoundOK alhambra de granada1,99%12,24%83,7% mezquita de cordoba9,08%18%71,26% catedral de jaen6,78%15,77%72,78%

Discusión y Conclusiones I Los índices de Google están diseñados para el posicionamiento pero no para detectar páginas desaparecidas. Los índices de Google están diseñados para el posicionamiento pero no para detectar páginas desaparecidas. Dificultad de detectar los soft 404.Dificultad de detectar los soft 404. – Bar-Yossef et al. (2004): 25% de los 200 (OK) son soft 404. Se estima que el 14% de las páginas indizadas en Google han desaparecido.Se estima que el 14% de las páginas indizadas en Google han desaparecido.

Discusión y Conclusiones II La Vida Media nos permite estimar la variabilidad en una consulta.La Vida Media nos permite estimar la variabilidad en una consulta. La formula del Decaimiento nos permite estimar los contenidos más duraderos.La formula del Decaimiento nos permite estimar los contenidos más duraderos. Evaluación y mejora de los buscadores.Evaluación y mejora de los buscadores.

Discusión y Conclusiones III Limitaciones No se puede generalizar con sólo tres consultas.No se puede generalizar con sólo tres consultas. ¿Es esta realidad propia de Google o es extensible al resto de buscadores?¿Es esta realidad propia de Google o es extensible al resto de buscadores? ¿Y al resto de Internet (Bibliotecas Digitales, FTP, etc.)?¿Y al resto de Internet (Bibliotecas Digitales, FTP, etc.)?