La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Análisis de la persistencia y del estado de páginas web en los resultados de Google José Luis Ortega, José Antonio Prieto, Natalia Arroyo, Víctor Pareja,

Presentaciones similares


Presentación del tema: "Análisis de la persistencia y del estado de páginas web en los resultados de Google José Luis Ortega, José Antonio Prieto, Natalia Arroyo, Víctor Pareja,"— Transcripción de la presentación:

1 Análisis de la persistencia y del estado de páginas web en los resultados de Google José Luis Ortega, José Antonio Prieto, Natalia Arroyo, Víctor Pareja, Isidro Aguillo Laboratorio de Internet CINDOC (CSIC) jortega@cindoc.csic.es

2 Introducción Crecimiento exponencial del web en la década de los noventa. Crecimiento exponencial del web en la década de los noventa. – Incorporación masiva de contenidos. – Medio de gran expectativa social y economica. El ritmo de crecimiento de sedes web se ralentiza hasta llegar, en el periodo 2001- 2002, a un decrecimiento del 1% (O’Neill et al., 2003). El ritmo de crecimiento de sedes web se ralentiza hasta llegar, en el periodo 2001- 2002, a un decrecimiento del 1% (O’Neill et al., 2003). –Crisis de las puntocom. –Estabilización en la incorporación de contenidos.

3 Trabajos relacionados Harter y Kim (1996): Harter y Kim (1996): – citas electrónicas en revistas electrónicas. – 1/3 no disponibles. Koehler (1999, 2002, 2004): Koehler (1999, 2002, 2004): – periodo 1999 – 2001. – páginas operativas sólo el 34,4% Nelson y Allen (2002): Nelson y Allen (2002): – bibliotecas digitales a lo largo de un año. – 3% de objetos no disponibles (linkrot). – Medio más estable.

4 Objetivos Estabilidad de los índices del buscador Google. Estabilidad de los índices del buscador Google. Estado y disponibilidad de los resultados. Estado y disponibilidad de los resultados. Estimación de la persistencia en las consultas. Estimación de la persistencia en las consultas.

5 Metodología I Tres consultas Tres consultas – “alhambra de granada” (500 resultados) – “mezquita de cordoba” (500 resultados) – “catedral de jaen” (230 resultados) durante 15 semanas (frec. semanal) durante 15 semanas (frec. semanal) – del 29 de enero de 2004 al 6 de mayo de 2004

6 Metodología II Seguimiento de las páginas obtenidas a partir de la primera consulta.Seguimiento de las páginas obtenidas a partir de la primera consulta. Disponibilidad de los resultados a lo largo del tiempo.Disponibilidad de los resultados a lo largo del tiempo.

7 Metodología III Herramientas Web Data Extractor 4.0Web Data Extractor 4.0 –Extracción de los resultados de las distintas consultas realizadas. Xenu's Link Sleuth Xenu's Link Sleuth – Comprobación del estado en que se encuentran dichos resultados.

8 Resultados El número de documentos que permanecen en cada consulta, originarios de la primera, desciende describiendo una curva logarítmica inversa. R 2 < 0,9

9 Resultados Se asemeja al descenso de la actividad radioactiva de un isótopo a lo largo del tiempo. Se asemeja al descenso de la actividad radioactiva de un isótopo a lo largo del tiempo. Permite estimar el ritmo de decaimiento de la consulta. Permite estimar el ritmo de decaimiento de la consulta.

10 Vida Media Tiempo transcurrido desde la observación original hasta el momento en que sólo recuperamos la mitad de resultados de la consulta original. ConsultasVida Media alhambra de granada0,048 mezquita de cordoba0,058 catedral de jaen0,227

11 Fórmula del Decaimiento R t =R 0 e (- t) Donde = -0,693t/T (1/2) = -0,693t/T (1/2) R t = Persistencia de resultados después del intervalo tR t = Persistencia de resultados después del intervalo t R 0 = Resultados de la primera consulta.R 0 = Resultados de la primera consulta. e = base del logaritmo natural (2,718...).e = base del logaritmo natural (2,718...). t = tiempo transcurrido en años.t = tiempo transcurrido en años. T (1/2) = Vida Media de la consulta.T (1/2) = Vida Media de la consulta.

12 Resultados “alhambra de granada”

13 Resultados “mezquita de cordoba”

14 Resultados “catedral de jaen”

15 Resultados Formatos Mayor permanencia para páginas estáticas frente a páginas dinámicas y ficheros de programación. Consultas Programación alhambra de granada1,2% mezquita de cordoba3,67% catedral de jaen0,96%

16 Resultados Estado Alto porcentaje de páginas no operativas (linkrot). Entre 14,2% y 27% ConsultasForbidden RequestNot FoundOK alhambra de granada1,99%12,24%83,7% mezquita de cordoba9,08%18%71,26% catedral de jaen6,78%15,77%72,78%

17 Discusión y Conclusiones I Los índices de Google están diseñados para el posicionamiento pero no para detectar páginas desaparecidas. Los índices de Google están diseñados para el posicionamiento pero no para detectar páginas desaparecidas. Dificultad de detectar los soft 404.Dificultad de detectar los soft 404. – Bar-Yossef et al. (2004): 25% de los 200 (OK) son soft 404. Se estima que el 14% de las páginas indizadas en Google han desaparecido.Se estima que el 14% de las páginas indizadas en Google han desaparecido.

18 Discusión y Conclusiones II La Vida Media nos permite estimar la variabilidad en una consulta.La Vida Media nos permite estimar la variabilidad en una consulta. La formula del Decaimiento nos permite estimar los contenidos más duraderos.La formula del Decaimiento nos permite estimar los contenidos más duraderos. Evaluación y mejora de los buscadores.Evaluación y mejora de los buscadores.

19 Discusión y Conclusiones III Limitaciones No se puede generalizar con sólo tres consultas.No se puede generalizar con sólo tres consultas. ¿Es esta realidad propia de Google o es extensible al resto de buscadores?¿Es esta realidad propia de Google o es extensible al resto de buscadores? ¿Y al resto de Internet (Bibliotecas Digitales, FTP, etc.)?¿Y al resto de Internet (Bibliotecas Digitales, FTP, etc.)?


Descargar ppt "Análisis de la persistencia y del estado de páginas web en los resultados de Google José Luis Ortega, José Antonio Prieto, Natalia Arroyo, Víctor Pareja,"

Presentaciones similares


Anuncios Google