La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Acerca del uso de métricas de calidad de Wikipedia

Presentaciones similares


Presentación del tema: "Acerca del uso de métricas de calidad de Wikipedia"— Transcripción de la presentación:

1 Acerca del uso de métricas de calidad de Wikipedia
Carlos Velázquez, Leticia Cagnina y Marcelo Errecalde  LIDIC - Departamento de Informática Universidad Nacional de San Luis

2 Wikipedia Enciclopedia Online más grande y popular
Distintas líneas de investigación: Detección de Artículos Destacados Desarrollo de Métricas de Calidad Detección de Fallas de Calidad Solo el contenido o el historial de ediciones no es suficiente

3 Métricas de Calidad Vs Medidas de Calidad
Métrica de Calidad Estimación cuantitativa Medidas a través de una fórmula Son subjetivas Informatividad, reputación, generalidad, completitud, etc. Medidas de Calidad Directamente medidas sobre el recurso Son objetivas Longitud, cantidad de imágenes, etc.

4 Métricas de Calidad Pueden ser utilizadas:
Construir un ranking de artículos Características para representar documentos en tareas de categorización o Clustering Combinadas Para evaluar la precisión factual del contenido Web es necesario más control semántico: Sistema de extracción abierta Meronimia Hiperonimia

5 Soporte Factual Externo
Objetivo: Determinar una métrica que estime el soporte externo de un documento. ¿Cuanta información en una Fuente Externa contribuye a mostrar que el contenido es bien conocido? ¿Como obtenerlo? Analizar la información de cada hecho del documento Estimar el soporte externo de cada hecho Determinar el soporte de un documento en base al conjunto total de hechos por documento

6 Soporte Factual Externo (continuación)
Sea d un documento, Fd= {f1…fn} la colección de hechos extraídos de d. El Soporte Factual Externo de d se denota como:

7 Características de la fórmula
Usar diferentes pesos implica dar diferente importancia a los hechos extraídos. Valor de confianza Ci (ReVerb) Wi = 1 Valor de confianza con umbral: Se(fi) muestra cuantas veces el hecho fi fue encontrado en la fuente externa. Ni Caso binario:

8 Características de la formula (continuación)
Normalización: nor = 1 (Sin normalizar) nor = |Ld|(Número de líneas) nor = |Fd| (Número de hechos extraídos de d) nor = |Wd| (Número de palabras extraídas de d)

9 Combinaciones de métricas
Se construyeron 24 codificaciones diferentes: Peso: C wi = ci U wi = 1 T Fórmula: Valor de confianza con umbral. Soporte Factual Externo: N Cantidad de hechos en d B Caso booleano Normalizaciones N Sin normalización L Basada en líneas F Basada en hechos W Basada en palabras

10 Datasets Artículos de Wikipedia: 2445 totales FA: 1000 Destacados
NF: 1445 No Destacados NFr: 939 Regulares no Destacados NFor: 506 Original Research Fuente Externa (Reverb ClueWeb Extractions) 15 millones aserciones binarias de la Web Subconjunto de ClueWeb09

11 Problema Aplicando Matching Estricto entre los hechos y la Fuente Externa: Se produce bajo Recall Se tuvieron que proponer otras formas de Matching DS DS* - ME DS* - ML DS* - MG FA |FA| = 1000 |FA*| = 346 |FA*| = 960 |FA*| = 999 NFr |NFr| = 939 |NFr*| = 78 |NFr*| = 514 |NFr*| = 757 NFor |NFor| = 506 |Nfor*| = 75 |Nfor*| = 376 |Nfor*| = 477

12 Solución: Tipos de Matching relajados
Local: Utiliza Jaccard evaluando cada componente del hecho Global: Utiliza Jaccard evaluando el hecho completo

13 Conclusiones A pesar del bajo recall del Matching Estricto, permite distinguir características del soporte factual externo. Global Matching y Local Matching presentan mejores resultados que Matching Estricto Trabajos Posteriores: Los mejores resultados se obtienen de las combinaciones con peso Ci, booleanas y con normalización basada en hechos Generalmente se obtienen mejores resultados combinados con FD, WC y las 24 combinaciones.

14 !Gracias! ¿Preguntas?


Descargar ppt "Acerca del uso de métricas de calidad de Wikipedia"

Presentaciones similares


Anuncios Google