Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porBlanca Río Godoy Modificado hace 7 años
1
Acerca del uso de métricas de calidad de Wikipedia
Carlos Velázquez, Leticia Cagnina y Marcelo Errecalde LIDIC - Departamento de Informática Universidad Nacional de San Luis
2
Wikipedia Enciclopedia Online más grande y popular
Distintas líneas de investigación: Detección de Artículos Destacados Desarrollo de Métricas de Calidad Detección de Fallas de Calidad Solo el contenido o el historial de ediciones no es suficiente
3
Métricas de Calidad Vs Medidas de Calidad
Métrica de Calidad Estimación cuantitativa Medidas a través de una fórmula Son subjetivas Informatividad, reputación, generalidad, completitud, etc. Medidas de Calidad Directamente medidas sobre el recurso Son objetivas Longitud, cantidad de imágenes, etc.
4
Métricas de Calidad Pueden ser utilizadas:
Construir un ranking de artículos Características para representar documentos en tareas de categorización o Clustering Combinadas Para evaluar la precisión factual del contenido Web es necesario más control semántico: Sistema de extracción abierta Meronimia Hiperonimia
5
Soporte Factual Externo
Objetivo: Determinar una métrica que estime el soporte externo de un documento. ¿Cuanta información en una Fuente Externa contribuye a mostrar que el contenido es bien conocido? ¿Como obtenerlo? Analizar la información de cada hecho del documento Estimar el soporte externo de cada hecho Determinar el soporte de un documento en base al conjunto total de hechos por documento
6
Soporte Factual Externo (continuación)
Sea d un documento, Fd= {f1…fn} la colección de hechos extraídos de d. El Soporte Factual Externo de d se denota como:
7
Características de la fórmula
Usar diferentes pesos implica dar diferente importancia a los hechos extraídos. Valor de confianza Ci (ReVerb) Wi = 1 Valor de confianza con umbral: Se(fi) muestra cuantas veces el hecho fi fue encontrado en la fuente externa. Ni Caso binario:
8
Características de la formula (continuación)
Normalización: nor = 1 (Sin normalizar) nor = |Ld|(Número de líneas) nor = |Fd| (Número de hechos extraídos de d) nor = |Wd| (Número de palabras extraídas de d)
9
Combinaciones de métricas
Se construyeron 24 codificaciones diferentes: Peso: C wi = ci U wi = 1 T Fórmula: Valor de confianza con umbral. Soporte Factual Externo: N Cantidad de hechos en d B Caso booleano Normalizaciones N Sin normalización L Basada en líneas F Basada en hechos W Basada en palabras
10
Datasets Artículos de Wikipedia: 2445 totales FA: 1000 Destacados
NF: 1445 No Destacados NFr: 939 Regulares no Destacados NFor: 506 Original Research Fuente Externa (Reverb ClueWeb Extractions) 15 millones aserciones binarias de la Web Subconjunto de ClueWeb09
11
Problema Aplicando Matching Estricto entre los hechos y la Fuente Externa: Se produce bajo Recall Se tuvieron que proponer otras formas de Matching DS DS* - ME DS* - ML DS* - MG FA |FA| = 1000 |FA*| = 346 |FA*| = 960 |FA*| = 999 NFr |NFr| = 939 |NFr*| = 78 |NFr*| = 514 |NFr*| = 757 NFor |NFor| = 506 |Nfor*| = 75 |Nfor*| = 376 |Nfor*| = 477
12
Solución: Tipos de Matching relajados
Local: Utiliza Jaccard evaluando cada componente del hecho Global: Utiliza Jaccard evaluando el hecho completo
13
Conclusiones A pesar del bajo recall del Matching Estricto, permite distinguir características del soporte factual externo. Global Matching y Local Matching presentan mejores resultados que Matching Estricto Trabajos Posteriores: Los mejores resultados se obtienen de las combinaciones con peso Ci, booleanas y con normalización basada en hechos Generalmente se obtienen mejores resultados combinados con FD, WC y las 24 combinaciones.
14
!Gracias! ¿Preguntas?
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.