Acerca del uso de métricas de calidad de Wikipedia

Slides:



Advertisements
Presentaciones similares
ESTADÍSTICA OCTAVO DE BÁSICA ECO. VERÓNICA ALBARRACÍN BARRAGÁN INCAE BUSINESS SCHOOL.
Advertisements

PROGRAMA DE FORTALECIMIENTO INSTITUCIONAL LOCAL ESCUELAS DE LIDERAZGO Y/O GOBIERNO NIVEL 4 - MÓDULO 4.
 No es una publicación original  Examina la bibliografía ya publicada  Controla, coteja y analiza un trabajo ya realizado.
CONTABILIDAD ADMINISTRATIVA PUNTOS A EXPONER: ¿PARA QUE CONTABILIDAD ADMINISTRATIVA? ANTECEDENTES CONCEPTO SU OBJETIVO CARACTERÍSTICAS TOMA DE DECISIONES.
CAUSALIDAD Y VALIDEZ EN LOS ESTUDIOS EPIDEMIOLÓGICOS.
IIIº Medio  Comprender conceptos de estadística y construir e interpretar tablas de frecuencia, valorando su utilidad en diversos contextos de.
INGENIERIA DEL PRODUCTO 2016 – I Ing. Maria del Pilar Vera Prado UNIVERSIDAD AUTONOMA DE SAN FRANCISCO.
POR: JUAN PABLO MORENO ANDRÉS QUENGUÁN ELÍAS PALACIOS CAICEDO JULIÁN LOPERA MAZO CARLOS MARIO MONTES Plan Estratégico Para La Divulgación De La Investigación.
1 C OMPUTACIÓN A VANZADA PARA M ÚSICA POR O RDENADOR POLYPHONIC INSTRUMENT RECOGNITION USING SPECTRAL CLUSTERING 1 ISMIR 2007.
COMUNICACIÓN Y TICS Károl Fernanda Barragán M. Jennylith Dayana Ardila P. Wendy Paola Pinto F.
INDICE HIRSCH SEMINARIO DE INVESTIGACIÓN EN GERENCIA UNIVERSIDAD DE ORIENTE POSGRADO EN CIENCIAS ADMINISTRATIVAS MENCIÓN GERENCIA GENERAL NÚCLEO DE SUCRE.
NOMBRE: Manuel Cleque Valverde DOCENTE: Ing. David Melgar.
Informática Empresarial Docente – Carlos Andrés Bonil Mariño INFORMATICA EMPRESARIAL  CARLOS ANDRES BONIL MARIÑO  INGENIERO DE SISTEMAS.
Mapas conceptuales. Luis Carlos Armero Eraso. Fisioterapia.
GESTIÓN DEL RIESGO E INGENERÍA DE SOFTWARE BASADO EN COMPONENTES
¿Cómo elaborar una Matriz de Resultados (MdR)?
Introducción a las Estadísticas
Un Enfoque de Clustering basado en PSO Asistido
Curso de Elaboración de Pruebas Prof. Gerardo A. Valderrama M
Análisis de Mercados Internacionales
Pedro Letelier Patricio Contreras
Medición de Satisfacción DUOC UC Sede San Carlos de Apoquindo
Gestión de Software Conferencia # 2 Niveles de PSP: PSP0.1.
Etapas de una investigación
7ª Jornada sobre la Biblioteca Digital Universitaria JBDU2009 "La  biblioteca universitaria en la web" 5 y 6 de noviembre de 2009 Biblioteca Central de.
UNIDAD 4: ESTADÍSTICA Y PROBABILIDAD
ESTADÍSTICA II Ing. Danmelys Perozo MSc.
CONCEPTOS BASICOS ESTADISTICA.-Conjunto de métodos que nos permiten tomar decisiones en momentos de incertidumbre (duda). Tiene como objetivo que la información.
Título del proyecto Universidad de Carabobo
Auditoría Informática Informe de auditoría informática
Fuente:
Proyecto de Titulación:
COMITÉ DE INVESTIGACION INGRESA TÍTULO
LA INVESTIGACION CIENTIFICA
Tema 9 Fiabilidad de las puntuaciones
Estadística Generalidades y diseño de investigación.
CAPÍTULO 10: OPERACIÓNES MORFOLOGICAS
Determinación de una Situación problema
Wikipedia REPÚBLICA BOLIVARIANA DE VENEZUELA
ACT. 2 en WORD Individual Tabla Comparativa de Navegadores y Buscadores en Internet Análisis de los Navegadores y Buscadores mas utilizados en la WEB:
Universidad Nacional Autónoma de Honduras
Base de Datos TECNICATURA SUPERIOR EN INFORMÁTICA PROF.: GUANUCO, JUAN CARLOS.
Evidencias de Auditoría
1 Dirección IP - Características Las direcciones IP se denominan direcciones lógicas. Tienen un direccionamiento Jerárquico. Representan una conexión de.
 Toma de Decisiones MÉTODOS CUANTITATIVOS PARA LA TOMA DE DECISIONES.
DIAGRAMA MATRICIAL …. DIAGRAMA MATRICIAL.  El diagrama matricial (DM) es una herramienta cuyo objetivo es establecer puntos de conexión lógica entre.
ESTIMACIÓN (Inferencia Estadística) Intervalos de Confianza
Cover Análisis y diseño de sistemas 7. Métricas en el proceso de software personal.
METODOLOGÍA DE LA INVESTIGACIÓN (SAMPIERI)
Análisis del Contenido
Motores de busqueda.
Autores: Ñauñay Colcha Jorge Luis Bravo Maldonado Paulo Dennis
PARA LOS TRABAJOS EN PSICOANALISIS
Establecimiento de un sistema de vigilancia para cada punto crítico de control CAPÍTULO 3 Mod. 9 El sistema de Análisis de Peligros y de Puntos Críticos.
SEMANTIC WEB TOOL Nicolás Amador Griñolo Agustín Domínguez Alvera
GENERALIDADES ESTADÍSTICA
Zegelipae.edu.pe. Aseguramiento de la Calidad Sesión 6.
Introducción con “Google Activate” Recopilación Profra Myrna para la Clase CV
INSTITUTO TECNOLOGICO DE VERACRUZ
aplicados a la Recuperación de Información
4. Estimación del esfuerzo 1 TEMA 4. ESTIMACIÓN DEL ESFUERZO EN EL DESARROLLO DE SOFTWARE Jose Onofre Montesa Andrés Universidad Politécnica de Valencia.
“DE LA ACADEMIA AL CIUDADANO”.
TALLER DE INVESTIGACION I PROCESO DE CAPTACION DE LA INFORMACION Y ELABORACION DEL CRONOGRAMA DE INVESTIGACION.
Tamaño de muestra.
El marketing como herramienta de gestión para la competitividad empresarial de las MIPyME´s María Lizett Zolano Sánchez María Guadalupe Torres Figueroa.
INSTRUCTOR: Mg. CARLOS MARTÍN CORONADO HOYOS MÓDULO INTRODUCTION TO NETWORKS (CISCO)
INSTRUCTOR: Mg. CARLOS MARTÍN CORONADO HOYOS MÓDULO INTRODUCTION TO NETWORKS (CISCO)
COCOMO (1) COCOMO Es un modelo sencillo. Cocomo puede ser aplicado a tres tipos de proyectos software. Esto nos da una impresión general del proyecto.
Microsoft SharePoint MARTIN LOTHAR SOLONDZ MEZA. ¿QUE ES MICROSOFT SHAREPOINT? SharePoint Online es un servicio basado en la nube que ayuda a las organizaciones.
Transcripción de la presentación:

Acerca del uso de métricas de calidad de Wikipedia Carlos Velázquez, Leticia Cagnina y Marcelo Errecalde  LIDIC - Departamento de Informática Universidad Nacional de San Luis carvear20@yahoo.com.ar,{lcagnina,merreca}@unsl.edu.ar

Wikipedia Enciclopedia Online más grande y popular Distintas líneas de investigación: Detección de Artículos Destacados Desarrollo de Métricas de Calidad Detección de Fallas de Calidad Solo el contenido o el historial de ediciones no es suficiente

Métricas de Calidad Vs Medidas de Calidad Métrica de Calidad Estimación cuantitativa Medidas a través de una fórmula Son subjetivas Informatividad, reputación, generalidad, completitud, etc. Medidas de Calidad Directamente medidas sobre el recurso Son objetivas Longitud, cantidad de imágenes, etc.

Métricas de Calidad Pueden ser utilizadas: Construir un ranking de artículos Características para representar documentos en tareas de categorización o Clustering Combinadas Para evaluar la precisión factual del contenido Web es necesario más control semántico: Sistema de extracción abierta Meronimia Hiperonimia

Soporte Factual Externo Objetivo: Determinar una métrica que estime el soporte externo de un documento. ¿Cuanta información en una Fuente Externa contribuye a mostrar que el contenido es bien conocido? ¿Como obtenerlo? Analizar la información de cada hecho del documento Estimar el soporte externo de cada hecho Determinar el soporte de un documento en base al conjunto total de hechos por documento

Soporte Factual Externo (continuación) Sea d un documento, Fd= {f1…fn} la colección de hechos extraídos de d. El Soporte Factual Externo de d se denota como:

Características de la fórmula Usar diferentes pesos implica dar diferente importancia a los hechos extraídos. Valor de confianza Ci (ReVerb) Wi = 1 Valor de confianza con umbral: Se(fi) muestra cuantas veces el hecho fi fue encontrado en la fuente externa. Ni Caso binario:

Características de la formula (continuación) Normalización: nor = 1 (Sin normalizar) nor = |Ld|(Número de líneas) nor = |Fd| (Número de hechos extraídos de d) nor = |Wd| (Número de palabras extraídas de d)

Combinaciones de métricas Se construyeron 24 codificaciones diferentes: Peso: C wi = ci U wi = 1 T Fórmula: Valor de confianza con umbral. Soporte Factual Externo: N Cantidad de hechos en d B Caso booleano Normalizaciones N Sin normalización L Basada en líneas F Basada en hechos W Basada en palabras

Datasets Artículos de Wikipedia: 2445 totales FA: 1000 Destacados NF: 1445 No Destacados NFr: 939 Regulares no Destacados NFor: 506 Original Research Fuente Externa (Reverb ClueWeb Extractions) 15 millones aserciones binarias de la Web Subconjunto de ClueWeb09

Problema Aplicando Matching Estricto entre los hechos y la Fuente Externa: Se produce bajo Recall Se tuvieron que proponer otras formas de Matching DS DS* - ME DS* - ML DS* - MG FA |FA| = 1000 |FA*| = 346 |FA*| = 960 |FA*| = 999 NFr |NFr| = 939 |NFr*| = 78 |NFr*| = 514 |NFr*| = 757 NFor |NFor| = 506 |Nfor*| = 75 |Nfor*| = 376 |Nfor*| = 477

Solución: Tipos de Matching relajados Local: Utiliza Jaccard evaluando cada componente del hecho Global: Utiliza Jaccard evaluando el hecho completo

Conclusiones A pesar del bajo recall del Matching Estricto, permite distinguir características del soporte factual externo. Global Matching y Local Matching presentan mejores resultados que Matching Estricto Trabajos Posteriores: Los mejores resultados se obtienen de las combinaciones con peso Ci, booleanas y con normalización basada en hechos Generalmente se obtienen mejores resultados combinados con FD, WC y las 24 combinaciones.

!Gracias! ¿Preguntas?