Evaluación del sistema de clasificación automática de contenidos Resync en Medios de comunicación españoles y mexicanos Prof. Manuel Blázquez Ochando

Slides:



Advertisements
Presentaciones similares
IV Jornada de Buenas Prácticas : SERVICIOS DE APOYO A LA INVESTIGACIÓN El buscador BRAIN como herramienta al servicio del investigador Rafaela González.
Advertisements

SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR
1 Datos sobre webloggers Datos extraidos de la encuesta a webloggers disponibles en la web de los autores.
Selectividad y Preinscripción 2009
Conocimiento, Uso y Evaluación de Medicamentos Genéricos
La mediana La mediana es el valor tal que el 50 % de las observaciones son menores y 50 % de ellas son mayores a dicho valor. En otra palabras, la mediana.
ESTUDIO DE OPINIÓN PÚBLICA: Lo bueno, lo malo y lo feo del 2007 DICIEMBRE 2007 Los hechos que fueron noticia el 2007 ¿Cuál fue el escándalo del año? ¿Cuáles.
Noviembre 2007Estudio Rostros de Noticias 2007Collect-GfKWikén Estudio Rostros de Noticias de la TV Chilena Desarrollados para Revista Wikén El Mercurio.
COMPARATIVA CONVOCATORIAS FINALIZADAS EN Bilbao, Satisfacción de Clientes OBJETO Y ALCANCE Convocatorias finalizadas en 2012.
Evaluación y Certificación de la Calidad de las Bibliotecas
ANTECEDENTES Y MOTIVACION Precedentes en el Código de Conducta Incorporación en 2006 de la temática de la transparencia en la agenda de la Coordinadora.
PRUEBA DE ACCESO A LA UNIVERSIDAD (PAU)
La calidad de la vivienda en México. Indicadores y perspectiva internacional. Centro de estudios económicos y de vinculación institucional. Agosto de 2004.
1 LA UTILIZACION DE LAS TIC EN LAS MICROEMPRESAS GALLEGAS. AÑO mayo 2005.
1 LA UTILIZACION DE LAS TIC EN LAS PYMES GALLEGAS AÑO de Junio de 2005.
Presentación: Contabilidad para el calculo y control de costes
JOURNAL CITATION REPORTS®
1 IMPACTO DE LA IMPLANTACIÓN DE LA LEY 42/2010. INFORME A LOS 100 DÍAS Consejo de Ministros 20de abril de 2011.
Búsqueda y Recuperación de Información
MUESTREO (NAGA´s) BOLETÍN 5020
ESTADISTICA APLICADA A LAS COMUNICACIONES: CONCEPTOS EN LA INVESTIGACION POR MUESTREO Docente : Fernando Camones SESION 01 Lima, 26 de Octubre 2010.
Unidad de competencia II Estadística descriptiva:
Unidad de competencia II Estadística descriptiva:
2 Índice 1.- Situación de la RSE en la Educación Superior 2.- Situación actual de la RSE en el Currículum Ejecutivo.
SISTEMA IBEROAMERICANO DE INFORMACIÓN SOBRE EL AGUA CONTINENTAL
Técnicas para la elaboración de un instrumento
Asignación de cuotas de los Estados Miembros para el período Secretaría de Administración y Finanzas.
Índices de impacto y evaluación de publicaciones científicas CURSO Biblioteca de Educación.
¿Hemos cambiado? Representaciones sociales acerca de lo femenino y masculino 2012.
William Shakespeare ( greg.), fue un dramaturgo, poeta y actor inglés. Conocido en ocasiones como el Bardo de Avon (o.
1 Reporte Componente Impacto Por Orden Territorial Por Departamento No Disponible ND *Los indicadores para el año 2008 no fueron calculados.
Estadística Administrativa I
CRÍTICAS METODOLÓGICAS
Phone2Wave-Server Manual de Operación.
¿Cooperan los profesores universitarios del Grado en Información y Documentación?: el caso de la Universidad de Extremadura Cristina Faba-Pérez (Grupo.
ICFES Bogotá Mayo 23 de 2008 Colombia en PISA 2006.
Elaboró: Miyerlan Vega Leguizamo Profesional SIGMC Oficina de Calidad Periodo Abril – Junio/2012 Información reportada por la oficina de Atención al Usuario.
> ¿Qué es el Espacio Europeo de Educación Superior? El "Espacio Europeo de Educación Superior" es un plan complejo puesto en marcha por los países.
6.6.2 Mecanismos de control de los Bancos Centrales
COMPETENCIAS PROFESIONALES DEL INGENIERO EN INFORMÁTICA
EL MERCADO MUNDIAL DEL VINO:
Dirección General de Fondos Comunitarios Secretaría General de Presupuestos y Gastos Ministerio de Economía y Hacienda Dirección General de Fondos Comunitarios.
CLARA EUGENIA ESCOBAR GUENDICA Decana Facultad de Odontología COMITÉ DE ACREDITACIÓN ALEJANDRO HURTADO ARISTIZABAL Asistente para programación, ejecución.
PROGRAMA DE APOYO AL GASTO DE INVERSIÓN DE LOS MUNICIPIOS
1 PROYECTO DE PRESUPUESTO DE EGRESOS DE LA FEDERACION 2002 COORDINACIÓN DE POLITICA ECONOMICA GP-PRD.
SERVICIOS BIBLIOTECARIOS
INVESTIGACIÓN SOBRE EL ESTADO DEL ARTE EN EL DESARROLLO DE PROVEEDORES EN MÉXICO
Buscar bibliografía en
1 Compras en Septiembre 2011
¡Primero mira fijo a la bruja!
LA UNIVERSIDAD DE HUELVA Y EL EEES: EL RETO, NUESTRA OPORTUNIDAD. Huelva, 15, 16 y 17 de mayo de 2007 Estudio, resultados y propuestas de mejora de las.
El Uso de las Redes Sociales Prof. Ayleen Martínez Ramos Presidenta de APEC
Seminario de Análisis Documental
Ranking: Proveedor No Responde Comparación Enero-Diciembre 2011 v/s Enero-Diciembre 2012.
ANTECEDENTES Y MOTIVACION Precedentes en el Código de Conducta Incorporación en 2006 de la temática de la transparencia en la agenda de la Coordinadora.
PROYECTO 1 Arturo Llamedo Fernández David Ramos Fresno
HERRAMIENTAS PARA EL CONTROL ESTADÍSTICO DE CALIDAD.
Encuesta de Clima Laboral United Logistic Company
1 Estudio de Caso sobre la Interacción de los Alumnos en un Curso "en Línea" Usando Aprendizaje Basado en Problemas Jaime Ricardo Valenzuela González ITESM.
PROGRAMA DE INVESTIGACIÓN DEL OBSERVATORIO DEL ESTADO DE MÉXICO
Resultados de las Pruebas de Aptitud Académica PAA del año 2013 Dirección de Sistema de Admisión.
ESTUDIAR EN COREA SISTEMA EDUCATIVO COREANO Educación Preescolar. Educación Obligatoria. Educación Superior.
DIRECCIÓN GENERAL DE EVALUACIÓN Y COOPERACIÓN TERRITORIAL
Estadística Administrativa II
Revisión de la Política de Servicios (RPS) del Paraguay Taller de Trabajo Asunción, 24 y 25 de Abril de 2014 La economía de servicios en Paraguay UNCTAD.
Programación multimedia en tiempo real y en diferido: canal web de documentación informativa TVDoc. Dr. Alfonso López Yepes Colaborador:
Caso: Situación de las Comunidades Autónomas españolasen cuanto a indicadores de bienestar En el periódico “El País” del día 17 de enero de 2002 se publicó.
MARCO METODOLÓGICO DE INVESTIGACIÓN
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Transcripción de la presentación:

Evaluación del sistema de clasificación automática de contenidos Resync en Medios de comunicación españoles y mexicanos Prof. Manuel Blázquez Ochando

Precedentes I 9º Seminario Hispano Mexicano de Biblioteconomía y Documentación Plataforma de experimentación de canales de sindicaciónResync. Recuperación de contenidos sindicados Se realiza una colección de prueba con fuentes y canales de sindicación de medios de comunicación Españoles y Mexicanos, obteniendo contenidos publicados durante 1 mes Clasificación automática de contenidos con tesauro Eurovoc, utilizando algoritmos de clasificación propios

Precedentes II Se diseñan algoritmos de clasificación temática de precisión (Alg. 1, 2 y 3) y clasificación temática general (Alg. 4 y 5) El algoritmo1 de clasificación temática de precisión será el primero en ser evaluado. Sus características: Se utilizan los términos específicos de cada categoría temática del tesauro Eurovoc como cadenas de consulta Se crean dos cadenas de consulta. La primera se consulta en lenguaje natural y la segunda con una combinación de términos en modo booleano con operador de intersección AND No se aceptan términos con más de 7 caracteres Se rechazan de la clasificación los documentos cuyo coeficiente de similaridad sea inferior a 10

Objeto de estudio Evaluación del sistema de clasificación implementado en la plataforma Resync. En concreto del Algoritmo de clasificación prueba1 La evaluación será realizada por sujetos evaluadores que determinan el porcentaje de relevancia de los contenidos con respecto a la categoría en la que fueron clasificados Determinar la precisión del algoritmo prueba1 para clasificar contenidos muy heterogéneos, publicados por medios de comunicación en lengua española.

Metodología I Sujetos evaluadores Alumnos de asignaturas de Evaluación de sistemas de información ( ) y Técnicas avanzadas de Recuperación de Información ( ) Asignación de categorías temáticas Mecanismo de evaluación del formulario Marcar relevante. 100% correctamente clasificado Grados de relevancia positiva. Del 40% al 100% Grados de relevancia negativa. Del 40% al 0% Marcar irrelevante. 0% mal clasificado

Metodología II Recopilación de datos Inicio. 30 de abril de 2012 Fin. 29 de marzo de Cálculo de precisión tpi.- Documentos que han sido correctamente clasificados en la categoría i fpi.- Es el número total de documentos cuya clasificación fue errónea. N = tpi + fpi.- La suma de los documentos bien y mal clasificados

Resultados I – Datos generales Evaluación llevada a cabo sobre una muestra de noticias y contenidos Con evaluaciones significa que se ha llegado a evaluar un 62,98% del total AñoNº total de evaluaciones Total

Resultados II – Categorías evaluadas Porcentajes de evaluación variable. Mediana estadística se sitúa en el 48,21% Categoría Nº total de noticias Nº de evaluaciones Porcentaje evaluado Análisis económico ,00% Fuentes y ramas del Derecho ,43% Poder ejecutivo y adm. pública ,18% Proc. electoral y sistema de votación ,35% Política económica43500,00% Consumo18400,00%

Resultados III – Precisión La precisión obtenida para el algoritmo de clasificación prueba1 es del 71% Los resultados son comparables a los obtenidos por otros investigadores a nivel internacional. Por ejemplo (ARDO, A. 2007) obtuvo un 73% de precisión en un estudio análogo. Años100%80%60%40%20%0%Precisión ,385% ,008% Total ,225%

Resultados IV – Mejor y peor clasificado La categoría más evaluada es además la que mejores resultados ha obtenido Sólo 7 categorías de 30 totales evaluadas tienen precisiones por debajo del 40% Mejor clasificados Poder ejecutivo y administración pública – 94% (precisión) Derecho penal – 85% Parlamento – 79% Peor clasificados Organización de la justicia – 29% Análisis económico – 33%

Resultados V – Correlaciones

Resultados VI – Correlaciones

Conclusiones I A tenor de los resultados obtenidos, el algoritmo prueba1 empleado para la clasificación de noticias y contenidos sindicados de los medios de comunicación de España y México, tiene una precisión del 71% cuando se emplea el vocabulario del tesauro multilingüe europeo Eurovoc. La categoría temática más evaluada es poder ejecutivo y administración pública con valoraciones, obtiene el máximo nivel de precisión del 94%, por ende es en la que mejor se clasifican los contenidos. La temática relativa a vida económica e intercambios económicos se clasifican peor con precisiones del 30% al 45%, pero no tienen un número de evaluaciones tan alto como el resto de áreas temáticas de la prueba. Por lo que no se puede asegurar todavía un valor definitivo hasta que no se amplíe el número total de valoraciones.

Conclusiones II Las áreas temáticas mejor clasificadas corresponden a vida política, derecho y asuntos financieros con precisiones superiores al 60%, 70% y 80% en la mayor parte de los casos. Los evaluadores del año 2012 atribuyeron resultados más relevantes que los obtenidos por los evaluadores del año A pesar de todo, la gráfica comparativa de precisión global por temáticas, muestra tendencias muy similares. Ello indica un importante nivel de consenso en las valoraciones realizadas. Aunque la muestra original evaluada está constituida por contenidos y 37 categorías temáticas, quedan todavía por valorar 86. Ello permitiría obtener resultados más completos para determinar la precisión de clasificación en otras áreas temáticas y ofrecer un dato de precisión global del algoritmo mucho más exacto.

Bibliografía I ARDO, A Evaluation of automated subject classification. Disponible en: APARICIO ESCRIBANO, D Clasificación automática de vídeos. Universidad Carlos III. Disponible en: archivo.uc3m.es/bitstream/10016/8490/1/PFC_David_Aparicio_Escribano.pdf archivo.uc3m.es/bitstream/10016/8490/1/PFC_David_Aparicio_Escribano.pdf BLÁZQUEZ OCHANDO, M.; SERRANO MASCARAQUE, E Plataforma para la investigación de contenidos sindicados: desarrollo del sistema ReSync y aplicación a los medios de comunicación españoles y mexicanos. En: 8º Seminario Hispano- Mexicano de Bibliotecología y Documentación (México, marzo). Disponible en:

Bibliografía II BLÁZQUEZ OCHANDO, M Desarrollo de un sistema de clasificación automática de contenidos en medios de comunicación españoles y mexicanos. En: 9º Seminario Hispano-Mexicano de Bibliotecología y Documentación (México, 7-9 mayo). Disponible en: CLEVERDON, C.W.; KEEN, E.M Factors determining the performance of indexing systems. En: Technical report, College of Aeronautics, Cranfield. LANCASTER, F.W Information retrieval systems – characteristics, testing and evaluation. En: Criteria by Which Information Retrieval Systems May Be Evaluated. Willey. LÓPEZ HERRERA, A.G Modelos de sistemas de recuperación de información documental basados en información lingüística difusa. Universidad de Granada. Disponible:

Bibliografía III SÁNCHEZ JIMÉNEZ, R La documentación en el proceso de evaluación de Sistemas de Clasificación Automática. En: Documentación de las Ciencias de la Información. Vol. 30, Disponible en: LIN, S.H.; SHIH, C.S.; CHANG CHEN, M ACIRD: An Intelligent Internet Information System Based on Data Mining. Disponible en: