Categorización de noticias web

Slides:



Advertisements
Presentaciones similares
Nuevo sitio web de Sulzer Internet Core Team | Julio 2012.
Advertisements

Los motores de búsqueda
BUSCADORES DE LA WEB.
Paginas de Inicio Personalizadas Ángel Sánchez Férez Ángel Sánchez Férez David González Gómez David González Gómez.
MÉTODOS Y ELEMENTOS DE PROGRAMACIÓN
Informe Académico Informe está diseñado para cubrir las necesidades de investigación de los usuarios de habla hispana. Contiene artículos en texto completo.
Recopilación (De la Torre 2007) Maribel Angeles Guzmán.
Buscar bibliografía en
Sistema de Agrupamiento y Búsqueda de Contenidos de la Blogosfera de la ESPOL, Utilizando Hadoop como Plataforma de Procesamiento Masivo y Escalable de.
Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.
Definicion Son bases de datos creadas a partir de la información obtenida por programas que sistemáticamente recorren la Internet, localizando recursos.
Estrategias de Búsqueda
Desarrollo de aplicaciones web en entorno servidor
Programas informáticos. Software Se denomina software al conjunto de programas y procedimientos necesarios para hacer posible la realización de una tarea.
EL INTERNET El Internet es una red informática descentralizada, que para permitir la conexión entre computadoras opera a través de un protocolo de comunicaciones.
1 Search Engine Optimization. 22 Objetivo Adquirir conceptos básicos de SEO y herramientas de uso.
 Tema del proyecto  Integrantes y roles del equipo  Objetivos del proyecto  Alcance.
¿QUÉ SIGNIFICA NEW TICs?
DOCTORADO EN CIENCIAS GERENCIALES ESTUDIO INDEPENDIENTE I Cohorte Maracay, 2012 JORGE ELIECER ANDRADE CI
Arquitectura de la Información Prof. Adelaide Bianchini – Dpto. de Computación y Tecnología de la Información, Universidad Simón Bolívar. Febrero 2006.
Una base de datos es un “almacén” que nos permite guardar grandes cantidades de información de forma organizada para que luego podamos encontrar y utilizar.
Elaborado por: Aldo López Garrido Aránzazu Andrade Lara David González Quiroz.
Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.
Fundamentos de bases de datos:
Google Objetivos: comprender y conocer los beneficios que nos entrega este buscador. Nombres: -Javiera Arratia -Milena Pereira Curso: 2ºMedio B Fecha:
GOOGLE     Es el buscador más utilizado es la fuente prioritaria de sus ingresos y utilización, tienen desarrolladas.
PAGINAS WEB EQUIPO RAM.
2 Conjunto de Páginas o Web sites sirven como punto de entrada único Información de una institución -Actúa como punto de entrada -Concentra servicios.
Blogs.

Representación de Algoritmos
EL INTERNET. HISTORIA DEL INTERNET  La historia de Internet se remonta al temprano desarrollo de las redes de comunicación. La idea de una red de ordenadores.
SISTEMA PARA LA CATEGORIZACIÓN AUTOMÁTICA DE CORREO ELECTRÓNICO Camilo Rodríguez, Departamento de Ingeniería de Sistemas, Universidad Nacional de Colombia.
LÓGICA DE PROGRAMACIÓN LSC. Susana Alejandra López Jiménez.
Tecnologías para el Aprendizaje
BUSCADORES.
Martínez Quechotl Alejandra 1° “F”. Internet es una gran red internacional de ordenadores. Permite, como todas las redes, compartir recursos. Es decir:
Jóvenes Creando Futuro. ¿Qué es Internet?  Internet es una red mundial de ordenadores que alcanza a todos los países. Es la que más ordenadores tiene.
COLEGIO DE BACHILLERES PLANTEL 13 XOCHIMILCO-TEPEPAN MATERIA:TIC EQUIPO:21 PRESENTACION: BASE DE DATOS ALUMNAS: Adán Millán Sánchez.
Bases de Datos.
COLEGIO DE BACHILLERES “XOCHIMILCO TEPEPAN” Nº13  Tecnologías de la Información y comunicación 3.  Profa. Gabriela Pichardo Lazardo EQUIPO 25  Emmanuel.
UNIVERSIDAD TECNOLÓGICA ECOTEC. ISO 9001:2008 Taller Utilice Power Point para elaborar una presentación y responder las siguientes preguntas: 1) ¿Qué es.
Libros electrónicos.
Por: Mónica María Rúa Blandón
ESCUELA NORMAL PARA EDUCADORA ‘’PROFR. SERAFIN CONTRERAZ MANZO’’
Búsqueda de Información en Internet
TRABAJO SOBRE LA DEEP WEB
MOTORES DE BUSQUEDA.
Antonio López Gracia Fernando Noain Fernandez Ricardo Meana de la Llave
Los principales servicios básicos de internet: World Wide Web, Correo Electrónico, Conversaciones en línea y grupos de conversación en la solución de.
UNITEC NEGOCIOS ELECTRÓNICOS ”DESARROLLO DE SOFTWARE ”
Naime Cecilia del Toro Alvarez
Hipertexto Transfer Protocol o HTTP: define la sintaxis y la semántica que utilizan los elementos de software de la arquitectura web (clientes, servidores,
PUBLICIDAD EN INTERNET La publicidad es un tema muy complejo porque muchos anunciantes diferentes tratan de llegar a muchos tipos de audiencias.
Estrategias efectivas para buscar y encontrar información Dr. Valentino Morales López Investigador INFOTEC Centro de Investigación.
Tema: Motores de Búsqueda
Temas: El Ordenador | Redes | ¿Qué es un wiki? | Diseño Web | Programación informática | Hojas de cálculo El OrdenadorRedes¿Qué.
la publicidad en las paginas web han sido de gran impacto en nuestros tiempos modernos ya que ella han logrado atraer a publico en general, ha demás.
“Como hacer la definición de Deporte en el País Vasco” TEMA : Ajedrez.
TIC MÓNICA BAUTISTA CORONA ROCÍO JAHUEY BIÑUELO
Gerlin Guerrero Caracas, Octubre de 2002 UNIVERSIDAD PEDAGÓGICA EXPERIMENTAL LIBERTADOR INSTITUTO PEDAGÓGICO DE CARACAS.
Los buscadores Buscadores jerárquicos : son los motores de búsqueda que disponen de los spiders mas potentes , rastrean internet , buscando información.
se creó la ARPA (Agencia para Proyectos Avanzados de Investigación) y el resultado fue ARPAnet. Este despues se dividio en dos sistemas : AARPAnet:
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Facultad de Ciencias Exactas Universidad Nacional del Centro de la Provincia de Buenos Aires (UNICEN) Nicolás A. Tourné Directora: Dra. Daniela Godoy Tandil,
En Internet: Los datos se transforman en información cuando una persona los lee, los comprende y los usa con algún fin: para estudiar, para trabajar,
BUSINESS T&G Think & Grow Uniclass Gestión Documental Solución Web para Mejorar la Captura y Gestión.
Conalep 150 Tehuacán inmi 309 soma
Arquitectura de la Información Sitemap
1.ª Parte: Dónde y cómo buscar información.  Cuando se busca información sobre un tema, es necesario emplear una «estrategia de búsqueda» para optimizar.
Transcripción de la presentación:

Categorización de noticias web Introducción al lenguaje natural Febrero 2011 Orión García Jorge Gil

Índice: Problema actual Objetivos Tarea a desarrollar Herramientas utilizadas Evaluación Artículos relacionados consultados

Vídeo explicativo

Problema Mucha información actualmente en Internet Imposible recorrer todas las webs Imposible recorrer una web entera Necesidad de obtener información personalizada

Solución Tener un servicio encargado de buscar noticias personalizadas para ti De distintas webs de noticias De distintos temas

Objetivos Categorizar páginas webs Paginas web categorizadas en ontologías Recomendación noticias en base a perfiles

Definir herramientas a utilizar Se ha optado por: Lucene – Motor de búsqueda en Java Java – Lenguaje de programación Eclipse – Entorno de desarrollo Jena – Manejo de ontologías DbPedia – Web semántica Apache Lucene - Motor de búsqueda de palabras Jericho HTML Parser – Filtrado tags Word Net - Usado con el JWNL Library Google Api Translator Ivy – Filtrar páginas

Tareas Generar conjunto de entrenamiento por categorías Definir categorías Definir conjunto entrenamiento Definir herramientas utilizar Definir arquitectura del sistema Categorizar documentos web Almacenar resultados Recomendación de contenidos

Definir categorías Las categorías representan la clasificación de páginas de web desde dos puntos de vista: Desde los intereses del usuario Desde las posibles temáticas de una noticia o articulo Se considera que una noticia puede pertenecer a más de una categoría. Usado la ontología de DbPedia (Web Semántica con contenidos de la Wikipedia.): Se ha modelado una parte de la ontología Aporta información y relaciones de las categorías Aporta recursos (personas, compañías, objetos,…) que pertenecen a una categoría Todas las ventajas de la web semántica

Lista categorías Hay un total de 35 categorías: Arte Deportes Cómico Ciclismo Comics Automovilismo / Nascar Música Formula 1 Libros Juegos romanos Cine Baloncesto Dibujos animados /Anime Tenis Ciencia Bádminton Astrología Atletas Criminología Hockey sobre hielo Filosofía / Psicología Futbol Americano Moda Rugby Prensa rosa Lucha Libre Empresariales /Económicas Boxeo Religión Futbol Realeza Cricket Militar Patinaje artístico Diplomacia Monarquía / Gobierno Periodismo Arquitectura Política Playboy Juegos de mesa / Poker Entrenamiento / Preparación física

Definir conjunto de entrenamiento Requisitos: Generales: Noticias o artículos de varias fuentes informativas Noticias en español Específicos: Usar textos para entrenar similares al conjunto a clasificar Necesidad de representar una cierta diversidad en la temática de los artículos. Incluir nombres propios o recursos como representativos de una categoría (o como interesantes para un público objetivo.)

Generar conjunto entrenamiento Tras analizar las posibles soluciones: la mejor solución es generar un conjunto entrenamiento propio. Distintas fuentes de extracción de texto para el conjunto de entrenamiento-> Requisitos 2.1,2.2 y 2.3. Por cada categoría Tipos de extracción de información: Extraídos de los recursos de la categoría: DbPedia A través de la definición, sinónimos y búsqueda de la Wikipedia Noticias de una temática

Implementación Realizado con Lucene: Se usaran Índices para representar el conjunto de entrenamiento. Se usara el algoritmo de Lucene de TF/IDF. Función de similitud de espacio vectorial Arquitectura: Un índice por cada tipo de extracción Un documento por cada tipo de extracción y categoría Generación del índice Documentos con 2 campos: Nombre Categoría Texto con conceptos: recursos, definiciones, …

Procedimiento

Extraer texto Noticias: Recursos: Sinónimos: Búsqueda de webs de noticias diarias, con noticias categorizadas. Realizar lista de urls donde cuelgan noticias de una temática y sus categorías. Araña que recorra las urls, en busca de noticias de una categoría. Recursos: Conectarse a la web semántica DbPedia Obtener los recursos Acceder a los hijos de la categoría y sus recursos Sinónimos: Obtener definición de la categoría wikipedia Búsqueda sinónimos Traduce al castellano Busca definiciones en la Wikipedia Filtrándolos con Jerico

Analizar texto SpanishAnalicer: Extiende standard Analizer de Lucene Pasos: Filtrado de caracteres especiales StandarFilter: Lucene Lowercase: Lucene StopWords: Lista palabras vacías Steemmer: Snowball

Ejemplo conjunto entrenamiento Categoría futbol: Tipo DbPedia Tipo WikiPedia Tipo Noticias (http://dbpedia.org/ontology/SoccerPlayer ) dbpedia:Michael_Owen El fútbol (del inglés football), también llamado futbol, balompié o soccer, es un deporte de equipo jugado entre dos. http://www.marca.com/futbol/1adivision.html dbpedia:Pelé El fútbol playa o fútbol de playa es una modalidad del fútbol que se juega sobre una superficie de arena lisa. http://www.as.com/futbol/ dbpedia:Brian_Laudrup Es un deporte derivado de la unión de otros deportes: el fútbol, que es la base del juego; el waterpolo; el voleibol, el balonmano y el baloncesto. http://www.elmundo.es/elmundodeporte/futbol.html dbpedia:Emilio_Butragueño http://www.elpais.com/deportes/futbol/ http://www.larazon.es/secciones/deportes/futbol http://www.europapress.es/deportes/futbol-00162/

Categorización Extracción de texto de una web Usando Jerico Analizar con Spanish Analicer Realizar una búsqueda sobre los índices Buscando los documentos con mayor función de similitud Usando la formula del FinalScoreCalculator Resulta un FinalScore Comparar los distintos scores y seleccionar los mayores

Categorizador de noticias El sistema consta de 5 procesos: Rastreador: Encargado de recorrer las Url padre y decidir cual será su futuro uso Index Generator: Encargado de generar las url Calculator: Lee los scores intermedios y calcula el score final Categorizador: Lee urls de noticias y las categoriza Evaluator: Encargado de leer urls para evaluar y calcula la validez del sistema para estas.

Evaluación

Método de Evaluación Simple: Consideramos que una url sólo habla de 1 tema Lo ideal sería que la categoría original de la url saliera con la mejor puntuación/clasificación. Penalizamos a las urls que salgan con la mejor puntuación y no sean la categoría original.

Método de Evaluación Simple Url con categoría original de Baloncesto Clasificación Ejemplo 1: Baloncesto: TruePositive = 1 FalseNegative = 0 Resto Cat: TrueNegative = 1 Ranking Categoría Score 1º Baloncesto 0.3 2º Música 0.2

Método de Evaluación Simple Url con categoría original de Baloncesto Clasificación Ejemplo 2: Baloncesto: TruePositive = 0 FalseNegative = 1 Moda: FalsePositive = 1 Resto Cat: TrueNegative = 1 Ranking Categoría Score 1º Moda 0.3 2º Música 0.2 3º Baloncesto 0.1

Evaluación Resultados Método Simple: Pesos (Dbpedia, Wikipedia, Urls) (1, 0, 0) (0 ,1, 0) (0, 0, 1) (0.33, 0.33, 0.33) Macroaveraging Precision 0.10393 0.10868 0.16963 0.20254 Microaveraging Precision 0.16806 0.15966 0.22689 0.2521 Macroaveraging Recall 0.13409 0.09583 0.18235 0.20386 Microaveraging Recall Correctly Classified 40 38 54 60 Total Number 238 Classification Accuracy

Evaluación Resultados Método Simple: Pesos (Dbpedia, Wikipedia, Urls) (0.33, 0.33, 0.33) (0.25, 0.25, 0.5) (0.2, 0.2, 0.6) (0.3, 0.2, 0.5) Macroaveraging Precision 0.20254 0.22618 0.23028 0.21268 Microaveraging Precision 0.2521 0.26471 0.2605 Macroaveraging Recall 0.20386 0.2274 0.21759 0.22361 Microaveraging Recall Correctly Classified 60 63 62 Total Number 238 Classification Accuracy

Evaluación Método de Evaluación Complejo: Una url puede hablar de varios temas. El usuario puede estar interesado sólo en alguno de los temas de los que habla la url. Método: Consideramos que una url puede hablar de 3 temas Lo ideal sería que la categoría original de la url saliera con la mejor puntuación/clasificación. Penalizamos a las que salen con mejor puntuación que la categoría original.

Evaluación Método de Evaluación Complejo Url con categoría original de Baloncesto Clasificación Ejemplo 1: Baloncesto: TruePositive = 1 FalseNegative = 0 Resto Cat: TrueNegative = 1 Ranking Categoría Score 1º Baloncesto 0.3 2º Música 0.2 3º Cine 0.1

Evaluación Método de Evaluación Complejo Url con categoría original de Baloncesto Clasificación Ejemplo 2: Baloncesto: TruePositive = 0.66 FalseNegative = 0.33 Moda: FalsePositive = 0.33 Resto Cat: TrueNegative = 1 Ranking Categoría Score 1º Moda 0.3 2º Baloncesto 0.2 3º Música 0.1

Evaluación Método de Evaluación Complejo Url con categoría original de Baloncesto Clasificación Ejemplo 3: Baloncesto: TruePositive = 0.33 FalseNegative = 0.66 Moda: FalsePositive = 0.66 Música: FalsePositive = 0.33 Resto Cat: TrueNegative = 1 Ranking Categoría Score 1º Moda 0.3 2º Música 0.2 3º Baloncesto 0.1

Evaluación Método de Evaluación Complejo Url con categoría original de Baloncesto Clasificación Ejemplo 4: Baloncesto: FalseNegative = 1 Moda: FalsePositive = 1 Música: FalsePositive = 0.66 Cine: FalsePositive = 0.33 Resto Cat: TrueNegative = 1 Ranking Categoría Score 1º Moda 0.3 2º Música 0.2 3º Cine 0.1

Evaluación Resultados Método Complejo: Pesos (Dbpedia, Wikipedia, Urls) (1, 0, 0) (0 ,1, 0) (0, 0, 1) (0.33, 0.33, 0.33) Macroaveraging Precision 0.61165 0.44547 0.48839 0.47354 Microaveraging Precision 0.23194 0.22847 0.26354 0.27393 Macroaveraging Recall 0.37131 0.3492 0.4094 0.42814 Microaveraging Recall 0.46778 0.46078 0.5042 0.52101 Correctly Classified 111.333 109.666 119.999 123.999 Total Number 238 Classification Accuracy

Evaluación Resultados Método Complejo: Pesos (Dbpedia, Wikipedia, Urls) (0.33, 0.33, 0.33) (0.25, 0.25, 0.5) (0.2, 0.2, 0.6) (0.3, 0.2, 0.5) Macroaveraging Precision 0.47354 0.49349 0.50004 0.49012 Microaveraging Precision 0.27393 0.27629 0.27178 0.27352 Macroaveraging Recall 0.42814 0.43574 0.43064 0.43422 Microaveraging Recall 0.52101 0.52241 0.51541 Correctly Classified 123.999 124.333 122.666 Total Number 238 Classification Accuracy

Conclusiones Problema- Extraer noticias de la web con spider- Ineficiente e inexacto Solución- Implementar servidor RSS

Problemas encontrados Definición de las categorías Traducción de conceptos de la DbPedia del Inglés Perdida del concepto con la traducción y sinónimos Acceso a la web para manejo de la ontología Relación subclassOf – sentido decreciente Excesivo tiempo (generar Categorías) Parseo del texto de las páginas web Codificación / Descodificación Dependencia a internet Dependencia de la interfaz de la web Url padre de las noticias pueden cambiar (competir con spider Google) Textos repetidos en todas las noticias no son filtrados

Trabajos futuros Creación de una UI (Aplicación web) Hacer noticias indexables al acabar el dia Selección de atributos(Filtrado) Evaluación Usando definiciones del WordNet Depurar funcionamiento Usando categorías hijas de la ontología Añadir lista palabras Añadir filtro Buscando en la WikiPedia Usando un analizador de binomios para recursos dbPedia Sus sinónimos Usando los definiciones de los recursos de la dbpedia Añadir RSS- como método de extracción de noticias

Problema---SOOOOBRAA Mucha información actualmente en Internet Imposible recorrer todas las webs Imposible recorrer una web entera Necesidad de obtener información personalizada

SOOOBRA 31 billones de búsquedas en Google cada mes En 2007 ese numero era 2,7 billones Crecimiento En 4 años Internet ha conseguido llegar a una audiencia de 50 millones A la televisión le costo 13 años A Facebook 2 años En 1984 el numero de aparatos de Internet era 1000 En 1992 el numero de aparatos de Internet era 1000000 En 2008 el numero de aparatos de Internet era 1000000000

SOOOBrA Hay 540000 palabras en ingles 5 veces más que en tiempos de Shakespeare’s Se estima que en una semana de New York Times contiene mas información de la que se podria encontrar en toda su vida en el siglo 18. Se estima que 4 exabytes of unique information will be generated this year.