Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porAnselmo Sepeda Modificado hace 10 años
1
Emiliano González, Gonzalo Castillo, Santiago Avendaño
2
Objetivos Construir una aplicación para: Brindar información sintetizada al usuario Brindar la información más relevante Abarcar todas las características importantes del dominio en cuestión. La aplicación va a estar centrada en un dominio particular, que son las opiniones sobre restaurantes de la ciudad de Buenos Aires
3
Módulos El sistema se compone de módulos El sistema tiene una arquitectura de tipo pipeline. A continuación, describiremos cada uno de estos módulos y las operaciones que realizan. Formater Fragmenter Categorizer Scorer Filter Summarizer
4
Formater Establece un formato en común para todos los comentarios, quitando: mayúsculas acentos espacios dobles caracteres especiales Input: un comentario Output: el comentario formateado
5
Fragmenter Divide un comentario en varios snippets (fragmentos), en cada: Punto. Coma, Punto y coma ; Dos puntos : Paréntesis ( y ) Signo menos - Signo de interrogación ? Input: comentario Output: fragmentos de comentario
6
Categorizer Identifica los fragmentos de comentario en 6 clases (Comida, Servicio, Ambiente, Precio, Dobles, Otros). Usamos Weka: Usamos el filtro StringToWordVector para filtrar los datos. Categorizamos mediante un clasificador Ibk, entrando con 5000 snippets clasificados. Input: fragmento de comentario Output: fragmento categorizado
7
Scorer Asigna un puntaje de relevancia a los snippets. Usamos 6 diccionarios con puntos (positivos y negativos) previamente asignados: Adjetivos calificativos de comida, servicio, ambiente y precio Negadores (no y nada) Intensificadores Input: snippet + una categoria Output: score para el snippet.
8
Filter Filtra los snippets similares dentro de una misma categoría. Además filtra aquellos snippets que tengan score CERO. Input: conjunto de snippets Output: conjunto de snippets filtrado
9
Summarizer Realiza un proceso de selección de aquellos snippets más relevantes dentro de una misma categoría, según distintas estrategias. Estrategias: Seleccionar N positivos y M negativos (N y M enteros). Seleccionar aquellos que tengan los N mayores scores y los M menores. Seleccionar un % de positivos y un % de negativos. Seleccionar los N de mayor valor absoluto de score. Input: conjunto de snippets (con puntaje) Output: conjunto de snippets
10
Formater Fragmenter Categorizer Scorer Filter Summarizer La calidad de la comida es buena. En contraparte de la comida, la atención es altamente deficiente, con mucha demora y poco cordial. El ambiente es muy ruidoso. la calidad de la comida es buena. en contraparte de la comida, la atencion es altamente deficiente, con mucha demora y poco cordial. el ambiente es muy ruidoso. 1: la calidad de la comida es buena 2: en contraparte de la comida 3: la atencion es altamente deficiente 4: con mucha demora y poco cordial 5: el ambiente es muy ruidoso 1(Comida): la calidad de la comida es buena 2(Comida): en contraparte de la comida 3(Servicio): la atencion es altamente deficiente 4(Servicio): con mucha demora y poco cordial 5(Ambiente): el ambiente es muy ruidoso 1(Comida) (8.0): la calidad de la comida es buena 2(Comida) (0.0): en contraparte de la comida 3(Servicio) (-16384.0): la atencion es altamente deficiente 4(Servicio) (-112.0): con mucha demora y poco cordial 5(Ambiente) (-128.0): el ambiente es muy ruidoso 1(Comida)(8.0): la calidad de la comida es buena 3(Servicio)(-16384.0): la atencion es altamente deficiente 4(Servicio)(-112.0): con mucha demora y poco cordial 5(Ambiente)(-128.0): el ambiente es muy ruidoso la calidad de la comida es buena la atencion es altamente deficiente el ambiente es muy ruidoso
11
Trabajo a futuro Obtener resumenes por restaurantes Computar snippets de tipo doble Encontrar sentimientos dentro de la categoria otros (Ej: muy recomendado). Mejorar la precisión del categorizador Mejorar el módulo de filtrado de snippets similares. Mejorar performance
12
Conclusiones
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.