La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Emiliano González, Gonzalo Castillo, Santiago Avendaño.

Presentaciones similares


Presentación del tema: "Emiliano González, Gonzalo Castillo, Santiago Avendaño."— Transcripción de la presentación:

1 Emiliano González, Gonzalo Castillo, Santiago Avendaño

2 Objetivos Construir una aplicación para: Brindar información sintetizada al usuario Brindar la información más relevante Abarcar todas las características importantes del dominio en cuestión. La aplicación va a estar centrada en un dominio particular, que son las opiniones sobre restaurantes de la ciudad de Buenos Aires

3 Módulos El sistema se compone de módulos El sistema tiene una arquitectura de tipo pipeline. A continuación, describiremos cada uno de estos módulos y las operaciones que realizan. Formater Fragmenter Categorizer Scorer Filter Summarizer

4 Formater Establece un formato en común para todos los comentarios, quitando: mayúsculas acentos espacios dobles caracteres especiales Input: un comentario Output: el comentario formateado

5 Fragmenter Divide un comentario en varios snippets (fragmentos), en cada: Punto. Coma, Punto y coma ; Dos puntos : Paréntesis ( y ) Signo menos - Signo de interrogación ? Input: comentario Output: fragmentos de comentario

6 Categorizer Identifica los fragmentos de comentario en 6 clases (Comida, Servicio, Ambiente, Precio, Dobles, Otros). Usamos Weka: Usamos el filtro StringToWordVector para filtrar los datos. Categorizamos mediante un clasificador Ibk, entrando con 5000 snippets clasificados. Input: fragmento de comentario Output: fragmento categorizado

7 Scorer Asigna un puntaje de relevancia a los snippets. Usamos 6 diccionarios con puntos (positivos y negativos) previamente asignados: Adjetivos calificativos de comida, servicio, ambiente y precio Negadores (no y nada) Intensificadores Input: snippet + una categoria Output: score para el snippet.

8 Filter Filtra los snippets similares dentro de una misma categoría. Además filtra aquellos snippets que tengan score CERO. Input: conjunto de snippets Output: conjunto de snippets filtrado

9 Summarizer Realiza un proceso de selección de aquellos snippets más relevantes dentro de una misma categoría, según distintas estrategias. Estrategias: Seleccionar N positivos y M negativos (N y M enteros). Seleccionar aquellos que tengan los N mayores scores y los M menores. Seleccionar un % de positivos y un % de negativos. Seleccionar los N de mayor valor absoluto de score. Input: conjunto de snippets (con puntaje) Output: conjunto de snippets

10 Formater Fragmenter Categorizer Scorer Filter Summarizer La calidad de la comida es buena. En contraparte de la comida, la atención es altamente deficiente, con mucha demora y poco cordial. El ambiente es muy ruidoso. la calidad de la comida es buena. en contraparte de la comida, la atencion es altamente deficiente, con mucha demora y poco cordial. el ambiente es muy ruidoso. 1: la calidad de la comida es buena 2: en contraparte de la comida 3: la atencion es altamente deficiente 4: con mucha demora y poco cordial 5: el ambiente es muy ruidoso 1(Comida): la calidad de la comida es buena 2(Comida): en contraparte de la comida 3(Servicio): la atencion es altamente deficiente 4(Servicio): con mucha demora y poco cordial 5(Ambiente): el ambiente es muy ruidoso 1(Comida) (8.0): la calidad de la comida es buena 2(Comida) (0.0): en contraparte de la comida 3(Servicio) (-16384.0): la atencion es altamente deficiente 4(Servicio) (-112.0): con mucha demora y poco cordial 5(Ambiente) (-128.0): el ambiente es muy ruidoso 1(Comida)(8.0): la calidad de la comida es buena 3(Servicio)(-16384.0): la atencion es altamente deficiente 4(Servicio)(-112.0): con mucha demora y poco cordial 5(Ambiente)(-128.0): el ambiente es muy ruidoso la calidad de la comida es buena la atencion es altamente deficiente el ambiente es muy ruidoso

11 Trabajo a futuro Obtener resumenes por restaurantes Computar snippets de tipo doble Encontrar sentimientos dentro de la categoria otros (Ej: muy recomendado). Mejorar la precisión del categorizador Mejorar el módulo de filtrado de snippets similares. Mejorar performance

12 Conclusiones


Descargar ppt "Emiliano González, Gonzalo Castillo, Santiago Avendaño."

Presentaciones similares


Anuncios Google