Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial.

Slides:



Advertisements
Presentaciones similares
Guía Básica de. ¿Qué es ? Es una plataforma de microblogging basada en el envío de mensajes cortos entre usuarios Cada usuario decide a quien seguir,
Advertisements

¿Qué es? Características ¿Para qué sirve? BLOGS Elementos.
ESTRATEGIA E-BUSINESS
Visión general de las herramientas Taller de Capacitación Una Guía Suficientemente Buena [insertar lugar], [insertar fecha]
COMPORTAMIENTO DE COMPRA
Evaluación del desempeño
Sistemas de Información en las Organizaciones
SEGMENTACIÓN DE MERCADO
Septiembre, Se enfoca en todos los elementos de la publicidad como: En el desarrollo del mensaje Planeación de medios Evaluación Competidor.
© Hoplite Software Qué es INPRESS INPRESS es una herramienta de trabajo on-line que facilita la gestión integral de los diferentes procesos de comunicación,
MERCADEO ELECTRÓNICO – Posicionamiento SEM y SEO SEM: Search Engine Marketing SEO: Search Engine Optimization.
Difusión de Contenidos (Notas, Noticias,…)
PLAN DE INVESTIGACIÓN.
SEGMENTACION DE MERCADOS
COMPORTAMIENTO DEL CONSUMIDOR EN TURISMO
El proceso de extracción de conocimiento
ATTOS Análisis de Tendencias y Temáticas a través de Opiniones y Sentimientos Kick-off 18 de julio de 2013.
Marketing del Turismo: Segmentación y Posicionamiento
Ideas básicas El usuario es, actúa y vive, cada vez más, online La biblioteca debe atender sus consultas en el mínimo plazo posible… …Y usar los medios.
Gestión de las comunicaciones del Proyecto
Propósitos del Resumen Identificación de Contenidos
Revistas: -Periódicos: -Semanarios. -Diarios -Revistas: -Divulgativas
Campaña Publicitaria Lanzamiento EJEMPLOS.
TÉCNICAS DE DECONSTRUCCIÓN APLICADAS A LAS TECNOLOGÍAS DEL LENGUAJE HUMANO TIN Octubre 2014: Informe Evaluación de resúmenes Grupo de Procesamiento.
Capítulo 4: Inventario de Emisiones
EVALUACION INTERNA NIVEL MEDIO
Una Revolución llamada Social Media Ing. Analía Mikati Oportunidades y beneficios para profesionales y negocios Organizado.
Isabel Edo del Moral Susana Fernández LLoria Patricia Moraga Barrero
Business Intelligence y Data Mining
La facilidad y libertad con que pueden publicarse contenidos en la Red hacen necesaria la adopción de una serie de criterios que le ayuden a filtrar los.
DANIEL CASSANY. DESCRIBIR EL ESCRIBIR.1991
Evaluación del impacto científico © FECYT. Fundación Española para la Ciencia y la Tecnología 1.
Definición de Etiquetas Semánticas Dentro de la Tesis Digital para Realizar Búsquedas de Información Pertinente Dra. Rocío Abascal-Mena DC-2006, México.
APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)
Dirección Provincial de Educación Superior y Capacitación Educativa Dirección de Formación Continua CENTRO DE INVESTIGACIONES E INNOVACIONES EDUCATIVAS.
Manejo Eficiente de la información en el siglo XXI
Manejo Eficiente de la información en el siglo XXI ¿Qué, para qué y cómo Buscar? 4era. Parte Por: Rubén Peña.
Legorreta García Gloria
Identificación y Descripción de los Impactos Ambientales
2 Conjunto de Páginas o Web sites sirven como punto de entrada único Información de una institución -Actúa como punto de entrada -Concentra servicios.
Bloque V Segmentación del Mercado
Algunas técnicas, estrategias y dimensiones ¿Evaluamos nuestras aulas?

Contacto: Cómo Hacer Mercadeo en Redes Sociales Ventajas y beneficios del Mercadeo en redes.
MÉTODOS DE EVALUACIÓN DEL DESEMPEÑO
SISTEMA PARA LA CATEGORIZACIÓN AUTOMÁTICA DE CORREO ELECTRÓNICO Camilo Rodríguez, Departamento de Ingeniería de Sistemas, Universidad Nacional de Colombia.
Facebook para empresas
SENA REGIONAL HUILA REGIONAL HUILA CENTRO DE LA INDUSTRIA LA EMPRESA Y LOS SERVICIOS Huila Elementos de sistemas de información.
Elaboración automática de resúmenes Nahiko Arraiza Eguillor 17-V-2006.
SEGMENTACION DE MERCADOS
Plan de Medios.
ESTABLECIMIENTO DE RELACIONES ADM. APROPIADAS PARA IMPLEMENTAR DIVERSAS ESTRATEGIAS COMPETITIVAS.
U.D. 3. Investigación Comercial
Unidad 1. El Proceso de la Comunicación Comercial
ENCUESTA.
RECLUTAMIENTO Y SELECCIÓN
Desarrollo y promoción de redes sociales Propuesta Abril 2011.
Análisis y Diseño de Aplicaciones
 Los anuncios en televisión cada vez tienen menos impacto en la audiencia.  La comunicación tradicional por correo tiene cada vez una respuesta más.
PUBLICIDAD EN INTERNET La publicidad es un tema muy complejo porque muchos anunciantes diferentes tratan de llegar a muchos tipos de audiencias.
Técnicas para el análisis de datos digitales
Aplicar los conceptos y las herramientas para la administración de la calidad y gestión de riesgos del plan del proyecto. MTRA. VERÓNICA NOHEMI TAVERNIER.
Gestión comercial y servicio de atención al cliente
UNIDAD II: DIFUSIÓN Estrategia de medios. Pasos para la selección de medios. Aplicación de los medios a un producto, marca y presupuesto.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.

1.ª Parte: Dónde y cómo buscar información.  Cuando se busca información sobre un tema, es necesario emplear una «estrategia de búsqueda» para optimizar.
Traducción Científico-Periodística Año 2014
FASES DE LA AUDITORÍA ADMINISTRATIVA
“portafolio digital”.
Transcripción de la presentación:

Generación Automática de Resúmenes de Tweets sobre Reputación Empresarial

Motivación  Las empresas necesitan conocer qué se dice de ellas en los medios, para Reaccionar frente a comentarios negativos (alertas) Sacar partido de los comentarios positivos Conocer el impacto y alcance de sus campañas publicitarias (Online) Reputation Management Seguimiento Valoración Acción

Seguimiento ( Monitoring )

Generación Automática de Resúmenes (GAR)  ¿En qué consiste? Identificar las ideas más importantes de uno o varios documentos y presentarlas al usuario de forma concisa y útil.  ¿Por qué es necesaria? Hacer frente a la sobrecarga de información Su origen se remonta a mediados del siglo XX (Luhn, 1958), pero su popularidad aumenta con la generalización de Internet  Tipologías de resúmenes Indicativos versus informativos Mono-documento versus multi-documento Genéricos versus adaptados al usuario Resumen por extracción versus resumen por abstracción

Generación Automática de Resúmenes La petrolera china CNPC estudia la compra, según un diario de Hong Kong, de la filial argentina de Repsol, YPF, por millones de euros. Repsol, que controla un 85 por 100 de YPF, reconoció que ha recibido “propuestas de distinta naturaleza y de diferentes compañías” para entrar en el accionariado de YPF, sin que “haya ninguna en firme”. La compañía recordó en la comunicación que lleva meses informando de que pretende incorporar nuevos accionistas al capital de YPF. La petrolera china CNPC estudia la compra, según un diario de Hong Kong, de la filial argentina de Repsol, YPF, por millones de euros. La compañía recordó en la comunicación que lleva meses informando de que pretende incorporar nuevos accionistas al capital de YPF. Original La petrolera china CNPC estudia la compra de YPF, por millones de euros. Por su parte, Repsol reconoce haber recibido ofertas, así como su deseo de incorporar nuevos accionistas. Extracción Abstracción

Generación Automática de Resúmenes  Factores de contexto Entrada : forma, especificidad y multiplicidad de la fuente. Propósito : situación, audiencia y función. Salida : extensión, formato y estilo.  Técnicas Puntuar las oraciones en función de: las frecuencias de sus términos, su posición en el documento, su relación con un determinado tema o consulta de usuario, su similitud con el título del documento, etc. Métodos basados en grafos, plantillas, etc.

CASO DE ESTUDIO: Resúmenes de Tweets sobre Reputación Empresarial  Entrada: Conjunto de tweets en los que se menciona a una empresa objetivo Máximo 140 caracteres Lenguaje coloquial Gran cantidad de errores gramaticales y ortográficos Hashtags, menciones a usuarios, enlaces externos (webs, imágenes, etc.)

CASO DE ESTUDIO: Resúmenes de Tweets sobre Reputación Empresarial  Propósito: Servir a los analistas/consumidores como sustituto de los tweets originales mostrando únicamente la información relevante para la toma de decisiones  ¿Qué información es relevante cuando se monitoriza la reputación de una empresa? Diferencias con la generación automática de resúmenes tradicional Necesidad de métodos específicos

CASO DE ESTUDIO: Resúmenes de Tweets sobre Reputación Empresarial  Salida: Difiere de los formatos habituales en GAR y se asemeja a un informe A priori: Listado de temas ordenados por importancia relativa, junto con los tweets más representativos Listado de los n tweets más negativos y más positivos Listado de los n tweets más relevantes por dimensión reputacional Estadísticas, incluyendo: Número total de tweets con menciones a la empresa Número de tweets positivos/negativos Distribución por áreas geográficas Usuarios influyentes Etc.

La que se difunde con rapidez La que se propaga globalmente La que es potencialmente peligrosa para su imagen La que ensalza sus productos/comportamiento ¿Qué Información es Relevante cuando se Monitoriza la Reputación? La emitida por usuarios influyentes Contenido del mensaje Difusión del mensaje Emisor del mensaje

¿Qué Información es Relevante?: Contenido del Mensaje  ¿De qué depende? De la positividad/negatividad del mensaje De la subjetividad/objetividad del mensaje De la prioridad del tema y la dimensión reputacional

¿Qué Información es Relevante?: Contenido del Mensaje  ¿ Qué algoritmos tenemos? Clasificadores de polaridad (Acc. ≈ 66) Sistema de detección de temas (F(R,S) ≈ 47) Ranking de temas por prioridad (F(R,S) ≈ 30)  Colecciones RepLab: Polaridad – POSITIVO / NEGATIVO / NEUTRAL Subjetividad – OPINIONADO / NO OPINIONADO Temas – Ej. HIPOTECAS, COMISIONES, DESAHUCIOS Prioridad – ALERTA / MEDIA / BAJA Dimensiones reputacionales – PRODUCTS AND SERVICES / WORKPLACE / GOVERNANCE / CITIZENSHIP / INNOVATION / FINANCIAL / LEADERSHIP

¿Qué Información es Relevante?: Difusión del Mensaje  Tweets diferentes con el mismo mensaje (GAR):  Propagación en Twitter: Compartición directa del mensaje ( retweets ) Retweets modificados ( modified tweets ) Respuestas al mensaje ( replies )

 ¿Qué algoritmos tenemos? Retweets y Modified Retweets: Información proporcionada por el API de Twitter Mensajes con mismo significado: Algoritmos básicos de similitud textual ( Jaccard, Dice-Sorensen, solapamiento de jerarquías de conceptos, distancia de edición en grafos ) Textual entailment Problema : Complejidad computacional ¿Qué Información es Relevante?: Difusión del Mensaje

¿Qué Información es Relevante?: Características del Emisor  Reputación del autor Número de seguidores Número de tweets publicados Número de tweets retweeteados Etc.  Ámbito geográfico Procedencia del autor Nacionalidades de sus seguidores Etc.  Características socio-culturales del autor Sexo Grupo de edad Profesión Etc.

¿Qué Información es Relevante?: Características del Emisor  ¿Qué tenemos? - RepLab 2013 y 2014 Número de seguidores (API Twitter) Perfiles anotados como INFLUYENTE/ NO INFLUYENTE Perfiles etiquetados con categorías de usuario relevantes para la reputación ( Ej. EMPLEADO / ACCIONISTA / INSTITUCIÓN / PRENSA ) Perfiles etiquetados con SEXO/EDAD

 Un tweet es relevante si … Su mensaje afecta negativamente a la imagen de la empresa Su mensaje ensalza las virtudes de la empresa Trata de un tema de especial importancia para la empresa Se difunde rápidamente por la red Alcanza a usuarios de muchos países Es emitido/retweeteado por un usuario influyente ¿Qué Información es Relevante?: Recopilación

¿Tienen todos los Criterios de Relevancia la misma Importancia?  ¿Qué peso dar a cada uno de los criterios para obtener un ranking de tweets? Aprendizaje supervisado Construcción de una colección de entrenamiento y test Reglas de experto Los tweets negativos son más relevantes que los positivos Los tweets de temas prioritarios son muy relevantes independientemente de su dimensión reputacional Los tweets que se difunden rápidamente pero sin polaridad no son relevantes

¿Cómo Construir y Presentar el Resumen?  Tenemos un ranking de tweets, cada uno con una puntuación que indica su importancia relativa  Muchos de estos tweets serán redundantes  Detección y eliminación de redundancia Similitud textual Textual entailment  Presentar al analista únicamente los top N tweets del ranking, clasificados por tema y por dimensión reputacional  Completar la información con estadísticas relevantes

Evaluación  Colección de evaluación Creación de una colección de evaluación, de forma semi-automática, a partir de las anotaciones del RepLab 2013 Para un subconjunto de entidades, restringimos la colección a los tweets de temas con prioridad ALERT dentro de estos, restringimos la colección a los tweets con polaridad ( POSITIVO y NEGATIVO ) y extraemos manualmente los N tweets más representativos de cada tema para formar el resumen

Evaluación  Estrategias de evaluación Etiquetado manual Polaridad, Temas, Prioridad y Dimensiones Etiquetado automático Sistemas presentados en RepLab 2013 y 2014  Métricas de evaluación Métricas de evaluación automáticas (ROUGE, Precisión y Cobertura) Evaluación manual sobre un subconjunto