Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat
Día 4 5. Minería de texto 5.1. Consideraciones teóricas 5.2. Representación y descripción: convirtiendo el texto en datos 5.3. Interpretación y exploración
5.1 Consideraciones teóricas
Enfoques para el análisis de contenido Enfoques descriptivos y exploratorios análisis de frecuencia de palabras análisis de co-ocurrencia (Doerfel y Barnett 1996) Enfoques deductivos métodos de análisis de contenido Automatizar la elección del esquema de categorización y la clasificación de los documentos en las categorías Análisis de clusters Menores costes iniciales no hay opciones teóricas sobre qué categorías son necesarias ex ante no se requiere ninguna codificación manual (Quinn et al 2009;. Simon y Xeon 2004 Computer science, statistics, computational linguistics natural language processing Probabilistic latent semantic indexing (Hofmann 1999) Latent Dirichlet allocation models (Blei et al. 2003 Singular value decomposition Nonnegative matrix factorization (Blei 2011).
Enfoques para el análisis de contenido Análisis automatizado de textos (Hillard et al 2007;. Monroe y Schrodt 2008) Clasificación de texto (sin supervisión y aprendizaje supervisado (Sebastiani 2002; Liu 2011; Scharkow 2011). Análisis de redes Semánticas (van Atteveldt 2008) Topic modeling Procesamiento del lenguaje natural - entender el significado a partir del lenguaje natural Detección de tendencias - Predecir temas emergentes Computer science, statistics, computational linguistics natural language processing Probabilistic latent semantic indexing (Hofmann 1999) Latent Dirichlet allocation models (Blei et al. 2003 Singular value decomposition Nonnegative matrix factorization (Blei 2011).
Enfoques para el análisis de contenido Métodos de aprendizaje supervisado Requieren elegir categorías y una muestra de documentos codificados manualmente Puede utilizarse para la mayoría de las preguntas con interés teórico Descubrimiento de un conjunto relevante de categorías a partir de los datos Enfoques deductivos Codificación basada en diccionario Análisis basado en reglas Computer science, statistics, computational linguistics natural language processing Probabilistic latent semantic indexing (Hofmann 1999) Latent Dirichlet allocation models (Blei et al. 2003 Singular value decomposition Nonnegative matrix factorization (Blei 2011).
Análisis de contenidos - aplicaciones
Minería de texto Objetivo principal - identificar regularidades en conjuntos de datos textuales (patrones, conexiones, perfiles, tendencias) latentes previamente desconocidos potencialmente útiles Extracción de información de los documentos y agregación de la colección completa Datos altamente redundantes Patrones – Encontrar frases importantes Conexiones - Encontrar palabras con significado semántico Reducir la complejidad - Crear un resumen de los documentos
Minería de texto – retos Conceptos Difíciles de representar - combinaciones sutiles de relaciones abstractas entre conceptos Altamente dimensionales - muchas maneras para representar conceptos similares Complejos - características múltiples
Características complejas de los medios sociales Microtextos Twitter y la mayoría de los mensajes de Facebook son muy cortos Contenido ruidoso deletreo inusual capitalización irregular Emoticones abreviaturas idiosincrásicas Temporalidad Fecha de creación modelos temporales para examinar tendencias, volatilidad, causalidad Bontcheva and Rout / Semantics of Social Media Streams
Características complejas de los medios sociales Contexto social Indispensable para una interpretación correcta de los contenidos de los medios sociales Posición estructural Autoridad del usuario Clusters Centrado en el usuario Usuarios como productores y consumidores de contenidos de los medios sociales Fuente rica de información explícita e implícita sobre los datos demográficos de los usuarios, intereses, opiniones Plurilingüe Hasta ahora los métodos de la tecnología semántica se han centrado en el Inglés Identificación automática de idioma - medios de comunicación social separados por grupos lingüísticos Bontcheva and Rout / Semantics of Social Media Streams
Minería de texto – limitaciones Palabras Homonimia: misma forma, significado diferente La polisemia: misma forma, significado relacionado Sinonimia: forma diferente, mismo significado Hiponimia: una palabra denota una subclase de otra Uso del lenguaje sarcasmo ironía
Minería de opiniones Extracción de opiniones del texto Opiniones: declaraciones subjetivas que reflejan sentimientos o percepciones de las personas sobre las entidades o eventos Se utiliza igualmente el concepto de “análisis de Sentimiento” Los medios sociales ofrece un entorno idóneo para que la gente comparta opiniones Fuente útil de información no estructurada El reto consiste en extraer la información útil
Minería de opinions y medios sociales Twitter stream fuente de datos centralizada actualizada en tiempo real nuevas fuentes de información se integran automáticamente en el corpus amplia gama de perspectivas individuales decenas de miles de contribuyentes activos involucrados en el discurso público
Minería de opinions y medios sociales Los medios de comunicación social ofrecen una gran cantidad de información sobre el comportamiento y los intereses de los usuarios: explícita: John le gusta ... implícitas: personas que les gusta ... tienden a ser grandes tomadores de riesgo asociativo: la gente que compra ... productos también tienden a comprar productos ... La información sobre los individuos no es útil por sí misma, PERO la búsqueda de grupos de intereses y opiniones compartidas es interesante Si mucha gente habla en los sitios de medios sociales sobre ...
Retos en la Minería de opiniones Identificar si un texto contiene opiniones o actitudes o no (las noticias de hechos vs. Editorial) Identificar la entidad expresando la opinión Identificar la polaridad y el grado de la opinión (a favor o en contra) Identificar el tema de la opinión (opinión acerca de qué?)
5.2 Representación y descripción: convirtiendo el texto en datos
Proceso de minería de texto Captura de información Recopilar, seleccionar, filtrar documentos que pueden ser útiles Extracción de Información - Organización Tweets contenidos del Sitio API de contenidos especializados (Newswires, actividad parlamentaria, ...) Definir las estructuras de datos Documentos de texto sin formato Tablas Bases de datos
Proceso de minería de texto Limpiar el texto Quitar las etiquetas y la información no textual Partición Texto en unidades - DTM Término1 Término2 Término3 … Términon Documento1 Documento2 Documento3 Documenton
Proceso de minería de texto Búsqueda entidades pertinentes (personas, organizaciones, instituciones) hechos acerca de las entidades (atributos) palabras clave Análisis co-ocurrencia, co-referencia, redes conceptuales clustering, clasificación de documentos, tendencias Visualización
Recursos y herramientas Ontologías, léxicos, terminologías, tesauros, gramáticas, corpus anotados Instrumentos Convertidores de documentos, detectores de oraciones, tokenisers, taggers, Chunkers, reconocedores de entidades, analizadores semánticos
Qué buscamos? Frecuencia Medidas de similitud - Correlación Superior / inferior Dentro de / entre poblaciones Medidas de similitud - Correlación Objetivo Patrones Combinaciones Co-referencia (redes latentes)! = Vínculos intencionales
5.3. Interpretación y exploración
Términos comunes Listas de términos comunes Métricas de términos y conjuntos de términos Agrupados por clusters Términos frecuentes – “Stop words” http://www.elwebmaster.com/referencia/stopwords-en-espanol http://latel.upf.edu/morgana/altres/pub/ca_stop.htm Evitar la dispersión Baja frecuencia en la DTM
Nubes de términos www.tagxedo.com/app.html Representación visual de frecuencias www.tagxedo.com/app.html
Redes semánticas Representación de términos relacionados Ego-red Términos como nodos Términos más comunes – evitar dispersión Ego-red Clústeres de términos Clasificación Distancia - Intensidad por color Centralidad
Redes de hashtag Listas de los hashtags que se utilizan en conjunto Métricas de términos y conjuntos de términos - recuentos Hashtag Hashtags como nodos Redes ego Clústeres de hashtags Clasificación Distancia Centralidad
Clustering Estrategia de reducción de datos reducir un gran número de variables a un conjunto más pequeño que mantiene la información de predicción del conjunto más amplio Separa los tweets en grupos que son similares con respecto a los términos contenidos en cada tweet Maximizar la disimilitud entre los grupos Minimizar la disimilitud entre los grupos
Análisis de clústeres – reducir la complejidad e investigación exploratoria Clustering (vincular términos semánticamente similares) vs. clasificación de términos (asignar términos a clases de un esquema de clasificación predefinida) creación de metadatos detección de temas Indexación conceptual (con hechos, eventos) clasificación de documentos