Técnicas para el análisis de datos digitales

Técnicas para el análisis de datos digitales
Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho

Día 4 5. Minería de texto 5.1. Consideraciones teóricas
5.2. Representación y descripción: convirtiendo el texto en datos 5.3. Interpretación y exploración

5.1 Consideraciones teóricas

Enfoques para el análisis de contenido
Enfoques descriptivos y exploratorios análisis de frecuencia de palabras análisis de co-ocurrencia (Doerfel y Barnett 1996) Enfoques deductivos métodos de análisis de contenido Automatizar la elección del esquema de categorización y la clasificación de los documentos en las categorías Análisis de clusters Menores costes iniciales no hay opciones teóricas sobre qué categorías son necesarias ex ante no se requiere ninguna codificación manual (Quinn et al 2009;. Simon y Xeon 2004 Computer science, statistics, computational linguistics natural language processing Probabilistic latent semantic indexing (Hofmann 1999) Latent Dirichlet allocation models (Blei et al. 2003 Singular value decomposition Nonnegative matrix factorization (Blei 2011).

Análisis automatizado de textos (Hillard et al 2007;. Monroe y Schrodt 2008) Clasificación de texto (sin supervisión y aprendizaje supervisado (Sebastiani 2002; Liu 2011; Scharkow 2011). Análisis de redes Semánticas (van Atteveldt 2008) Topic modeling Procesamiento del lenguaje natural - entender el significado a partir del lenguaje natural Detección de tendencias - Predecir temas emergentes Computer science, statistics, computational linguistics natural language processing Probabilistic latent semantic indexing (Hofmann 1999) Latent Dirichlet allocation models (Blei et al. 2003 Singular value decomposition Nonnegative matrix factorization (Blei 2011).

Métodos de aprendizaje supervisado Requieren elegir categorías y una muestra de documentos codificados manualmente Puede utilizarse para la mayoría de las preguntas con interés teórico Descubrimiento de un conjunto relevante de categorías a partir de los datos Enfoques deductivos Codificación basada en diccionario Análisis basado en reglas Computer science, statistics, computational linguistics natural language processing Probabilistic latent semantic indexing (Hofmann 1999) Latent Dirichlet allocation models (Blei et al. 2003 Singular value decomposition Nonnegative matrix factorization (Blei 2011).

Análisis de contenidos - aplicaciones

Minería de texto Objetivo principal - identificar regularidades en conjuntos de datos textuales (patrones, conexiones, perfiles, tendencias) latentes previamente desconocidos potencialmente útiles Extracción de información de los documentos y agregación de la colección completa Datos altamente redundantes Patrones – Encontrar frases importantes Conexiones - Encontrar palabras con significado semántico Reducir la complejidad - Crear un resumen de los documentos

Minería de texto – retos
Conceptos Difíciles de representar - combinaciones sutiles de relaciones abstractas entre conceptos Altamente dimensionales - muchas maneras para representar conceptos similares Complejos - características múltiples

Características complejas de los medios sociales
Microtextos Twitter y la mayoría de los mensajes de Facebook son muy cortos Contenido ruidoso deletreo inusual capitalización irregular Emoticones abreviaturas idiosincrásicas Temporalidad Fecha de creación modelos temporales para examinar tendencias, volatilidad, causalidad Bontcheva and Rout / Semantics of Social Media Streams

Características complejas de los medios sociales
Contexto social Indispensable para una interpretación correcta de los contenidos de los medios sociales Posición estructural Autoridad del usuario Clusters Centrado en el usuario Usuarios como productores y consumidores de contenidos de los medios sociales Fuente rica de información explícita e implícita sobre los datos demográficos de los usuarios, intereses, opiniones Plurilingüe Hasta ahora los métodos de la tecnología semántica se han centrado en el Inglés Identificación automática de idioma - medios de comunicación social separados por grupos lingüísticos Bontcheva and Rout / Semantics of Social Media Streams

Minería de texto – limitaciones
Palabras Homonimia: misma forma, significado diferente La polisemia: misma forma, significado relacionado Sinonimia: forma diferente, mismo significado Hiponimia: una palabra denota una subclase de otra Uso del lenguaje sarcasmo ironía

Minería de opiniones Extracción de opiniones del texto
Opiniones: declaraciones subjetivas que reflejan sentimientos o percepciones de las personas sobre las entidades o eventos Se utiliza igualmente el concepto de “análisis de Sentimiento” Los medios sociales ofrece un entorno idóneo para que la gente comparta opiniones Fuente útil de información no estructurada El reto consiste en extraer la información útil

Minería de opinions y medios sociales
Twitter stream fuente de datos centralizada actualizada en tiempo real nuevas fuentes de información se integran automáticamente en el corpus amplia gama de perspectivas individuales decenas de miles de contribuyentes activos involucrados en el discurso público

Minería de opinions y medios sociales
Los medios de comunicación social ofrecen una gran cantidad de información sobre el comportamiento y los intereses de los usuarios: explícita: John le gusta ... implícitas: personas que les gusta ... tienden a ser grandes tomadores de riesgo asociativo: la gente que compra ... productos también tienden a comprar productos ... La información sobre los individuos no es útil por sí misma, PERO la búsqueda de grupos de intereses y opiniones compartidas es interesante Si mucha gente habla en los sitios de medios sociales sobre ...

Retos en la Minería de opiniones
Identificar si un texto contiene opiniones o actitudes o no (las noticias de hechos vs. Editorial) Identificar la entidad expresando la opinión Identificar la polaridad y el grado de la opinión (a favor o en contra) Identificar el tema de la opinión (opinión acerca de qué?)

5.2 Representación y descripción: convirtiendo el texto en datos

Proceso de minería de texto
Captura de información Recopilar, seleccionar, filtrar documentos que pueden ser útiles Extracción de Información - Organización Tweets contenidos del Sitio API de contenidos especializados (Newswires, actividad parlamentaria, ...) Definir las estructuras de datos Documentos de texto sin formato Tablas Bases de datos

Limpiar el texto Quitar las etiquetas y la información no textual Partición Texto en unidades - DTM Término1 Término2 Término3 … Términon Documento1 Documento2 Documento3 Documenton

Búsqueda entidades pertinentes (personas, organizaciones, instituciones) hechos acerca de las entidades (atributos) palabras clave Análisis co-ocurrencia, co-referencia, redes conceptuales clustering, clasificación de documentos, tendencias Visualización

Recursos y herramientas
Ontologías, léxicos, terminologías, tesauros, gramáticas, corpus anotados Instrumentos Convertidores de documentos, detectores de oraciones, tokenisers, taggers, Chunkers, reconocedores de entidades, analizadores semánticos

Qué buscamos? Frecuencia Medidas de similitud - Correlación
Superior / inferior Dentro de / entre poblaciones Medidas de similitud - Correlación Objetivo Patrones Combinaciones Co-referencia (redes latentes)! = Vínculos intencionales

5.3. Interpretación y exploración

Términos comunes Listas de términos comunes
Métricas de términos y conjuntos de términos Agrupados por clusters Términos frecuentes – “Stop words” Evitar la dispersión Baja frecuencia en la DTM

Nubes de términos www.tagxedo.com/app.html
Representación visual de frecuencias

Redes semánticas Representación de términos relacionados Ego-red
Términos como nodos Términos más comunes – evitar dispersión Ego-red Clústeres de términos Clasificación Distancia - Intensidad por color Centralidad

Redes de hashtag Listas de los hashtags que se utilizan en conjunto
Métricas de términos y conjuntos de términos - recuentos Hashtag Hashtags como nodos Redes ego Clústeres de hashtags Clasificación Distancia Centralidad

Clustering Estrategia de reducción de datos
reducir un gran número de variables a un conjunto más pequeño que mantiene la información de predicción del conjunto más amplio Separa los tweets en grupos que son similares con respecto a los términos contenidos en cada tweet Maximizar la disimilitud entre los grupos Minimizar la disimilitud entre los grupos

Análisis de clústeres – reducir la complejidad e investigación exploratoria
Clustering (vincular términos semánticamente similares) vs. clasificación de términos (asignar términos a clases de un esquema de clasificación predefinida) creación de metadatos detección de temas Indexación conceptual (con hechos, eventos) clasificación de documentos

Técnicas para el análisis de datos digitales

Presentaciones similares

Presentación del tema: "Técnicas para el análisis de datos digitales"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Técnicas para el análisis de datos digitales

Presentaciones similares

Presentación del tema: "Técnicas para el análisis de datos digitales"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback