Técnicas para el análisis de datos digitales

Slides:



Advertisements
Presentaciones similares
Técnicas de Registro Observacionales
Advertisements

TÉCNICAS DE ANÁLISIS DE DATOS Formadora: Elisa Robles.
METODOS, TECNICAS E INSTRUMENTOS DE RECOLECCION DE DATOS
Introducción a Moodle.
TERMINOLOGÍA EN ESPAÑOL
TERMINOLOGÍA EN ESPAÑOL
DATA MINING MINERIA DE DATOS Gersom Costas.
DATA WAREHOUSE Presentador Por: Andrés Fabián Cortes Solano.
Maestría en Explotación de Datos y Descubrimiento del Conocimiento
Productos Comunicativos
Taller de evaluación de exposiciones
*Estadística: La estadística es una herramienta básica para la investigación empírica que ayuda a conocer la realidad de manera “objetiva”. En la disciplina.
Herramientas para la Investigación
MAPA CONCEPTUAL.
La web semántica y su impacto en la recuperación de información
INVESTIGACIÓN DESCRIPTIVA
ORIENTACION ESTRATEGIAS DE LECTURA
DESARROLLO DE HABILIDADES INFORMATIVAS DHI
ATTOS Análisis de Tendencias y Temáticas a través de Opiniones y Sentimientos Kick-off 18 de julio de 2013.
TALLER DE TRABAJO FINAL
VIVIANA ACHURY S. ANGIE NATALIA GARCIA S.. En los últimos años, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos (Bajo.
LAS CARAS DE LA EVALUACION
CAPITULO 2 La Representación del Conocimiento
Estrategias de Búsqueda
Proceso de la Investigación
INVESTIGACIÓN CUANTITATIVA Y CUALITATIVA
Características de un Data Warehouse
Sistemas Evolutivos Introduccion.
Proceso investigativo
Arquitectura de la Información Prof. Adelaide Bianchini – Dpto. de Computación y Tecnología de la Información, Universidad Simón Bolívar. Febrero 2006.
Especificación de Consultas M
Diseño de la investigación
Curso-Taller Capacitación para Coaches de Conservación
Metodología EN LA Investigación
Isabel Edo del Moral Susana Fernández LLoria Patricia Moraga Barrero
Business Intelligence y Data Mining
RESUMEN En este artículo se describe en forma breve una de las líneas de investigación que se están llevando a cabo en el Laboratorio de Tecnologías Emergentes.
Bases de Datos Modelamiento.
Modelo de Dominio Angela Carrillo R..
Elementos y Procesos de Analisis de Datos Cualitativos Karen Andes (PhD), Emory University Curso USAID/HED Julio 5-9, 2010.
Investigación en procesos de Aprendizaje Abordaje desde el AEC
APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)
Autor Souza Minayo Texto “El desafío del conocimiento”
GESTION DE PROCESOS DE NEGOCIO
APLICACIÓN DE NUEVAS TECNOLOGÍAS EN LA CONSERVACIÓN Y ANÁLISIS DEL PATRIMONIO CULTURAL Pensar Relacionalmente: Bases de Datos Relacionales (una visión.
TALLER DE ESTUDIO INDEPENDIENTE (ILCE)
Técnicas de Indización y Resumen Félix del Valle Gastaminza 5º A Licenciatura en Documentación Curso

SISTEMA PARA LA CATEGORIZACIÓN AUTOMÁTICA DE CORREO ELECTRÓNICO Camilo Rodríguez, Departamento de Ingeniería de Sistemas, Universidad Nacional de Colombia.
METODOLOGÍA CUALITATIVA
Mapas Conceptuales Usando CmapTools.
Ingeniería de Requisitos
El ojo sólo ve lo que su mente le permite.
SESIÓN 13 Pasos en el análisis de la información cualitativa
JULIAN MINA REINALDO GARCIA JHON SILVA RICARDO MOLANO.
INICIO DEL PROCESO CUALITATIVO
Definición objeto de aprendizaje y propiedades Integrantes Edgar Misael Mata Vazquez Luis Angel Espinosa Arroyo Brenda Carolina Peña Garza Claudia Nataly.
UBATIC: Entre proyectos DIGITALIZACIÓN Secretaría de Asuntos Académicos Rectorado de la Universidad de Buenos Aires.
Minería de texto Análisis Documental.
Tipos de Investigación Análisis de Datos I Semestre Otoño 2009.
Estrategias efectivas para buscar y encontrar información Dr. Valentino Morales López Investigador INFOTEC Centro de Investigación.
La estrategia de búsqueda
MAESTRIA CIENCIAS EN LA EDUCACIÓN METODOLOGÍA CUALITATIVA
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Algunas anotaciones sobre las TIC y los procesos de investigación Vivian Rivera R. Setiembre, 2015.

PRESENTADO POR: LUZ MERY COMBITA REINA. Primero hay que conocer a la comunidad, significa encontrar lo que las personas piensan sobre ciertos temas en.
Fundamentos de Ingeniería de Software
Gestión de la información y el conocimiento II Bibliometría Ángela Valderrama Muñoz Ingeniera de Sistemas (UdeA) Especialista en Alta Gerencia(UdeA) Magister.
Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.
Transcripción de la presentación:

Técnicas para el análisis de datos digitales Análisis de redes sociales online y minería de texto para las ciencias sociales Camilo Cristancho camilo.cristancho@uab.cat

Día 4 5. Minería de texto 5.1. Consideraciones teóricas 5.2. Representación y descripción: convirtiendo el texto en datos 5.3. Interpretación y exploración

5.1 Consideraciones teóricas

Enfoques para el análisis de contenido Enfoques descriptivos y exploratorios análisis de frecuencia de palabras análisis de co-ocurrencia (Doerfel y Barnett 1996) Enfoques deductivos métodos de análisis de contenido Automatizar la elección del esquema de categorización y la clasificación de los documentos en las categorías Análisis de clusters Menores costes iniciales no hay opciones teóricas sobre qué categorías son necesarias ex ante no se requiere ninguna codificación manual (Quinn et al 2009;. Simon y Xeon 2004 Computer science, statistics, computational linguistics natural language processing Probabilistic latent semantic indexing (Hofmann 1999) Latent Dirichlet allocation models (Blei et al. 2003 Singular value decomposition Nonnegative matrix factorization (Blei 2011).

Enfoques para el análisis de contenido Análisis automatizado de textos (Hillard et al 2007;. Monroe y Schrodt 2008) Clasificación de texto (sin supervisión y aprendizaje supervisado (Sebastiani 2002; Liu 2011; Scharkow 2011). Análisis de redes Semánticas (van Atteveldt 2008) Topic modeling Procesamiento del lenguaje natural - entender el significado a partir del lenguaje natural Detección de tendencias - Predecir temas emergentes Computer science, statistics, computational linguistics natural language processing Probabilistic latent semantic indexing (Hofmann 1999) Latent Dirichlet allocation models (Blei et al. 2003 Singular value decomposition Nonnegative matrix factorization (Blei 2011).

Enfoques para el análisis de contenido Métodos de aprendizaje supervisado Requieren elegir categorías y una muestra de documentos codificados manualmente Puede utilizarse para la mayoría de las preguntas con interés teórico Descubrimiento de un conjunto relevante de categorías a partir de los datos Enfoques deductivos Codificación basada en diccionario Análisis basado en reglas Computer science, statistics, computational linguistics natural language processing Probabilistic latent semantic indexing (Hofmann 1999) Latent Dirichlet allocation models (Blei et al. 2003 Singular value decomposition Nonnegative matrix factorization (Blei 2011).

Análisis de contenidos - aplicaciones

Minería de texto Objetivo principal - identificar regularidades en conjuntos de datos textuales (patrones, conexiones, perfiles, tendencias) latentes previamente desconocidos potencialmente útiles Extracción de información de los documentos y agregación de la colección completa Datos altamente redundantes Patrones – Encontrar frases importantes Conexiones - Encontrar palabras con significado semántico Reducir la complejidad - Crear un resumen de los documentos

Minería de texto – retos Conceptos Difíciles de representar - combinaciones sutiles de relaciones abstractas entre conceptos Altamente dimensionales - muchas maneras para representar conceptos similares Complejos - características múltiples

Características complejas de los medios sociales Microtextos Twitter y la mayoría de los mensajes de Facebook son muy cortos Contenido ruidoso deletreo inusual capitalización irregular Emoticones abreviaturas idiosincrásicas Temporalidad Fecha de creación modelos temporales para examinar tendencias, volatilidad, causalidad Bontcheva and Rout / Semantics of Social Media Streams

Características complejas de los medios sociales Contexto social Indispensable para una interpretación correcta de los contenidos de los medios sociales Posición estructural Autoridad del usuario Clusters Centrado en el usuario Usuarios como productores y consumidores de contenidos de los medios sociales Fuente rica de información explícita e implícita sobre los datos demográficos de los usuarios, intereses, opiniones Plurilingüe Hasta ahora los métodos de la tecnología semántica se han centrado en el Inglés Identificación automática de idioma - medios de comunicación social separados por grupos lingüísticos Bontcheva and Rout / Semantics of Social Media Streams

Minería de texto – limitaciones Palabras Homonimia: misma forma, significado diferente La polisemia: misma forma, significado relacionado Sinonimia: forma diferente, mismo significado Hiponimia: una palabra denota una subclase de otra Uso del lenguaje sarcasmo ironía

Minería de opiniones Extracción de opiniones del texto Opiniones: declaraciones subjetivas que reflejan sentimientos o percepciones de las personas sobre las entidades o eventos Se utiliza igualmente el concepto de “análisis de Sentimiento” Los medios sociales ofrece un entorno idóneo para que la gente comparta opiniones Fuente útil de información no estructurada El reto consiste en extraer la información útil

Minería de opinions y medios sociales Twitter stream fuente de datos centralizada actualizada en tiempo real nuevas fuentes de información se integran automáticamente en el corpus amplia gama de perspectivas individuales decenas de miles de contribuyentes activos involucrados en el discurso público

Minería de opinions y medios sociales Los medios de comunicación social ofrecen una gran cantidad de información sobre el comportamiento y los intereses de los usuarios: explícita: John le gusta ... implícitas: personas que les gusta ... tienden a ser grandes tomadores de riesgo asociativo: la gente que compra ... productos también tienden a comprar productos ... La información sobre los individuos no es útil por sí misma, PERO la búsqueda de grupos de intereses y opiniones compartidas es interesante Si mucha gente habla en los sitios de medios sociales sobre ...

Retos en la Minería de opiniones Identificar si un texto contiene opiniones o actitudes o no (las noticias de hechos vs. Editorial) Identificar la entidad expresando la opinión Identificar la polaridad y el grado de la opinión (a favor o en contra) Identificar el tema de la opinión (opinión acerca de qué?)

5.2 Representación y descripción: convirtiendo el texto en datos

Proceso de minería de texto Captura de información Recopilar, seleccionar, filtrar documentos que pueden ser útiles Extracción de Información - Organización Tweets contenidos del Sitio API de contenidos especializados (Newswires, actividad parlamentaria, ...) Definir las estructuras de datos Documentos de texto sin formato Tablas Bases de datos

Proceso de minería de texto Limpiar el texto Quitar las etiquetas y la información no textual Partición Texto en unidades - DTM Término1 Término2 Término3 … Términon Documento1 Documento2 Documento3 Documenton

Proceso de minería de texto Búsqueda entidades pertinentes (personas, organizaciones, instituciones) hechos acerca de las entidades (atributos) palabras clave Análisis co-ocurrencia, co-referencia, redes conceptuales clustering, clasificación de documentos, tendencias Visualización

Recursos y herramientas Ontologías, léxicos, terminologías, tesauros, gramáticas, corpus anotados Instrumentos Convertidores de documentos, detectores de oraciones, tokenisers, taggers, Chunkers, reconocedores de entidades, analizadores semánticos

Qué buscamos? Frecuencia Medidas de similitud - Correlación Superior / inferior Dentro de / entre poblaciones Medidas de similitud - Correlación Objetivo Patrones Combinaciones Co-referencia (redes latentes)! = Vínculos intencionales

5.3. Interpretación y exploración

Términos comunes Listas de términos comunes Métricas de términos y conjuntos de términos Agrupados por clusters Términos frecuentes – “Stop words” http://www.elwebmaster.com/referencia/stopwords-en-espanol http://latel.upf.edu/morgana/altres/pub/ca_stop.htm Evitar la dispersión Baja frecuencia en la DTM

Nubes de términos www.tagxedo.com/app.html Representación visual de frecuencias www.tagxedo.com/app.html

Redes semánticas Representación de términos relacionados Ego-red Términos como nodos Términos más comunes – evitar dispersión Ego-red Clústeres de términos Clasificación Distancia - Intensidad por color Centralidad

Redes de hashtag Listas de los hashtags que se utilizan en conjunto Métricas de términos y conjuntos de términos - recuentos Hashtag Hashtags como nodos Redes ego Clústeres de hashtags Clasificación Distancia Centralidad

Clustering Estrategia de reducción de datos reducir un gran número de variables a un conjunto más pequeño que mantiene la información de predicción del conjunto más amplio Separa los tweets en grupos que son similares con respecto a los términos contenidos en cada tweet Maximizar la disimilitud entre los grupos Minimizar la disimilitud entre los grupos

Análisis de clústeres – reducir la complejidad e investigación exploratoria Clustering (vincular términos semánticamente similares) vs. clasificación de términos (asignar términos a clases de un esquema de clasificación predefinida) creación de metadatos detección de temas Indexación conceptual (con hechos, eventos) clasificación de documentos