Ofelia Cervantes Herramientas para el Análisis de Textos Apoyo para la interpretación SEMÁNTICA 1.

Slides:



Advertisements
Presentaciones similares
1 Introducción a la minería de datos. 2 Temario ¿Qué es minería de datos? ¿Qué es minería de datos? ¿Quién usa minería de datos? ¿Quién usa minería de.
Advertisements

Extracción y Almacenamiento de Datos para Análisis de Sentimientos
GUÍA DE USO DEL SISTEMA DE ATENCIÓN Y GESTIÓN TICKETS (SAGT) ANALISTAS Gerencia de Atención al Estado Oficina de Atención al Usuario Octubre, 2010.
Ofelia Cervantes Redes Dinámicas 1. Ofelia Cervantes Redes dinámicas en Gephi REDES DINÁMICAS: se van construyendo y visualizando en tiempo real Pasos.
Validación de HTML Validación de CSS. Validación de HTML Desarrollado por: W3C Tipo de Recurso: Programa – Software Tipo de Destinatario: General Tipo.
JIMENA CASTAÑEDA 5º AÑO “B”.  Internet es un conjunto descentralizado de redes de comunicación interconectadas que utilizan la familia de protocolos.
La web es un medio relativamente joven, y en constante evolución. En poco tiempo hemos pasado de una web estática, en la que el usuario tenía un papel.
COMUNICACIÓN Y TIC Ángela Espinosa Hayler Peñaranda.
BASE DE DATOS EN LA WEB POR- OSIRYS MARCIAGA JESUS NIETO.
Es la forma en que se denomina a un extenso conjunto de herramientas que se diferencian de las aplicaciones tradicionales de Internet por estar enfocadas.
Ciencia de Datos Para el Análisis de Sentimientos en Twitter
Conferencia 2. Herramientas generales y especializadas de Internet
Búsquedas en Google Resumen
BASE DE DATOS.
MEIVER HERRERA 8B.
Social Media Rogelio Ferreira Escutia.
LOS DIFERENTES LENGUAJES DE PROGRAMACION PARA LA WEB
FECHA ÚLTIMA REVISIÓN: 13/12/11
7ª Jornada sobre la Biblioteca Digital Universitaria JBDU2009 "La  biblioteca universitaria en la web" 5 y 6 de noviembre de 2009 Biblioteca Central de.
Tutorial Creación de un Cuadro De Búsqueda Usando la Herramienta Constructor de Cuadro de Búsquedas de EBSCO
Estrategias de Búsqueda
EJEMPLO DE BÚSQUEDA AVANZADA EN GOOGLE por Martha Zapata
Miguel García Ruiz Jackeline Giraldo Urrea
UNIVERSIDAD ICEP INTELIGENCIA ARTIFICIAL INGENIERÍA EN SISTEMAS COMPUTACIONALES Martes, 24 de Octubre de 2017 REPRESENTACIÓN DEL CONOCIMIENTO Y RAZONAMIENTO.
Criterios para la evaluación de la información
BLOG El blog, también conocido como bitácora o ciberdiario, entre otras acepciones, es un tipo particular de pagina web, que se usa para publicar artículos.
ALUMNA LUZ ELENA RINCON H. COD INDUCCION
ESPACIOS VIRTUALES Plataformas Blogs Redes sociales Wikis
Qué es un Buscador El primer tipo de buscador es el de Índices de Búsqueda. Este es el primer tipo de buscador que surgió y consiste en que la base de.
HERRAMIENTAS BÁSICAS PARA ESTUDIO VIRTUAL
La Web Semántica Equipo: 3 Efrain Hernandez Salazar
. Estrategias para promover el aprendizaje significativo
COMO CREAR UN BLOG EN BLOGGER
MOODLE ILO ADM. DE SISTEMAS DE LA INFORMACION
¿COMO FUNCIONA EL INTERNET
Búsquedas en Internet ¿Qué es un buscador?
Herramientas tic Natalia Alejandra Hernández Garzón
BUSCADORES EN LA WEB.
HERRAMIENTAS Elementos necesarios para una buena formación virtual
Conceptos Relacionados Unidad I. Parte A.
Redes Sociales Domínguez Cedillo Randy López Curiel Linda
Modelo de interacción de usuario.  El Desarrollo basado en modelos de la interfaz de usuario, en inglés Model-based User Interface Development (MB-UID),
Gabriel Alonso Navarro Altamar
APLICACIÓN DE NUEVAS TECNOLOGÍAS EN LA CONSERVACIÓN Y ANÁLISIS DEL PATRIMONIO CULTURAL Herramientas para la Investigación.
CONCEPTOS BÁSICOS DE INTERNET
RECURSOS DE LAS TIC TECNOLOGÍAS DE LA INFORMACIÓN Y DE LA COMUNICACIÓN
Page 1. Page 2 Los lineamientos básicos que debe contener las paginas HTML.
Hipervínculo Tania Jazmín Cervantes García 1°F T/M Maestra: Adriana Ubiarco Escuela Preparatoria N° 10.
¿Qué es PARCC? Es una serie de evaluaciones alineadas con los Estándares Estatales de Conocimientos Fundamentales Comunes (Common Core State Standards‒CCSS)
Motores de busqueda.
Hexa-Gateway ¿Qué es? ¿Para qué sirve?
UNIVERSIDAD DE LAS FUERZAS ARMADAS-ESPE
LICENCIATURA EN SISTEMAS COMPUTACIONALES EN ADMINISTRACION
PROYECTO DE GRADUACIÓN
Análisis lingüístico automático
Curso de Excel #Intermedio Guillermo Díaz Sanhueza Mail: Web: Team Work Versión:
Oscar Navarrete J. Jorge Gutiérrez A.
Oscar Navarrete J. Jorge Gutiérrez A.
Docente: Valerio Herrera, Luis E. Experiencia Formativa III Semana 4: Servidores Web.
SERVICIOS DE ALMACENAMIENTO EN LA NUBE DE QUE SE TRATA El Almacenamiento en la Nube consiste en guardar archivos en un lugar de Internet. Esos lugares.
“DE LA ACADEMIA AL CIUDADANO”.
INTERNET Funcionamiento y Principales Virtualidades “…..En un lapso de 20 años, la tecnología ha venido cambiando radicalmente nuestra forma de vivir….”
La programación de objetivos didácticos en Terminótica
PROYECTO DE GRADUACIÓN
Grupo: 8B Margarita Osorio Actualmente, las redes sociales ocupan un lugar privilegiado en la vida de la mayoría de los jóvenes, afectando sus relaciones.
Ing. Patricia Acosta, MSc. Blog: EXCEL.
2. PRINCIPIOS BASICOS DE MICROSOFT ACCESS. -Sistema que tiene la capacidad de realizar tareas de distinta índole utilizando herramientas que interactúan.
PROYECTO DE GRADUACIÓN
Las Tecnologías de la Información y la Comunicación (TIC) son todos aquellos recursos, herramientas y programas que se utilizan para procesar, administrar.
Tutorial Plataforma OVID IMSS-CONRICYT.
Transcripción de la presentación:

Ofelia Cervantes Herramientas para el Análisis de Textos Apoyo para la interpretación SEMÁNTICA 1

Ofelia Cervantes Herramientas PLN NLTK es una plataforma para construir programas en Python para trabajar con datos de lenguaje humano. Proporciona interfaces fáciles de usar para más de 50 córporas y recursos lexicales como:  Wordnet.  SentiWordNet (sólo en inglés).  Dependency Parsed Treebank.  SENSEVAL 2 Corpus: Sense Tagged Text.

Ofelia Cervantes Herramientas PLN Provee una conjuntos de librerías para:  Clasificación: asignar información semántica relacionada a un document de texto.  Tokenización: proceso de romper un texto en palabras, frases o símbolos.  Stemming: proceso de reducción de palabras a su forma base (Word steam).  Tagging: el papel sintáctico de las palabras en el texto (Part of Speech).  Parsing: proceso de analizar una oración tomando cada palabra y detrminando su estructura a partir de sus partes constituyentes.

Ofelia Cervantes Herramientas PLN Clips Pattern es un módulo de minería de web para el lenguaje de programación de Python. Desarrollado en la Universidad de Lovaina, Bélgica. Proporciona un paquete de herramientas para:  Minería de datos.  Procesamiento de Lenguaje Natural.  Aprendizaje por computadora.  Análisis de redes y visualización.

Ofelia Cervantes FreeLing  Es un conjunto de librerías para el análisis del lenguaje natural.  Desarrollado por la Universidad Politécnica de Catalunya.  Escrita en C++ y esta liberado bajo la licencia Affero GPL.  Ofrece distintos servicios: o Tokenización de texto. o División de sentencias. o Análisis morfológico. o Reconocimiento de fechas, números, proporciones, magnitudes físicas.  Soporte para diversos idiomas. o Español, Ingles, Gallego, Italiano, Asturiano,Ruso, Catalán, Portugués. Herramientas PLN

Ofelia Cervantes  Es un conjunto de herramientas basadas en aprendizaje automático.  Esta escrito en Java y es de código abierto.  Soporta las tareas más comunes para crear servicios de procesamiento de texto más avanzados. o Detector de oraciones. o Segmentador de palabras o tokenizer. o Buscador de nombres y entidades. o Etiquetado POS (Part of Speech). o Analizador Sintáctico. Herramientas PLN

Ofelia Cervantes  Es una herramienta multipropósito de procesamiento de texto mediante técnicas lingüísticas computacionales.  Se usa para tareas como: o Encontrar en las noticias, nombres de organizaciones o personas o Clasificar automáticamente en categorías colecciones de datos de Twitter o Sugerir correcciones de ortografía en las consultas  Esta escrita en Java y distribuido en varias ediciones.  Analizador de sentimientos de dos dimensiones: Polaridad y Subjetividad..  Extensible mediante modelos para cada idioma y corpus de entrenamiento.  Cuenta con detector de frases.  Realiza etiquetado POS (Part of Speech). Herramientas PLN

Ofelia Cervantes  Es un motor de búsqueda de contenido generado por usuarios. o Redes sociales & Micro blogs: Facebook, Twitter, o Noticias: Google News o Videos: YouTube  Permite seguir y medir lo que se escribe acerca de un tema.  Realiza un análisis en tiempo real: o Análisis de sentimientos. o Palabras más mencionadas. o Búsqueda de Usuarios. o Detección de Fuentes. Herramientas PLN

Ofelia Cervantes Ejemplos de herramientas

Ofelia Cervantes  Es un Framework de aprendizaje automático.  Es OpenSource y está escrito en Java.  Tiene 14 funciones que permiten procesamiento del lenguaje natural.  Permite utilizar las funciones por medio de su API REST gratuita.  Permite realizar aprendizaje para soportar nuevos idiomas. Ejemplos de herramientas

Ofelia Cervantes Análisis de Sentimientos Clasifica documentos como positivos, negativos o neutral. Identifica la emoción que expresa un mensaje. Análisis de Sentimientos en Twitter Realiza análisis de sentimientos en tweets. Análisis de Subjetividad Clasifica documentos como subjetivos o objetivos. Realiza el análisis en base al estilo de escritura. Detección de Contenido para Adulto. Clasifica documentos como basados en contenido para adulto. Empleado para restringir el acceso a los documentos. Ejemplos de herramientas

Ofelia Cervantes Detección del Lenguaje. Identifica el lenguaje natural de un documento. Capaz de detectar hasta 96 lenguajes diferentes. Evaluación de Legibilidad. Determina el grado de legibilidad de un documento. Analiza en base a los términos detectados. Detección de Género. Identifica si un documento es escrito/dirigido a mujeres o hombres. Analiza en base al contexto y a las palabras identificadas. Extracción de Palabras Clave Extrae palabras clave y combinación de palabras. Determina el numero de ocurrencias en el texto. Ejemplos de herramientas

Ofelia Cervantes Extracción de texto. Extracción de información importante de paginas web. Es un paso importante antes de cualquier análisis. Similaridad de Documentos. Estima el grado de similaridad entre dos documentos. Útil para detectar plagio. Clasificación de Tópico Asigna documentos a 12 categorías temáticas. Identifica el tópicos de un documento. Detección Comercial. Etiqueta documentos como comerciales o no comerciales. Analiza en base a palabras clave y expresiones. Detecta si una pagina web es comercial. Ejemplos de herramientas

Ofelia Cervantes Detección Educacional Clasifica documentos como educacionales o no educacionales. Detecta si una pagina web es educacional. Detección de contenido Indeseable Realiza el análisis teniendo en cuenta su contexto. Empleado para filtrar correo y comentarios. Ejemplos de herramientas

Ofelia Cervantes Ejemplos de herramientas  Es una compañía que brinda productos Saas (Software as Service).  Realiza análisis semántico sobre textos: o Análisis de sentimientos. o Clasificación de texto. o Detección del idioma. o Reputación corporativa.  Permite a usuarios embeber el procesamiento en cualquier aplicación o sistema. Ofrece múltiples APIs para incorporar en gran variedad de lenguajes de programación.

Ofelia Cervantes Panorama general del análisis de contenidos Análisis de Sentimientos Determina si el documento expresa un sentimiento positivo/negativo/neutro. Identifica los documentos que tienen un buen impacto. Permite realizar análisis de opinión. Reputación Corporativa Mide cuál es la valoración que hacen las personas a una empresa. Permite tomar decisiones. estratégicas. Permite estar protegido ante eventuales crisis.

Ofelia Cervantes Panorama general del análisis de contenidos Clasificación de texto Asigna una o mas categorías a un texto. Agrupa textos por temas. Permite crear un sistema de recomendación. Empleado para filtrar correo y comentarios no deseados. Extracción de tópicos Extrae los elementos significativos presentes en una fuente de información. Los elementos identificados pueden ser personas, organizaciones, lugares, Fechas, Números telefónicos etc.

Ofelia Cervantes Panorama general del análisis de contenidos Detección del Idioma Identifica el lenguaje natural de un documento basándose en sus palabras y contexto. En atención al cliente permite determinar el idioma.

Ofelia Cervantes Experiencia interactiva con herramientas de uso libre 1.Análisis de Sentimientos 2.Identificación de Idioma 3.Extracción de Tópicos 4.Clasificación de Textos 5.Reputación corporativa 6.Percepción en medios sociales

Ofelia Cervantes Análisis de Sentimientos  Realiza un detallado análisis de sentimientos a textos.  Determina si el texto expresa un sentimiento positivo/negativo/neutro.  Soporta hasta seis idiomas.

Ofelia Cervantes Análisis de Sentimientos 1.Ingresar a la herramienta “Sentiment Analysis”. 2.Aplicar la herramienta a un texto. 3.Analizar el resultado.

Ofelia Cervantes Análisis de Sentimientos 1.Ingresar a la herramienta “Sentiment Analysis”. o Abrir la dirección web. o

Ofelia Cervantes Análisis de Sentimientos 2.Aplicar la herramienta sobre un texto El texto puede aportarse de manera directa, en un archivo o a través de un url. Es posible elegir el idioma: cambiarlo a Español. Ingresar el texto a analizar. Presionar “Send”.

Ofelia Cervantes Análisis de Sentimientos 3. Analizar el resultado:

Ofelia Cervantes Análisis de Sentimientos Resultados de la evaluación: o agreement: Este campo indica el acuerdo entre los sentimientos detectados en el texto. AGREENMENT: Los elementos tienen la misma polaridad. DISAGREENMENT: Existe desacuerdo entre la polaridad de los elementos. o subjectivity: Indica la subjetividad en el texto. OBJECTIVE: El texto no tiene marcas de subjetividad. SUBJECTIVE: El texto tiene marcas subjetivas. o confidence: Representa la confianza asociada con el análisis de sentimientos realizada al texto. Su valor es un numero entero en el rango de o irony: Indica la ironía en el texto. NONIRONIC: El texto no tiene marcas de ironía. IRONIC: El texto tiene marcas de ironía.

Ofelia Cervantes Identificación de idioma  Detección automática del lenguaje en textos.  Aplicación de técnicas estadísticas basadas en evaluación de N-gramas.  Identificación de más de 60 idiomas.

Ofelia Cervantes Identificación de Idioma 1.Ingresar a la herramienta “Language Identification”. 2.Aplicar la herramienta a un texto. 3.Analizar el resultado.

Ofelia Cervantes 1.Ingresar a la herramienta “Language Identification”. o Abrir la dirección web. o Identificación de Idioma

Ofelia Cervantes 2.Aplicar la herramienta sobre un texto. Ingresar el texto a analizar. Presionar “Send”. Identificación de Idioma

Ofelia Cervantes Identificación de Idioma 3.Analizar el resultado. lang_list: Lista de posibles lenguajes identificados en el texto.

Ofelia Cervantes Extracción de Tópicos  Extrae los diferentes elementos significativos presentes en una fuente de información.  Es empleada la combinación de una serie de técnicas de procesamiento del lenguaje natural.  Los elementos identificados pueden ser personas, organizaciones, lugares, fechas, números telefónicos etc.

Ofelia Cervantes Extracción de Tópicos 1.Ingresar a la herramienta “Topics Extraction”. 2.Aplicar la herramienta a un texto. 3.Analizar el resultado.

Ofelia Cervantes Extracción de Tópicos 1.Ingresar a la herramienta “Topics Extraction”. o Abrir la dirección web. o

Ofelia Cervantes Extracción de Tópicos 2.Emplear la herramienta a un texto. Cambiar el idioma a español. Ingresar el texto a analizar. Presionar “Send”.

Ofelia Cervantes Extracción de Tópicos 3.Analizar el resultado. Deslizar el scroll a la parte inferior de la pagina.

Ofelia Cervantes Extracción de Tópicos 3.Analizando el resultado: entity_list: Lista de entidades encontradas. concept_list: Lista de conceptos encontrados. time_expression_list: Lista de expresiones de tiempo encontradas. money_expression_list: Lista de expresiones monetarias. quantity_expression_list: Lista de cantidades encontradas. Other_expression_list: Lista de patrones alfanumericos encontrados. quotation_list: Lista de citas encontradas. relation_list: Lista de tripletas sintacticas (sujeto-acción-objeto).

Ofelia Cervantes Clasificación de Texto  Asigna una o mas categorías a un texto.  Utiliza taxonomías de dominio especifico estándar (ej. IPTC. IAB, ICD-10) o categorías definidas.  Combina clasificación estadística con filtrado basado en reglas, permitiendo un alto grado de exactitud.  Realiza todas las tareas de pre-procesamiento necesarias para la clasificación automática. o Tokenización. o Eliminación de Stopword. o Lematización.

Ofelia Cervantes Clasificación de Texto 1.Ingresar a la herramienta “Text Classification”. 2.Aplicar la herramienta a un texto. 3.Analizar el resultado.

Ofelia Cervantes Clasificación de Texto 1.Ingresar a la herramienta “Text Classification”. o Abrir la dirección web. o

Ofelia Cervantes Clasificación de Texto 2.Emplear la herramienta a un texto. Ingresar el texto/documento/URL a analizar. Seleccionar el modelo Español IPTC. Presionar “Formatted”.

Ofelia Cervantes Clasificación de Texto 3.Analizar el resultado. –Code: Código de categoría detectada. –Label: Descripción de la categoría. –Absolute Relevance: Valor de relevancia absoluta de la categoría. –Relevance: Valor relativo de relevancia de la categoría, un numero en el rango 0-100%.

Ofelia Cervantes Reputación Corporativa  Etiquetado semántico de contenido multilingüe para análisis de la reputación corporativa.  Analiza lo que se menciona de las organizaciones identificadas.  Aplica un modelo de reputación corporativa en base a un conjunto de dimensiones de reputación.

Ofelia Cervantes Reputación Corporativa 1.Ingresar a la herramienta “Corporate Reputation”. 2.Aplicar la herramienta a un texto. 3.Analizar el resultado.

Ofelia Cervantes Ejemplos de herramientas 1.Ingresar a la herramienta “Corporate Reputation”. o Abrir la dirección web. o

Ofelia Cervantes Reputación Corporativa 2.Emplear la herramienta a un texto. Cambiar el modelo a español. Ingresar el texto a analizar. Presionar “Send”.

Ofelia Cervantes Reputación Corporativa 3.Analizar el resultado.

Ofelia Cervantes Reputación Corporativa 3.Analizar el resultado. fragment_list: Lista de fragmentos en los que se divide el texto. category_list: Lista de categorías en las que se divide el texto. entity_list: Lista de entidades de tipo organización o persona, identificado en el texto. –entity: Forma principal de la entidad. –type: Tipo de jerarquía de clasificación de la entidad.

Ofelia Cervantes