Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porEugenia Vega Martín Modificado hace 8 años
1
Ofelia Cervantes Herramientas para el Análisis de Textos Apoyo para la interpretación SEMÁNTICA 1
2
Ofelia Cervantes Herramientas PLN http://www.nltk.org/ NLTK es una plataforma para construir programas en Python para trabajar con datos de lenguaje humano. Proporciona interfaces fáciles de usar para más de 50 córporas y recursos lexicales como: Wordnet. SentiWordNet (sólo en inglés). Dependency Parsed Treebank. SENSEVAL 2 Corpus: Sense Tagged Text.
3
Ofelia Cervantes Herramientas PLN http://www.nltk.org/ Provee una conjuntos de librerías para: Clasificación: asignar información semántica relacionada a un document de texto. Tokenización: proceso de romper un texto en palabras, frases o símbolos. Stemming: proceso de reducción de palabras a su forma base (Word steam). Tagging: el papel sintáctico de las palabras en el texto (Part of Speech). Parsing: proceso de analizar una oración tomando cada palabra y detrminando su estructura a partir de sus partes constituyentes.
4
Ofelia Cervantes Herramientas PLN http://www.clips.ua.ac.be/pattern Clips Pattern es un módulo de minería de web para el lenguaje de programación de Python. Desarrollado en la Universidad de Lovaina, Bélgica. Proporciona un paquete de herramientas para: Minería de datos. Procesamiento de Lenguaje Natural. Aprendizaje por computadora. Análisis de redes y visualización.
5
Ofelia Cervantes FreeLing Es un conjunto de librerías para el análisis del lenguaje natural. Desarrollado por la Universidad Politécnica de Catalunya. Escrita en C++ y esta liberado bajo la licencia Affero GPL. Ofrece distintos servicios: o Tokenización de texto. o División de sentencias. o Análisis morfológico. o Reconocimiento de fechas, números, proporciones, magnitudes físicas. Soporte para diversos idiomas. o Español, Ingles, Gallego, Italiano, Asturiano,Ruso, Catalán, Portugués. http://nlp.lsi.upc.edu/freeling/ http://nlp.lsi.upc.edu/papers/padro11.pdf Herramientas PLN
6
Ofelia Cervantes Es un conjunto de herramientas basadas en aprendizaje automático. Esta escrito en Java y es de código abierto. Soporta las tareas más comunes para crear servicios de procesamiento de texto más avanzados. o Detector de oraciones. o Segmentador de palabras o tokenizer. o Buscador de nombres y entidades. o Etiquetado POS (Part of Speech). o Analizador Sintáctico. https://opennlp.apache.org/ Herramientas PLN
7
Ofelia Cervantes Es una herramienta multipropósito de procesamiento de texto mediante técnicas lingüísticas computacionales. Se usa para tareas como: o Encontrar en las noticias, nombres de organizaciones o personas o Clasificar automáticamente en categorías colecciones de datos de Twitter o Sugerir correcciones de ortografía en las consultas Esta escrita en Java y distribuido en varias ediciones. Analizador de sentimientos de dos dimensiones: Polaridad y Subjetividad.. Extensible mediante modelos para cada idioma y corpus de entrenamiento. Cuenta con detector de frases. Realiza etiquetado POS (Part of Speech). http://alias-i.com/lingpipe/ Herramientas PLN
8
Ofelia Cervantes Es un motor de búsqueda de contenido generado por usuarios. o Redes sociales & Micro blogs: Facebook, Twitter, o Noticias: Google News o Videos: YouTube Permite seguir y medir lo que se escribe acerca de un tema. Realiza un análisis en tiempo real: o Análisis de sentimientos. o Palabras más mencionadas. o Búsqueda de Usuarios. o Detección de Fuentes. http://www.socialmention.com/abouthttp://www.socialmention.com/about/ Herramientas PLN
9
Ofelia Cervantes Ejemplos de herramientas http://www.socialmention.com
10
Ofelia Cervantes Es un Framework de aprendizaje automático. Es OpenSource y está escrito en Java. Tiene 14 funciones que permiten procesamiento del lenguaje natural. Permite utilizar las funciones por medio de su API REST gratuita. Permite realizar aprendizaje para soportar nuevos idiomas. http://www.datumbox.com/ Ejemplos de herramientas
11
Ofelia Cervantes Análisis de Sentimientos Clasifica documentos como positivos, negativos o neutral. Identifica la emoción que expresa un mensaje. Análisis de Sentimientos en Twitter Realiza análisis de sentimientos en tweets. Análisis de Subjetividad Clasifica documentos como subjetivos o objetivos. Realiza el análisis en base al estilo de escritura. Detección de Contenido para Adulto. Clasifica documentos como basados en contenido para adulto. Empleado para restringir el acceso a los documentos. Ejemplos de herramientas
12
Ofelia Cervantes Detección del Lenguaje. Identifica el lenguaje natural de un documento. Capaz de detectar hasta 96 lenguajes diferentes. Evaluación de Legibilidad. Determina el grado de legibilidad de un documento. Analiza en base a los términos detectados. Detección de Género. Identifica si un documento es escrito/dirigido a mujeres o hombres. Analiza en base al contexto y a las palabras identificadas. Extracción de Palabras Clave Extrae palabras clave y combinación de palabras. Determina el numero de ocurrencias en el texto. Ejemplos de herramientas
13
Ofelia Cervantes Extracción de texto. Extracción de información importante de paginas web. Es un paso importante antes de cualquier análisis. Similaridad de Documentos. Estima el grado de similaridad entre dos documentos. Útil para detectar plagio. Clasificación de Tópico Asigna documentos a 12 categorías temáticas. Identifica el tópicos de un documento. Detección Comercial. Etiqueta documentos como comerciales o no comerciales. Analiza en base a palabras clave y expresiones. Detecta si una pagina web es comercial. Ejemplos de herramientas
14
Ofelia Cervantes Detección Educacional Clasifica documentos como educacionales o no educacionales. Detecta si una pagina web es educacional. Detección de contenido Indeseable Realiza el análisis teniendo en cuenta su contexto. Empleado para filtrar correo y comentarios. Ejemplos de herramientas
15
Ofelia Cervantes Ejemplos de herramientas Es una compañía que brinda productos Saas (Software as Service). Realiza análisis semántico sobre textos: o Análisis de sentimientos. o Clasificación de texto. o Detección del idioma. o Reputación corporativa. Permite a usuarios embeber el procesamiento en cualquier aplicación o sistema. Ofrece múltiples APIs para incorporar en gran variedad de lenguajes de programación.
16
Ofelia Cervantes Panorama general del análisis de contenidos Análisis de Sentimientos Determina si el documento expresa un sentimiento positivo/negativo/neutro. Identifica los documentos que tienen un buen impacto. Permite realizar análisis de opinión. Reputación Corporativa Mide cuál es la valoración que hacen las personas a una empresa. Permite tomar decisiones. estratégicas. Permite estar protegido ante eventuales crisis.
17
Ofelia Cervantes Panorama general del análisis de contenidos Clasificación de texto Asigna una o mas categorías a un texto. Agrupa textos por temas. Permite crear un sistema de recomendación. Empleado para filtrar correo y comentarios no deseados. Extracción de tópicos Extrae los elementos significativos presentes en una fuente de información. Los elementos identificados pueden ser personas, organizaciones, lugares, Fechas, Números telefónicos etc.
18
Ofelia Cervantes Panorama general del análisis de contenidos Detección del Idioma Identifica el lenguaje natural de un documento basándose en sus palabras y contexto. En atención al cliente permite determinar el idioma.
19
Ofelia Cervantes Experiencia interactiva con herramientas de uso libre 1.Análisis de Sentimientos 2.Identificación de Idioma 3.Extracción de Tópicos 4.Clasificación de Textos 5.Reputación corporativa 6.Percepción en medios sociales https://www.meaningcloud.com http://www.socialmention.com/about/
20
Ofelia Cervantes Análisis de Sentimientos Realiza un detallado análisis de sentimientos a textos. Determina si el texto expresa un sentimiento positivo/negativo/neutro. Soporta hasta seis idiomas. https://www.meaningcloud.com
21
Ofelia Cervantes Análisis de Sentimientos 1.Ingresar a la herramienta “Sentiment Analysis”. 2.Aplicar la herramienta a un texto. 3.Analizar el resultado.
22
Ofelia Cervantes Análisis de Sentimientos 1.Ingresar a la herramienta “Sentiment Analysis”. o Abrir la dirección web. o https://www.meaningcloud.com/developer/sentiment-analysis/console https://www.meaningcloud.com/developer/sentiment-analysis/console
23
Ofelia Cervantes Análisis de Sentimientos 2.Aplicar la herramienta sobre un texto El texto puede aportarse de manera directa, en un archivo o a través de un url. Es posible elegir el idioma: cambiarlo a Español. Ingresar el texto a analizar. Presionar “Send”.
24
Ofelia Cervantes Análisis de Sentimientos 3. Analizar el resultado:
25
Ofelia Cervantes Análisis de Sentimientos Resultados de la evaluación: o agreement: Este campo indica el acuerdo entre los sentimientos detectados en el texto. AGREENMENT: Los elementos tienen la misma polaridad. DISAGREENMENT: Existe desacuerdo entre la polaridad de los elementos. o subjectivity: Indica la subjetividad en el texto. OBJECTIVE: El texto no tiene marcas de subjetividad. SUBJECTIVE: El texto tiene marcas subjetivas. o confidence: Representa la confianza asociada con el análisis de sentimientos realizada al texto. Su valor es un numero entero en el rango de 0-100. o irony: Indica la ironía en el texto. NONIRONIC: El texto no tiene marcas de ironía. IRONIC: El texto tiene marcas de ironía. https://www.meaningcloud.com/developer/sentiment-analysis/doc/2.0/response
26
Ofelia Cervantes Identificación de idioma Detección automática del lenguaje en textos. Aplicación de técnicas estadísticas basadas en evaluación de N-gramas. Identificación de más de 60 idiomas.
27
Ofelia Cervantes Identificación de Idioma 1.Ingresar a la herramienta “Language Identification”. 2.Aplicar la herramienta a un texto. 3.Analizar el resultado.
28
Ofelia Cervantes 1.Ingresar a la herramienta “Language Identification”. o Abrir la dirección web. o https://www.meaningcloud.com/developer/language-identification/console https://www.meaningcloud.com/developer/language-identification/console Identificación de Idioma
29
Ofelia Cervantes 2.Aplicar la herramienta sobre un texto. Ingresar el texto a analizar. Presionar “Send”. Identificación de Idioma
30
Ofelia Cervantes Identificación de Idioma 3.Analizar el resultado. lang_list: Lista de posibles lenguajes identificados en el texto. https://www.meaningcloud.com/developer/language-identification/doc/2.0/response
31
Ofelia Cervantes Extracción de Tópicos Extrae los diferentes elementos significativos presentes en una fuente de información. Es empleada la combinación de una serie de técnicas de procesamiento del lenguaje natural. Los elementos identificados pueden ser personas, organizaciones, lugares, fechas, números telefónicos etc.
32
Ofelia Cervantes Extracción de Tópicos 1.Ingresar a la herramienta “Topics Extraction”. 2.Aplicar la herramienta a un texto. 3.Analizar el resultado.
33
Ofelia Cervantes Extracción de Tópicos 1.Ingresar a la herramienta “Topics Extraction”. o Abrir la dirección web. o https://www.meaningcloud.com/developer/topics-extraction/console https://www.meaningcloud.com/developer/topics-extraction/console
34
Ofelia Cervantes Extracción de Tópicos 2.Emplear la herramienta a un texto. Cambiar el idioma a español. Ingresar el texto a analizar. Presionar “Send”.
35
Ofelia Cervantes Extracción de Tópicos 3.Analizar el resultado. Deslizar el scroll a la parte inferior de la pagina.
36
Ofelia Cervantes Extracción de Tópicos 3.Analizando el resultado: entity_list: Lista de entidades encontradas. concept_list: Lista de conceptos encontrados. time_expression_list: Lista de expresiones de tiempo encontradas. money_expression_list: Lista de expresiones monetarias. quantity_expression_list: Lista de cantidades encontradas. Other_expression_list: Lista de patrones alfanumericos encontrados. quotation_list: Lista de citas encontradas. relation_list: Lista de tripletas sintacticas (sujeto-acción-objeto). https://www.meaningcloud.com/developer/topics-extraction/doc/2.0/response
37
Ofelia Cervantes Clasificación de Texto Asigna una o mas categorías a un texto. Utiliza taxonomías de dominio especifico estándar (ej. IPTC. IAB, ICD-10) o categorías definidas. Combina clasificación estadística con filtrado basado en reglas, permitiendo un alto grado de exactitud. Realiza todas las tareas de pre-procesamiento necesarias para la clasificación automática. o Tokenización. o Eliminación de Stopword. o Lematización.
38
Ofelia Cervantes Clasificación de Texto 1.Ingresar a la herramienta “Text Classification”. 2.Aplicar la herramienta a un texto. 3.Analizar el resultado.
39
Ofelia Cervantes Clasificación de Texto 1.Ingresar a la herramienta “Text Classification”. o Abrir la dirección web. o https://www.meaningcloud.com/developer/text-classification/console https://www.meaningcloud.com/developer/text-classification/console
40
Ofelia Cervantes Clasificación de Texto 2.Emplear la herramienta a un texto. Ingresar el texto/documento/URL a analizar. Seleccionar el modelo Español IPTC. Presionar “Formatted”. https://www.meaningcloud.com/developer/text-classification/doc/1.1/what-is-model
41
Ofelia Cervantes Clasificación de Texto 3.Analizar el resultado. –Code: Código de categoría detectada. –Label: Descripción de la categoría. –Absolute Relevance: Valor de relevancia absoluta de la categoría. –Relevance: Valor relativo de relevancia de la categoría, un numero en el rango 0-100%. https://www.meaningcloud.com/developer/text-classification/doc/1.1/response
42
Ofelia Cervantes Reputación Corporativa Etiquetado semántico de contenido multilingüe para análisis de la reputación corporativa. Analiza lo que se menciona de las organizaciones identificadas. Aplica un modelo de reputación corporativa en base a un conjunto de dimensiones de reputación.
43
Ofelia Cervantes Reputación Corporativa 1.Ingresar a la herramienta “Corporate Reputation”. 2.Aplicar la herramienta a un texto. 3.Analizar el resultado.
44
Ofelia Cervantes Ejemplos de herramientas 1.Ingresar a la herramienta “Corporate Reputation”. o Abrir la dirección web. o https://www.meaningcloud.com/developer/corporate-reputation/console https://www.meaningcloud.com/developer/corporate-reputation/console
45
Ofelia Cervantes Reputación Corporativa 2.Emplear la herramienta a un texto. Cambiar el modelo a español. Ingresar el texto a analizar. Presionar “Send”.
46
Ofelia Cervantes Reputación Corporativa 3.Analizar el resultado.
47
Ofelia Cervantes Reputación Corporativa 3.Analizar el resultado. fragment_list: Lista de fragmentos en los que se divide el texto. category_list: Lista de categorías en las que se divide el texto. entity_list: Lista de entidades de tipo organización o persona, identificado en el texto. –entity: Forma principal de la entidad. –type: Tipo de jerarquía de clasificación de la entidad. https://www.meaningcloud.com/developer/corporate-reputation/doc/2.0/response
48
Ofelia Cervantes ofelia.cervantes@udlap.mx
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.