La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Ofelia Cervantes Herramientas para el Análisis de Textos Apoyo para la interpretación SEMÁNTICA 1.

Presentaciones similares


Presentación del tema: "Ofelia Cervantes Herramientas para el Análisis de Textos Apoyo para la interpretación SEMÁNTICA 1."— Transcripción de la presentación:

1 Ofelia Cervantes Herramientas para el Análisis de Textos Apoyo para la interpretación SEMÁNTICA 1

2 Ofelia Cervantes Herramientas PLN http://www.nltk.org/ NLTK es una plataforma para construir programas en Python para trabajar con datos de lenguaje humano. Proporciona interfaces fáciles de usar para más de 50 córporas y recursos lexicales como:  Wordnet.  SentiWordNet (sólo en inglés).  Dependency Parsed Treebank.  SENSEVAL 2 Corpus: Sense Tagged Text.

3 Ofelia Cervantes Herramientas PLN http://www.nltk.org/ Provee una conjuntos de librerías para:  Clasificación: asignar información semántica relacionada a un document de texto.  Tokenización: proceso de romper un texto en palabras, frases o símbolos.  Stemming: proceso de reducción de palabras a su forma base (Word steam).  Tagging: el papel sintáctico de las palabras en el texto (Part of Speech).  Parsing: proceso de analizar una oración tomando cada palabra y detrminando su estructura a partir de sus partes constituyentes.

4 Ofelia Cervantes Herramientas PLN http://www.clips.ua.ac.be/pattern Clips Pattern es un módulo de minería de web para el lenguaje de programación de Python. Desarrollado en la Universidad de Lovaina, Bélgica. Proporciona un paquete de herramientas para:  Minería de datos.  Procesamiento de Lenguaje Natural.  Aprendizaje por computadora.  Análisis de redes y visualización.

5 Ofelia Cervantes FreeLing  Es un conjunto de librerías para el análisis del lenguaje natural.  Desarrollado por la Universidad Politécnica de Catalunya.  Escrita en C++ y esta liberado bajo la licencia Affero GPL.  Ofrece distintos servicios: o Tokenización de texto. o División de sentencias. o Análisis morfológico. o Reconocimiento de fechas, números, proporciones, magnitudes físicas.  Soporte para diversos idiomas. o Español, Ingles, Gallego, Italiano, Asturiano,Ruso, Catalán, Portugués. http://nlp.lsi.upc.edu/freeling/ http://nlp.lsi.upc.edu/papers/padro11.pdf Herramientas PLN

6 Ofelia Cervantes  Es un conjunto de herramientas basadas en aprendizaje automático.  Esta escrito en Java y es de código abierto.  Soporta las tareas más comunes para crear servicios de procesamiento de texto más avanzados. o Detector de oraciones. o Segmentador de palabras o tokenizer. o Buscador de nombres y entidades. o Etiquetado POS (Part of Speech). o Analizador Sintáctico. https://opennlp.apache.org/ Herramientas PLN

7 Ofelia Cervantes  Es una herramienta multipropósito de procesamiento de texto mediante técnicas lingüísticas computacionales.  Se usa para tareas como: o Encontrar en las noticias, nombres de organizaciones o personas o Clasificar automáticamente en categorías colecciones de datos de Twitter o Sugerir correcciones de ortografía en las consultas  Esta escrita en Java y distribuido en varias ediciones.  Analizador de sentimientos de dos dimensiones: Polaridad y Subjetividad..  Extensible mediante modelos para cada idioma y corpus de entrenamiento.  Cuenta con detector de frases.  Realiza etiquetado POS (Part of Speech). http://alias-i.com/lingpipe/ Herramientas PLN

8 Ofelia Cervantes  Es un motor de búsqueda de contenido generado por usuarios. o Redes sociales & Micro blogs: Facebook, Twitter, o Noticias: Google News o Videos: YouTube  Permite seguir y medir lo que se escribe acerca de un tema.  Realiza un análisis en tiempo real: o Análisis de sentimientos. o Palabras más mencionadas. o Búsqueda de Usuarios. o Detección de Fuentes. http://www.socialmention.com/abouthttp://www.socialmention.com/about/ Herramientas PLN

9 Ofelia Cervantes Ejemplos de herramientas http://www.socialmention.com

10 Ofelia Cervantes  Es un Framework de aprendizaje automático.  Es OpenSource y está escrito en Java.  Tiene 14 funciones que permiten procesamiento del lenguaje natural.  Permite utilizar las funciones por medio de su API REST gratuita.  Permite realizar aprendizaje para soportar nuevos idiomas. http://www.datumbox.com/ Ejemplos de herramientas

11 Ofelia Cervantes Análisis de Sentimientos Clasifica documentos como positivos, negativos o neutral. Identifica la emoción que expresa un mensaje. Análisis de Sentimientos en Twitter Realiza análisis de sentimientos en tweets. Análisis de Subjetividad Clasifica documentos como subjetivos o objetivos. Realiza el análisis en base al estilo de escritura. Detección de Contenido para Adulto. Clasifica documentos como basados en contenido para adulto. Empleado para restringir el acceso a los documentos. Ejemplos de herramientas

12 Ofelia Cervantes Detección del Lenguaje. Identifica el lenguaje natural de un documento. Capaz de detectar hasta 96 lenguajes diferentes. Evaluación de Legibilidad. Determina el grado de legibilidad de un documento. Analiza en base a los términos detectados. Detección de Género. Identifica si un documento es escrito/dirigido a mujeres o hombres. Analiza en base al contexto y a las palabras identificadas. Extracción de Palabras Clave Extrae palabras clave y combinación de palabras. Determina el numero de ocurrencias en el texto. Ejemplos de herramientas

13 Ofelia Cervantes Extracción de texto. Extracción de información importante de paginas web. Es un paso importante antes de cualquier análisis. Similaridad de Documentos. Estima el grado de similaridad entre dos documentos. Útil para detectar plagio. Clasificación de Tópico Asigna documentos a 12 categorías temáticas. Identifica el tópicos de un documento. Detección Comercial. Etiqueta documentos como comerciales o no comerciales. Analiza en base a palabras clave y expresiones. Detecta si una pagina web es comercial. Ejemplos de herramientas

14 Ofelia Cervantes Detección Educacional Clasifica documentos como educacionales o no educacionales. Detecta si una pagina web es educacional. Detección de contenido Indeseable Realiza el análisis teniendo en cuenta su contexto. Empleado para filtrar correo y comentarios. Ejemplos de herramientas

15 Ofelia Cervantes Ejemplos de herramientas  Es una compañía que brinda productos Saas (Software as Service).  Realiza análisis semántico sobre textos: o Análisis de sentimientos. o Clasificación de texto. o Detección del idioma. o Reputación corporativa.  Permite a usuarios embeber el procesamiento en cualquier aplicación o sistema. Ofrece múltiples APIs para incorporar en gran variedad de lenguajes de programación.

16 Ofelia Cervantes Panorama general del análisis de contenidos Análisis de Sentimientos Determina si el documento expresa un sentimiento positivo/negativo/neutro. Identifica los documentos que tienen un buen impacto. Permite realizar análisis de opinión. Reputación Corporativa Mide cuál es la valoración que hacen las personas a una empresa. Permite tomar decisiones. estratégicas. Permite estar protegido ante eventuales crisis.

17 Ofelia Cervantes Panorama general del análisis de contenidos Clasificación de texto Asigna una o mas categorías a un texto. Agrupa textos por temas. Permite crear un sistema de recomendación. Empleado para filtrar correo y comentarios no deseados. Extracción de tópicos Extrae los elementos significativos presentes en una fuente de información. Los elementos identificados pueden ser personas, organizaciones, lugares, Fechas, Números telefónicos etc.

18 Ofelia Cervantes Panorama general del análisis de contenidos Detección del Idioma Identifica el lenguaje natural de un documento basándose en sus palabras y contexto. En atención al cliente permite determinar el idioma.

19 Ofelia Cervantes Experiencia interactiva con herramientas de uso libre 1.Análisis de Sentimientos 2.Identificación de Idioma 3.Extracción de Tópicos 4.Clasificación de Textos 5.Reputación corporativa 6.Percepción en medios sociales https://www.meaningcloud.com http://www.socialmention.com/about/

20 Ofelia Cervantes Análisis de Sentimientos  Realiza un detallado análisis de sentimientos a textos.  Determina si el texto expresa un sentimiento positivo/negativo/neutro.  Soporta hasta seis idiomas. https://www.meaningcloud.com

21 Ofelia Cervantes Análisis de Sentimientos 1.Ingresar a la herramienta “Sentiment Analysis”. 2.Aplicar la herramienta a un texto. 3.Analizar el resultado.

22 Ofelia Cervantes Análisis de Sentimientos 1.Ingresar a la herramienta “Sentiment Analysis”. o Abrir la dirección web. o https://www.meaningcloud.com/developer/sentiment-analysis/console https://www.meaningcloud.com/developer/sentiment-analysis/console

23 Ofelia Cervantes Análisis de Sentimientos 2.Aplicar la herramienta sobre un texto El texto puede aportarse de manera directa, en un archivo o a través de un url. Es posible elegir el idioma: cambiarlo a Español. Ingresar el texto a analizar. Presionar “Send”.

24 Ofelia Cervantes Análisis de Sentimientos 3. Analizar el resultado:

25 Ofelia Cervantes Análisis de Sentimientos Resultados de la evaluación: o agreement: Este campo indica el acuerdo entre los sentimientos detectados en el texto. AGREENMENT: Los elementos tienen la misma polaridad. DISAGREENMENT: Existe desacuerdo entre la polaridad de los elementos. o subjectivity: Indica la subjetividad en el texto. OBJECTIVE: El texto no tiene marcas de subjetividad. SUBJECTIVE: El texto tiene marcas subjetivas. o confidence: Representa la confianza asociada con el análisis de sentimientos realizada al texto. Su valor es un numero entero en el rango de 0-100. o irony: Indica la ironía en el texto. NONIRONIC: El texto no tiene marcas de ironía. IRONIC: El texto tiene marcas de ironía. https://www.meaningcloud.com/developer/sentiment-analysis/doc/2.0/response

26 Ofelia Cervantes Identificación de idioma  Detección automática del lenguaje en textos.  Aplicación de técnicas estadísticas basadas en evaluación de N-gramas.  Identificación de más de 60 idiomas.

27 Ofelia Cervantes Identificación de Idioma 1.Ingresar a la herramienta “Language Identification”. 2.Aplicar la herramienta a un texto. 3.Analizar el resultado.

28 Ofelia Cervantes 1.Ingresar a la herramienta “Language Identification”. o Abrir la dirección web. o https://www.meaningcloud.com/developer/language-identification/console https://www.meaningcloud.com/developer/language-identification/console Identificación de Idioma

29 Ofelia Cervantes 2.Aplicar la herramienta sobre un texto. Ingresar el texto a analizar. Presionar “Send”. Identificación de Idioma

30 Ofelia Cervantes Identificación de Idioma 3.Analizar el resultado. lang_list: Lista de posibles lenguajes identificados en el texto. https://www.meaningcloud.com/developer/language-identification/doc/2.0/response

31 Ofelia Cervantes Extracción de Tópicos  Extrae los diferentes elementos significativos presentes en una fuente de información.  Es empleada la combinación de una serie de técnicas de procesamiento del lenguaje natural.  Los elementos identificados pueden ser personas, organizaciones, lugares, fechas, números telefónicos etc.

32 Ofelia Cervantes Extracción de Tópicos 1.Ingresar a la herramienta “Topics Extraction”. 2.Aplicar la herramienta a un texto. 3.Analizar el resultado.

33 Ofelia Cervantes Extracción de Tópicos 1.Ingresar a la herramienta “Topics Extraction”. o Abrir la dirección web. o https://www.meaningcloud.com/developer/topics-extraction/console https://www.meaningcloud.com/developer/topics-extraction/console

34 Ofelia Cervantes Extracción de Tópicos 2.Emplear la herramienta a un texto. Cambiar el idioma a español. Ingresar el texto a analizar. Presionar “Send”.

35 Ofelia Cervantes Extracción de Tópicos 3.Analizar el resultado. Deslizar el scroll a la parte inferior de la pagina.

36 Ofelia Cervantes Extracción de Tópicos 3.Analizando el resultado: entity_list: Lista de entidades encontradas. concept_list: Lista de conceptos encontrados. time_expression_list: Lista de expresiones de tiempo encontradas. money_expression_list: Lista de expresiones monetarias. quantity_expression_list: Lista de cantidades encontradas. Other_expression_list: Lista de patrones alfanumericos encontrados. quotation_list: Lista de citas encontradas. relation_list: Lista de tripletas sintacticas (sujeto-acción-objeto). https://www.meaningcloud.com/developer/topics-extraction/doc/2.0/response

37 Ofelia Cervantes Clasificación de Texto  Asigna una o mas categorías a un texto.  Utiliza taxonomías de dominio especifico estándar (ej. IPTC. IAB, ICD-10) o categorías definidas.  Combina clasificación estadística con filtrado basado en reglas, permitiendo un alto grado de exactitud.  Realiza todas las tareas de pre-procesamiento necesarias para la clasificación automática. o Tokenización. o Eliminación de Stopword. o Lematización.

38 Ofelia Cervantes Clasificación de Texto 1.Ingresar a la herramienta “Text Classification”. 2.Aplicar la herramienta a un texto. 3.Analizar el resultado.

39 Ofelia Cervantes Clasificación de Texto 1.Ingresar a la herramienta “Text Classification”. o Abrir la dirección web. o https://www.meaningcloud.com/developer/text-classification/console https://www.meaningcloud.com/developer/text-classification/console

40 Ofelia Cervantes Clasificación de Texto 2.Emplear la herramienta a un texto. Ingresar el texto/documento/URL a analizar. Seleccionar el modelo Español IPTC. Presionar “Formatted”. https://www.meaningcloud.com/developer/text-classification/doc/1.1/what-is-model

41 Ofelia Cervantes Clasificación de Texto 3.Analizar el resultado. –Code: Código de categoría detectada. –Label: Descripción de la categoría. –Absolute Relevance: Valor de relevancia absoluta de la categoría. –Relevance: Valor relativo de relevancia de la categoría, un numero en el rango 0-100%. https://www.meaningcloud.com/developer/text-classification/doc/1.1/response

42 Ofelia Cervantes Reputación Corporativa  Etiquetado semántico de contenido multilingüe para análisis de la reputación corporativa.  Analiza lo que se menciona de las organizaciones identificadas.  Aplica un modelo de reputación corporativa en base a un conjunto de dimensiones de reputación.

43 Ofelia Cervantes Reputación Corporativa 1.Ingresar a la herramienta “Corporate Reputation”. 2.Aplicar la herramienta a un texto. 3.Analizar el resultado.

44 Ofelia Cervantes Ejemplos de herramientas 1.Ingresar a la herramienta “Corporate Reputation”. o Abrir la dirección web. o https://www.meaningcloud.com/developer/corporate-reputation/console https://www.meaningcloud.com/developer/corporate-reputation/console

45 Ofelia Cervantes Reputación Corporativa 2.Emplear la herramienta a un texto. Cambiar el modelo a español. Ingresar el texto a analizar. Presionar “Send”.

46 Ofelia Cervantes Reputación Corporativa 3.Analizar el resultado.

47 Ofelia Cervantes Reputación Corporativa 3.Analizar el resultado. fragment_list: Lista de fragmentos en los que se divide el texto. category_list: Lista de categorías en las que se divide el texto. entity_list: Lista de entidades de tipo organización o persona, identificado en el texto. –entity: Forma principal de la entidad. –type: Tipo de jerarquía de clasificación de la entidad. https://www.meaningcloud.com/developer/corporate-reputation/doc/2.0/response

48 Ofelia Cervantes ofelia.cervantes@udlap.mx


Descargar ppt "Ofelia Cervantes Herramientas para el Análisis de Textos Apoyo para la interpretación SEMÁNTICA 1."

Presentaciones similares


Anuncios Google