Computación con el lenguaje 4 Día 25, 17 mar 14 Cultura computacional en español SPAN 4350 Harry Howard Tulane University.

Slides:



Advertisements
Presentaciones similares
1 Las Palabras Interrogativas ¿Quién?¿Qué?¿Cuándo?
Advertisements

Hola chicos- revise all numbers and greetings for the test please
EL TIEMPO PERFECTO SIMPLE
La computación con el lenguaje 2 Día 3, 17 ene 14 Cultura computacional en español SPAN 4350 Harry Howard Tulane University.
Bilingüismo hispánico SPAN 6060 Harry Howard Tulane University
Los lugares de articulación Día 7, 11 septiembre 2013
ER and IR verbs Part 2. VIVIR = to live Yo VIVONosotros VIVIMOS Tú VIVESVosotros VIVÍS Él, Ella, o Ud. VIVEEllos, Ellas o Uds. VIVEN.
Fonemas vs. alófonos 30 sep día 15
Computación con el lenguaje 5 Día 26, 21 mar 14 Cultura computacional en español SPAN 4350 Harry Howard Tulane University.
El aparato fonador Día 5, 5 septiembre 2014
Artículos, preposiciones, pronombres y adjetivos.
Organización del curso Día 1, 14 enero 2013 Bilingüismo hispánico SPAN 6060 Harry Howard Tulane University.
JUEGOS NÚMEROS.
La fonética Día 3, 29 agosto 2014 Fonética y fonología españolas SPAN 4260 Harry Howard Tulane University.
CONCEPTOS BÁSICOS DE LA MORFOLOGÍA 18 MAR 2011 – DÍA 26
Copyright © 2008 Vista Higher Learning. All rights reserved  In Spanish, as in English, the object of a preposition is the noun or pronoun that.
La palabra prosódica 1 12 nov día 33
Las laterales 24 oct día 25 Fonética y fonología españolas SPAN 4260 Harry Howard Tulane University.
El control de la computación 2 día16, 20-feb-15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.
Variación lingüística 2 01 oct 14 - día 16 Fonética y fonología españolas SPAN 4260 Harry Howard Tulane University.
Adquisición de una lengua segunda Día 34, 15 abr 2013 Bilingüismo hispánico SPAN 6060 Harry Howard Tulane University.
La educación bilingüe en los Estados Unidos Día 39, 26 abr 2013 Bilingüismo hispánico SPAN 6060 Harry Howard Tulane University.
LAS EXPRESSIONS REGULARES 2 DAY 7 - 1/28/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.
Gustar- To like (to please)
El bilingüismo en los EEUU 3 Día 16, 22 feb 2013 Bilingüismo hispánico SPAN 6060 Harry Howard Tulane University.
LAS LISTAS DAY /6/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.
Organización del curso Día 1, 25 agosto 2014 Fonética y fonología españolas SPAN 4260 Harry Howard Tulane University.
Texto de las páginas web día19, 27-feb-15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.
Variación lingüística 29 sep día 15 Fonética y fonología españolas SPAN 4260 Harry Howard Tulane University.
Las vibrantes 2 23 oct día 24 Fonética y fonología españolas SPAN 4260 Harry Howard Tulane University.
La fonética 2 Día 4, 3 septiembre 2014
Las vocales no silábicas 1 13 oct día 20 Fonética y fonología españolas SPAN 4260 Harry Howard Tulane University.
El control de la computación 3 día17, 23-feb-15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.
Introducción general Día 2, 16 enero 2013 Bilingüismo hispánico SPAN 6060 Harry Howard Tulane University.
DECIR Page 408 Realidades 1 DECIR You have used forms of decir in the questions ¿Cómo se dice? And Y tú, ¿qué dices? Here we will learn all its forms.
Aspectos sociales del bilingüismo Día 4, 23 enero 2013 Bilingüismo hispánico SPAN 6060 Harry Howard Tulane University.
Aspectos psicológicos del bilingüismo 2 Día 21, 6 mar 2013
REPASO Capítulo 3.2.
LAS LISTAS 2 Y LAS CORPORAS DAY /6/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.
UNICODE DAY /4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.
Lunes el 28 de noviembrePreparación para el examen objetivo: estar preparados para la preparación para el examen as tapas Me habría Por lo Era más limpio.
LA LINGÜÍSTICA COMO CIENCIA COGNITIVA 2 14 ENERO 2011 – DÍA 3 Neurolingüística del español SPAN 4270 Harry Howard Tulane University.
ver películas la biblioteca el centro comercial.
El bilingüismo en España 2 Día 7, 30 enero 2013
Tener & tener que + infinitive. tener-to have tengotenem os tienestenéis tienetienen 1.They have 2.You (for.) have 3.She has 4.I have 5.We have Look at.
El Verbo “GUSTAR” En español gustar means “to be pleasing” In English, the equivalent is “to like”
Objetivo: to create a dialog in Spanish and prepare for our test. Hagan Ahora: 1)Activity 23 in the workbook packet. 2)Look at your notes, handouts, quizzes.
LECCIÓN 2: SEGUNDA PARTE Today you will learn: To discusses subjects and classes at school Today you will review: How to tell time in Spanish.
Repaso de capítulo 3 Español I. Divide your paper into two columns Mi respuesta La respuesta correcta Number it 1-50.
Gustar “to like” By Arianna and Sarah. Gustar- To like (to please) Me gusta (I like) Te gusta (you like) Singular Nos gusta (we like) Me gustan (I like)
El plural de los sustantivos Día 3, 15 ene 2016
El indicativo 3 Pretérito e imperfecto Día feb 2016 Gramática española SPAN 4351 Harry Howard Tulane University.
El presente indicativo Día feb 2016 Gramática española SPAN 4326 Harry Howard Tulane University.
Pretérito e imperfecto Día feb 2016 Gramática española SPAN 4351 Harry Howard Tulane University.
Verbos pronominales Día abr 2016 Gramática española SPAN 4351 Harry Howard Tulane University.
Aprendizaje de una segunda lengua, 3 Día 28, 18 mar 2016 Bilingüismo hispánico SPAN 4350 Harry Howard Tulane University.
Verbos auxiliares modales A personal Día mar 2016 Gramática española SPAN 4351 Harry Howard Tulane University.
Imperativo, infinitivo, participio, gerundio 1 Día 23, 07 mar 2016 Gramática española SPAN 4351 Harry Howard Tulane University.
Adverbios Expresiones de tiempo Día abr 2016 Gramática española SPAN 4351 Harry Howard Tulane University.
Verbos de devenir Oraciones pasivas e impersonales Día abr 2016 Gramática española SPAN 4351 Harry Howard Tulane University.
Pronombres y cláusulas relativas 2 Día abr 2016 Gramática española SPAN 4351 Harry Howard Tulane University.
Las oraciones existenciales Día abr 2016 Gramática española SPAN 4351 Harry Howard Tulane University.
Ser y estar Día abr 2016 Gramática española SPAN 4351 Harry Howard Tulane University.
El bilingüismo en Hispanoamérica 4 Día 12, 10 feb 2016 Bilingüismo hispánico SPAN 4350 Harry Howard Tulane University.
El español de la Colombia andina 2 16 mar 2017 – Día 25
Aspectos sociales del bilingüismo 2 Día 5, 29 enero 2018
PRUEBA 1 EXAMEN WEBCAPE 24 ENERO 2011 – DÍA 6
El español de Colombia 2 13 mar 2015 – Día 25
Kindergarten Spanish High Frequency Words
Gramática española avanzada SPAN 4351 Harry Howard Tulane University
Transcripción de la presentación:

Computación con el lenguaje 4 Día 25, 17 mar 14 Cultura computacional en español SPAN 4350 Harry Howard Tulane University

Organización del curso Las grabaciones y las presentaciones están disponibles en: NLP/ NLP/ La versión en inglés del tema es ES/control.html ES/control.html Las notas están en el Gradebook de Blackboard. 19-mar-14SPAN Harry Howard - Tulane University2

REPASO 19-mar-14SPAN Harry Howard - Tulane University3

Convertir texto en Text >>> import funciones >>> texto = funciones.cargaTexto() >>> len(texto) >>> import nltk >>> from nltk.text import Text >>> T = Text(texto) >>> len(T) >>> 19-mar-14SPAN Harry Howard - Tulane University4

19-mar-14SPAN Harry Howard - Tulane University5 Funciones para las distribuciones de frecuencia de NLTK df = FreqDist(muestras)crear una distribución de frecuencias con 'muestras' df.inc(muestra)incrementar el recuento de 'muestra' (ver siguiente) df['amor']mostrar el número de veces que ocurre 'amor' df.freq('amor')la frecuencia de 'amor' df.keys()ordenar las muestras en orden decreciente for muestra in df:iterar sobre las muestras en orden decreciente df.N()el número total de muestras df.max()la muestra con el mayor recuento df.tabulate(n,m)tabular la distribución de frecuencias df.plot()cuadro de la distribución de frecuencias df.plot(cumulative=True)cuadro acumulativa de la distribución de frecuencias df1 < df2 ocurren las muestras en df1 con menos frecuencia que en df2?

La computación con el lenguaje: La estadística NLPP mar-14SPAN Harry Howard - Tulane University6

Palabras vacías (stopwords) Las palabras cortas suelen esconder la frecuencia de las palabras que nos interesan de un texto. NLTK dispone de listas de estas palabras en varios idiomas. Están en la carpeta 'stopwords' en la carpeta 'corpora'. 19-mar-14SPAN Harry Howard - Tulane University7

Hay dos formas de acceder a ellas >>> import nltk # La forma directa >>> temp = nltk.corpus.stopwords.words('spanish') # La forma indirecta >>> from nltk.corpus import stopwords >>> temp = stopwords.words('spanish') # El resultado es el mismo para las dos: >>> vacias[:50] ['de', 'la', 'que', 'el', 'en', 'y', 'a', 'los', 'del', 'se', 'las', 'por', 'un', 'para', 'con', 'no', 'una', 'su', 'al', 'lo', 'como', 'm\xc3\xa1s', 'pero', 'sus', 'le', 'ya', 'o', 'este', 's\xc3\xad', 'porque', 'esta', 'entre', 'cuando', 'muy', 'sin', 'sobre', 'tambi\xc3\xa9n', 'me', 'hasta', 'hay', 'donde', 'quien', 'desde', 'todo', 'nos', 'durante', 'todos', 'uno', 'les', 'ni'] >>> len(temp) 313 # Convertir a Unicode >>> vacias = [p.decode('utf8') for p in temp] >>> vacias[:50] [u'de', u'la', u'que', u'el', u'en', u'y', u'a', u'los', u'del', u'se', u'las', u'por', u'un', u'para', u'con', u'no', u'una', u'su', u'al', u'lo', u'como', u'm\xe1s', u'pero', u'sus', u'le', u'ya', u'o', u'este', u's\xed', u'porque', u'esta', u'entre', u'cuando', u'muy', u'sin', u'sobre', u'tambi\xe9n', u'me', u'hasta', u'hay', u'donde', u'quien', u'desde', u'todo', u'nos', u'durante', u'todos', u'uno', u'les', u'ni'] 19-mar-14SPAN Harry Howard - Tulane University8

Distribución de frecuencia condicionada NLPP mar-14SPAN Harry Howard - Tulane University9

19-mar-14SPAN Harry Howard - Tulane University10 Distribución de frecuencia condicionada Una distribución de frecuencia condicionada es una colección de distribuciones de frecuencia, cada una para una condición diferente. La condición suele ser la categoría del texto. La Figura 2.4 muestra un fragmento de una distribución de frecuencia condicionada que tiene sólo dos condiciones, una para un texto de prensa y otra para un texto de novela románica.

19-mar-14SPAN Harry Howard - Tulane University11 Figura 2.4 Contar palabras que aparecen en una colección de textos (una distribución de frecuencia condicionada).

19-mar-14SPAN Harry Howard - Tulane University12 Emparejamiento de evento (muestra) y condición Una distribución de frecuencia cuenta eventos observables  Para nosotros, un evento es la aparición de una palabra en un texto.  O sea, vamos a tomar una muestra (sample) de un texto. Una distribución de frecuencia condicionada empareja un evento con una condición.  O sea, una muestra con una condición. En lugar de procesar una secuencia de palabras, lo que se procesa es una secuencia de pares de palabra (muestra) y condición.

19-mar-14SPAN Harry Howard - Tulane University13 Un corpus con categorías El Corpus de Brown tiene 15 categorías: >>> from nltk.corpus import brown >>> brown.categories() ['adventure', 'belles_lettres', 'editorial', 'fiction', 'government', 'hobbies','humor', 'learned', 'lore', 'mystery', 'news', 'religion', 'reviews', 'romance','science_fiction'] >>> brown.words(categories='news') ['The', 'Fulton', 'County', 'Grand', 'Jury', 'said',...]

19-mar-14SPAN Harry Howard - Tulane University14 Muestra de emparejamiento Los tokens de cada categoría están emparejados con la categoría, de esta forma: [( 'news', 'The' ), ('news', 'Fulton' ), ('news', 'County' ),...] O sea, cada par tiene la forma (condición, muestra). Si procesáramos el Corpus de Brown por género, habría 15 condiciones (una por género) y muestras (una por palabra).

19-mar-14SPAN Harry Howard - Tulane University15 Como procesar por condición #Se crea una lista de dos géneros, para simplificar: >>> gen = ['news', 'romance'] #Se crea una lista de pares (género, palabra): >>> genero_palabra = [(g, p) #… revisando cada género: for g in gen #… revisando cada palabra del género: for p in brown.words(categories=g)] #Se crea la distribución: >>> from nltk.probability import ConditionalFreqDist >>> dfc = nltk.ConditionalFreqDist(genero_palabra)

19-mar-14SPAN Harry Howard - Tulane University16 Lo anterior sin comentarios >>> gen = ['news', 'romance'] >>> genero_palabra = [(g, p) for g in gen for p in brown.words(categories=g)] >>> from nltk.probability import ConditionalFreqDist >>> dfc = nltk.ConditionalFreqDist(genero_palabra)

19-mar-14SPAN Harry Howard - Tulane University17 Comprobar el resultado >>> len(genero_palabra) >>> genero_palabra[:4] [('news', 'The'), ('news', 'Fulton'), ('news', 'County'), ('news', 'Grand')] >>> genero_palabra[-4:] [('romance', 'afraid'), ('romance', 'not'), ('romance', "''"), ('romance', '.')] >>> dfc >>> dfc.conditions() ['news', 'romance'] >>> dfc['news'] >>> dfc['romance'] >>> dfc['romance']['could'] 193 >>> list(dfc['romance']) [',', '.', 'the', 'and', 'to', 'a', 'of', '``', "''", 'was', 'with', 'you', 'for', 'at', 'He', 'on', 'him','said', '!' 'I', 'in', 'he', 'had','?', 'her', 'that', 'it', 'his', 'she',...]

El próximo día Tráete el portátil a clase. P6 Análisis de textos con NLTK 19-mar-14SPAN Harry Howard - Tulane University18