Computación con el lenguaje 5 Día 26, 21 mar 14 Cultura computacional en español SPAN 4350 Harry Howard Tulane University.

Slides:



Advertisements
Presentaciones similares
SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR
Advertisements

1 Datos sobre webloggers Datos extraidos de la encuesta a webloggers disponibles en la web de los autores.
Escuchamos 1 2 hablas 2 3 L o s R e c u a d r o s E s c o n d i d o s Yo/ tomar Ellas/ estudiar Nosotros/ escuchar Tú/ hablar Los Verbos AR.
Chapter 1 Vocabulary Español I.
MEDIDAS DE TENDENCIA CENTRAL
Conocimiento, Uso y Evaluación de Medicamentos Genéricos
Los números del 0 al cero uno dos tres cuatro cinco 6 7 8
La mediana La mediana es el valor tal que el 50 % de las observaciones son menores y 50 % de ellas son mayores a dicho valor. En otra palabras, la mediana.
Noviembre 2007Estudio Rostros de Noticias 2007Collect-GfKWikén Estudio Rostros de Noticias de la TV Chilena Desarrollados para Revista Wikén El Mercurio.
1 LA UTILIZACION DE LAS TIC EN LAS MICROEMPRESAS GALLEGAS. AÑO mayo 2005.
1 LA UTILIZACION DE LAS TIC EN LAS PYMES GALLEGAS AÑO de Junio de 2005.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS ( Resumen PYMES ) Noviembre de 2004.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS (MICROEMPRESAS, resultados provisionales) 29 de julio de 2004.
AYUDA A LA FUNCIÓN DOCENTE Internet
TEMA 2 MÚLTIPLOS Y DIVISORES
02- Plan Organización Docente v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
01- OFERTA FORMATIVA v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
JOURNAL CITATION REPORTS®
Aladdín-respuestas 1.Vivía 2.Era 3.Amaba 4.Quería 5.Gustaban 6.Se sentía 7.Salía 8.Tenía 9.Decidió 10.escapó 11. Se vistió 12. Conoció 13. Vio 14. Pensó
Respuestas Buscando a Nemo.
ABECEDARIO FIGURAS GEOMÉTRICAS NÚMERO
1 Las Palabras Interrogativas ¿Quién?¿Qué?¿Cuándo?
Modas Página Internet: Correo Electrónico:
Objetivo: Los estudiantes van a usar vocabulario del desayuno para comprender un cuento. Práctica: 1. ¿Te gusta comer? 2. ¿Te gusta beber Mt. Dew.
Direct Objects vs Indirect Objects Direct objects tell you S + V + who or what Indirect objects tell you S + V + (D.O.) + to whom or for whom Direct objects.
Mulán /75 puntos. 1.Querían 2.Gustaban 3.Escuchó 4.Dijo 5.Tenía 6.Ayudaron 7.Maquillaron 8.Arreglaron 9.Dio 10.Estaba 11.Iba 12.Quería 13.Salió 14.Gritó
La hora Telling time after the half hour (from minutes)
Español 1 el 30 de agosto. Bell Dinger – el 30 de agosto
Estructura Económica de México Prof. Abelardo Mariña Flores trimestre 2010-P.
William Shakespeare ( greg.), fue un dramaturgo, poeta y actor inglés. Conocido en ocasiones como el Bardo de Avon (o.
Repaso del capítulo Primer Paso
Parte 3. Descripción del código de una función 1.
La computación con el lenguaje 2 Día 3, 17 ene 14 Cultura computacional en español SPAN 4350 Harry Howard Tulane University.
Vocabulario querer comerlo -paja por supuesto - madera
Los lugares de articulación Día 7, 11 septiembre 2013
FUNCIONES DE UNA VARIABLE REAL
06/12/ Describing People Subject Pronouns & the verb SER U1E1.
¿Qué te gusta hacer? Unit 3: Vocabulario.
EL OSO APRENDIZ Y SUS AMIGOS
1 Choose a category. You will be given the answer. You must give the correct question. Click to begin.
SPANISH I POWERPOINT UNIT 4. 2/4/12 Lunes Vocabulario  Llegar: to arrive  LlegoLlegamos  Llegas  LlegaLlegan  Temprano: early  Tarde: late  A.
¿Nuevo autor?, dar clic en “Register”
Ecuaciones Cuadráticas
C REACIÓN DE B LOGS EN ESPOL Profesora: Eva María Mera Intriago Escuela Superior Politécnica del Litoral Impulsando la sociedad del conocimiento Instituto.
¡Primero mira fijo a la bruja!
CULENDARIO 2007 Para los Patanes.
Las Palabras Interrogativas
0 1 ¿Qué hora es? By: Craig Tillmann Revised by: Malinda Seger Coppell High School Coppell, TX.
Fonemas vs. alófonos 30 sep día 15
1 Present tense conjugations of regular –AR verbs Los Verbos Regulares.
Computación con el lenguaje 4 Día 25, 17 mar 14 Cultura computacional en español SPAN 4350 Harry Howard Tulane University.
El aparato fonador Día 5, 5 septiembre 2014
Organización del curso Día 1, 14 enero 2013 Bilingüismo hispánico SPAN 6060 Harry Howard Tulane University.
+19 Diciembre 2014 Indicador > +20 Indicador 0 a +20 Indicador 0 a -20 Indicador < -20 Total Unión Europea: +5 Indicador > +20 Indicador 0 a +20 Indicador.
Los Numeros.
La fonética Día 3, 29 agosto 2014 Fonética y fonología españolas SPAN 4260 Harry Howard Tulane University.
La palabra prosódica 1 12 nov día 33
1 8 de febrero del Chapter 5 Encoding 3 Figure 5-1 Different Conversion Schemes.
Las laterales 24 oct día 25 Fonética y fonología españolas SPAN 4260 Harry Howard Tulane University.
El control de la computación 2 día16, 20-feb-15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.
Adquisición de una lengua segunda Día 34, 15 abr 2013 Bilingüismo hispánico SPAN 6060 Harry Howard Tulane University.
La educación bilingüe en los Estados Unidos Día 39, 26 abr 2013 Bilingüismo hispánico SPAN 6060 Harry Howard Tulane University.
Estadística Administrativa I
Gustar- To like (to please)
LAS LISTAS DAY /6/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.
Texto de las páginas web día19, 27-feb-15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.
El control de la computación 3 día17, 23-feb-15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.
El indicativo 3 Pretérito e imperfecto Día feb 2016 Gramática española SPAN 4351 Harry Howard Tulane University.
Pretérito e imperfecto Día feb 2016 Gramática española SPAN 4351 Harry Howard Tulane University.
Transcripción de la presentación:

Computación con el lenguaje 5 Día 26, 21 mar 14 Cultura computacional en español SPAN 4350 Harry Howard Tulane University

Organización del curso Las grabaciones y las presentaciones están disponibles en: NLP/ NLP/ La versión en inglés del tema es ES/control.html ES/control.html Las notas están en el Gradebook de Blackboard. 21-mar-14SPAN Harry Howard - Tulane University2

REPASO 21-mar-14SPAN Harry Howard - Tulane University3

21-mar-14SPAN Harry Howard - Tulane University4 Funciones para las distribuciones de frecuencia de NLTK df = FreqDist(muestras)crear una distribución de frecuencias con 'muestras' df.inc(muestra)incrementar el recuento de 'muestra' (ver siguiente) df['amor']mostrar el número de veces que ocurre 'amor' df.freq('amor')la frecuencia de 'amor' df.keys()ordenar las muestras en orden decreciente for muestra in df:iterar sobre las muestras en orden decreciente df.N()el número total de muestras df.max()la muestra con el mayor recuento df.tabulate(n,m)tabular la distribución de frecuencias df.plot()cuadro de la distribución de frecuencias df.plot(cumulative=True)cuadro acumulativa de la distribución de frecuencias df1 < df2 ocurren las muestras en df1 con menos frecuencia que en df2?

Hay dos formas de acceder a ellas >>> import nltk # La forma directa >>> temp = nltk.corpus.stopwords.words('spanish') # La forma indirecta >>> from nltk.corpus import stopwords >>> temp = stopwords.words('spanish') # El resultado es el mismo para las dos: >>> vacias[:50] ['de', 'la', 'que', 'el', 'en', 'y', 'a', 'los', 'del', 'se', 'las', 'por', 'un', 'para', 'con', 'no', 'una', 'su', 'al', 'lo', 'como', 'm\xc3\xa1s', 'pero', 'sus', 'le', 'ya', 'o', 'este', 's\xc3\xad', 'porque', 'esta', 'entre', 'cuando', 'muy', 'sin', 'sobre', 'tambi\xc3\xa9n', 'me', 'hasta', 'hay', 'donde', 'quien', 'desde', 'todo', 'nos', 'durante', 'todos', 'uno', 'les', 'ni'] >>> len(temp) 313 # Convertir a Unicode >>> vacias = [p.decode('utf8') for p in temp] >>> vacias[:50] [u'de', u'la', u'que', u'el', u'en', u'y', u'a', u'los', u'del', u'se', u'las', u'por', u'un', u'para', u'con', u'no', u'una', u'su', u'al', u'lo', u'como', u'm\xe1s', u'pero', u'sus', u'le', u'ya', u'o', u'este', u's\xed', u'porque', u'esta', u'entre', u'cuando', u'muy', u'sin', u'sobre', u'tambi\xe9n', u'me', u'hasta', u'hay', u'donde', u'quien', u'desde', u'todo', u'nos', u'durante', u'todos', u'uno', u'les', u'ni'] 21-mar-14SPAN Harry Howard - Tulane University5

21-mar-14SPAN Harry Howard - Tulane University6 Figura 2.4 Contar palabras que aparecen en una colección de textos (una distribución de frecuencia condicionada).

21-mar-14SPAN Harry Howard - Tulane University7 Un corpus con categorías El Corpus de Brown tiene 15 categorías: >>> import nltk >>> from nltk.corpus import brown >>> brown.categories() ['adventure', 'belles_lettres', 'editorial', 'fiction', 'government', 'hobbies','humor', 'learned', 'lore', 'mystery', 'news', 'religion', 'reviews', 'romance','science_fiction'] >>> brown.words(categories='news') ['The', 'Fulton', 'County', 'Grand', 'Jury', 'said',...]

21-mar-14SPAN Harry Howard - Tulane University8 Como procesar por condición >>> import nltk >>> from nltk.corpus import brown >>> from nltk.probability import ConditionalFreqDist >>> gen = ['news', 'romance'] >>> genero_palabra = [(g, p) for g in gen for p in brown.words(categories=g)] >>> dfc = nltk.ConditionalFreqDist(genero_palabra)

21-mar-14SPAN Harry Howard - Tulane University9 Comprobar el resultado >>> len(genero_palabra) >>> genero_palabra[:4] [('news', 'The'), ('news', 'Fulton'), ('news', 'County'), ('news', 'Grand')] >>> genero_palabra[-4:] [('romance', 'afraid'), ('romance', 'not'), ('romance', "''"), ('romance', '.')] >>> dfc >>> dfc.conditions() ['news', 'romance'] >>> dfc['news'] >>> dfc['romance'] >>> dfc['romance']['could'] 193 >>> list(dfc['romance']) [',', '.', 'the', 'and', 'to', 'a', 'of', '``', "''", 'was', 'with', 'you', 'for', 'at', 'He', 'on', 'him','said', '!' 'I', 'in', 'he', 'had','?', 'her', 'that', 'it', 'his', 'she',...]

La computación con el lenguaje: La estadística NLPP mar-14SPAN Harry Howard - Tulane University10

21-mar-14SPAN Harry Howard - Tulane University11 Tabular una distribución cancouldmaymightmustwill news religion hobbies sci fi romance humor

21-mar-14SPAN Harry Howard - Tulane University12 Como hacerlo El objetivo es buscar los verbos modales indicados en los géneros indicados del corpus de Brown. Es una distribución de frecuencia condicionada que toma los géneros como condiciones y los verbos modales como muestra.

21-mar-14SPAN Harry Howard - Tulane University13 El planteamiento (seudo-código) #Se crean listas con los géneros y las muestras de interés: >>> gen = ['news', 'religion', 'hobbies', 'science_fiction', 'romance', 'humor'] >>> mod = ['can', 'could', 'may', 'might', 'must', 'will'] #Se crea una lista de pares (género, palabra): >>> genero_palabra = [(g, p) #… revisando cada género en la lista: for g in gen #… revisando cada palabra en el género: for p in brown.words(categories=g) #… si la palabra está en la lista de verbos modales: if p in mod] #Se crea la distribución de la lista de pares: >>> dfc = ConditionalFreqDist(genero_palabra)

21-mar-14SPAN Harry Howard - Tulane University14 Lo anterior sin comentarios >>> import nltk >>> from nltk.corpus import brown >>> from nltk.probability import ConditionalFreqDist >>> gen = ['news', 'religion', 'hobbies', 'science_fiction', 'romance', 'humor'] >>> mod = ['can', 'could', 'may', 'might', 'must', 'will'] >>> genero_palabra = [(g, p) for g in gen for p in brown.words(categories= g ) if p in mod] >>> dfc = ConditionalFreqDist( genero_palabra)

Visualizar los resultados En una tabla >>> dfc.tabulate() En un gráfico >>> dfc.plot() 21-mar-14SPAN Harry Howard - Tulane University15

dfc.tabulate() can could may might must will news religion hobbies science_fiction romance humor mar-14SPAN Harry Howard - Tulane University16

dfc.plot() 21-mar-14SPAN Harry Howard - Tulane University17

21-mar-14SPAN Harry Howard - Tulane University18 Otro ejemplo El objetivo es encontrar la frecuencia de 'america' y 'citizen' en el corpus de discursos inaugurales que tiene NLTK. Escogemos el corpus 'inaugural' y miramos sus títulos: >>> from nltk.corpus import inaugural >>> inaugural.fileids() ['1789-Washington.txt', '1793-Washington.txt', '1797-Adams.txt',..., '2009-Obama.txt']

21-mar-14SPAN Harry Howard - Tulane University19 El planteamiento (seudo-código) #Las condiciones son las dos palabras claves: claves = ['america', 'citizen'] #Las muestras son los años, que se van a asignar en la travesía de los discursos. #Se crea una lista de pares (palabra, año): palabra_anno = [(palabra, discurso[:4]) #… atravesando cada discurso inaugural (por su fileid): for discurso in inaugural.fileids() #… atravesando cada palabra de cada discurso: for p in inaugural.words( discurso ) #… atravesando cada palabra clave: for palabra in claves #… si una de las palabras clave empieza la palabra en minúscula: if p.lower().startswith(palabra) ] #Se crea la distribución de la lista de pares: >>> dfc2 = ConditionalFreqDist(palabra_anno)

21-mar-14SPAN Harry Howard - Tulane University20 Lo anterior sin comentarios >>> import nltk >>> from nltk.corpus import inaugural >>> from nltk.probability import ConditionalFreqDist >>> claves = ['america', 'citizen'] >>> palabra_anno = [(palabra, discurso[:4]) for discurso in inaugural.fileids() for p in inaugural.words(discurso) for palabra in claves if p.lower().startswith(palabra)] >>> dfc2 = ConditionalFreqDist(palabra_anno)

Visualizar los resultados En una tabla >>> dfc2.tabulate() En un gráfico >>> dfc2.plot() 21-mar-14SPAN Harry Howard - Tulane University21

dfc2.tabulate() no se puede leer america citizen mar-14SPAN Harry Howard - Tulane University22

Es algo así como … … america21801 citizen mar-14SPAN Harry Howard - Tulane University23

dfc2.tabulate() cambiando los ejes america citizen mar-14SPAN Harry Howard - Tulane University24

21-mar-14SPAN Harry Howard - Tulane University25 dfc2.plot()

21-mar-14SPAN Harry Howard - Tulane University26 Resumen de los métodos de ConditionalFreqDist() dfc = ConditionalFreqDist(pares) crear una distribución de frecuencia condicionada de una lista de pares dfc.conditions() alistar las condiciones en orden alfabético dfc[condición] mostrar la distribución de frecuencia de esta condición dfc[condición][muestra] mostrar la frecuencia de esta muestra por esta condición dfc.tabulate()tabular la distribución dfc.tabulate(condition=?, sample=?) tabular las condiciones ? y las muestras ? dfc.plot()hacer un gráfico de la distribución dfc.plot(condition=?, sample=?) hacer un gráfico de las condiciones ? y las muestras ?

El próximo día Tráete el portátil a clase. P6 Análisis de textos con NLTK 21-mar-14SPAN Harry Howard - Tulane University27