Texto de las páginas web día19, 27-feb-15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.

Slides:



Advertisements
Presentaciones similares
Escribir en un wiki. Insertar imágenes y enlaces
Advertisements

Introducción a Django Manuel Kaufmann Septiembre de 2009
CONCEPTOS BASICOS DE PAGINAS WEB
Capacitación sobre terminología web.
CONCEPTOS BASICOS DE INTERNET
La computación con el lenguaje 2 Día 3, 17 ene 14 Cultura computacional en español SPAN 4350 Harry Howard Tulane University.
PERTURBACIONES DEL SISTEMA FÓNICO 2 16 FEB 2011 – DÍA 16
Los lugares de articulación Día 7, 11 septiembre 2013
INTERNET CNCI OBJETIVO: Aprender conceptos basicos de INTERNET asi como navegar a través de internet.
Bajar e instalar Ebeam Bajar la version desde
Curso Online Campeón Plus SMART EMPRENDETIC Marzo 2014.
Computación con el lenguaje 4 Día 25, 17 mar 14 Cultura computacional en español SPAN 4350 Harry Howard Tulane University.
CONCEPTOS BÁSICOS DE LA MORFOLOGÍA 16 MAR 2011 – DÍA 25 Neurolingüística del español SPAN 4270 Harry Howard Tulane University.
CONCEPTOS BÁSICOS DE LA MORFOLOGÍA 18 MAR 2011 – DÍA 26
El control de la computación 2 día16, 20-feb-15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.
Adquisición de una lengua segunda Día 34, 15 abr 2013 Bilingüismo hispánico SPAN 6060 Harry Howard Tulane University.
Dialectología iberoamericana SPAN 4270 Harry Howard Tulane University
LAS EXPRESSIONS REGULARES 2 DAY 7 - 1/28/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.
El bilingüismo en los EEUU 2 Día 15, 20 feb 2013 Bilingüismo hispánico SPAN 6060 Harry Howard Tulane University.
El bilingüismo en los EEUU 3 Día 16, 22 feb 2013 Bilingüismo hispánico SPAN 6060 Harry Howard Tulane University.
LAS LISTAS DAY /6/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.
Junio 2: Desarrollo del proyecto en la sala 3 Junio 9: Continuación del proyecto en la sala 3 Junio 16: Examen Final. Sala 3. Entrega del proyecto (se.
Variación lingüística 29 sep día 15 Fonética y fonología españolas SPAN 4260 Harry Howard Tulane University.
LENGUAJE HTML INTRODUCCIÓN.
Neurolingüística del español SPAN 4270 Harry Howard Tulane University
SITIO, BITÁCORA Y AULA VIRTUAL
Las vocales no silábicas 1 13 oct día 20 Fonética y fonología españolas SPAN 4260 Harry Howard Tulane University.
P1 respuestas 1.Explica las varias formas que hay de ser bilingüe en términos de un continuo bilingüe. 2.¿Cuáles son las formas que hay para que dos lenguas.
LAS EXPRESSIONS REGULARES 4 DAY 9 - 2/2/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.
LA ACENTUACIÓN, LA ENTONACIÓN, LA RELACIÓN ENTRE ACENTO Y ENTONACIÓN 18 FEB 2011 – DÍA 17 Neurolingüística del español SPAN 4270 Harry Howard Tulane University.
El control de la computación 3 día17, 23-feb-15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.
Introducción general Día 2, 16 enero 2013 Bilingüismo hispánico SPAN 6060 Harry Howard Tulane University.
Scripts y funciones día18, 25-feb-15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.
LAS EXPRESSIONS REGULARES 3 DAY 8 - 1/30/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.
P2 Cuál es vuestra comparación? 1/30/13SPAN Harry Howard - Tulane University1.
Aspectos sociales del bilingüismo Día 4, 23 enero 2013 Bilingüismo hispánico SPAN 6060 Harry Howard Tulane University.
DISEÑO DE PÁGINAS WEB HTML Y CSS Tema 3: Etiquetas avanzadas Jose Miguel Vidagany Igual.
El español del Altiplano 25 mar 2015 – Día 30 Dialectología iberoamericana SPAN 4270 Harry Howard Tulane University.
Fecha: 15 de julio de 2013 Tema: Buscar información.
LAS LISTAS 2 Y LAS CORPORAS DAY /6/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.
UNICODE DAY /4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.
P11 Escribe un ensayo breve sobre uno de los temas siguientes, según lo que hemos aprendido en clase: 1.La educación bilingüe no funciona. 2.La educación.
El español de Andalucía y de Canarias 15 abr 2015 – Día 36 Dialectología iberoamericana SPAN 4270 Harry Howard Tulane University.
ETIQUETAS. Importante Que es una Etiqueta: Son elementos que tienen dos propiedades básicas: atributos y contenidose crea de esta forma, Se cierra de.
1 Capítulo 27: Páginas y Navegación de la World Wide Web ICD-327: Redes de Computadores Agustín J. González.
El español de México 2 mar 2015 – Día 20 Dialectología iberoamericana SPAN 4270 Harry Howard Tulane University.
Servicio –o lugar- de alojamiento de documentos. Herramienta “colaborativa” de la Web2.0 (como slideshare, youtube, issuu, etc.) que permite de manera.
Servicio –o lugar- de alojamiento de documentos. Herramienta “colaborativa” de la Web2.0 (como slideshare, youtube, issuu, etc.) que permite de manera.
¿Qué es la dialectología? 14 ENERO DÍA 2 Dialectología iberoamericana SPAN 4270 Harry Howard Tulane University.
Textos en Course Reserve 1. Entra en tu cuenta de myconcordiamyconcordia 2. En la columna de la izquierda, ve a Concordia Libraries.
El bilingüismo en Hispanoamérica 2 Día 10, 6 feb 2013 Bilingüismo hispánico SPAN 6060 Harry Howard Tulane University.
El bilingüismo en España 2 Día 7, 30 enero 2013
Cándida Gallardo Tutorial de Wikispaces Comenzar a escribir 1. Entra en la Wiki del curso:
ECOM-6030 PASOS PARA LA INSTALACIÓN DE EASYPHP Prof. Nelliud D. Torres © - Derechos Reservados.
Imagen de Fondo La etiqueta... ; Permite introducir una imagen como fondo del documento HTML. A continuación se muestra un ejemplo:
Fecha: 16/11/ 2015 Tema: Guardar y abrir mi texto texto Objetivo: Reconocer y aplicar la forma de guardar documentos para ser luego modificados.
Comparación de los adjetivos y los adverbios Día enero 2016 Gramática española SPAN 4351 Harry Howard Tulane University.
La transcripción fonética 2 26 oct 2015 – día 25
Adverbios Expresiones de tiempo Día abr 2016 Gramática española SPAN 4351 Harry Howard Tulane University.
Las oraciones existenciales Día abr 2016 Gramática española SPAN 4351 Harry Howard Tulane University.
Todo archivo se guarda en el disco duro con extensión .py
El español de la Colombia andina 2 16 mar 2017 – Día 25
El español andino de los otros países andinos 24 mar 2017 – Día 28
Aspectos sociales del bilingüismo 2 Día 5, 29 enero 2018
El presente indicativo Día feb 2018
PRUEBA 1 EXAMEN WEBCAPE 24 ENERO 2011 – DÍA 6
El español de Colombia 2 13 mar 2015 – Día 25
Formas continuas Día feb 2018
El bilingüismo en España 3 Día 8, 5 feb 2018
Imperativo, infinitivo, participio, gerundio 3 Día 24, 16 mar 2018
Transcripción de la presentación:

Texto de las páginas web día19, 27-feb-15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University

Organización del curso 25-feb-2015CultCompES, Prof. Howard, Tulane University 2   Computación cultural 2. Python 3. Cadenas 4. Unicode 5. Exreg 6. Archivos 7. Listas 8. Control 9. Texto de la web

Repaso 25-feb CultCompES, Prof. Howard, Tulane University

Un script para abrir la Gitanilla  Con Spyder, baja el menú File y abre una nuevo documento.  Entra lo siguiente: 1. from nltk.corpus import PlaintextCorpusReader 2. texlector = PlaintextCorpusReader('', 'Gitanilla.txt', encoding='utf8') 3. texto = texlector.words() 4. Guárdalo como "procesaTexto.py". 25-feb-2015CultCompES, Prof. Howard, Tulane University 4

25-feb-2015CultCompES, Prof. Howard, Tulane University 5 Un ejemplo  Con Spyder, baja el menú File, abre una nuevo documento y entra lo siguiente: 1. from __future__ import division 2. def diversidad_lexica(texto): 3. cuenta_palabras = len(texto) 4. tamano_vocabulario = len(set(texto)) 5. diversidad_lexica = cuenta_palabras / tamano_vocabulario 6. return diversidad_lexica  Guárdalo como "funciones.py".

Invócalo  Ejecuta (run) "procesaTexto.py" si no lo has hecho. 1. >>> from funciones import diversidad_lexica 2. >>> diversidad_lexica(texto) feb-2015CultCompES, Prof. Howard, Tulane University 6

§9 texto de la web 25-feb CultCompES, Prof. Howard, Tulane University

Un ejemplo ✕ ✓  Right click "View page source"  Busca el texto, que está entre las etiquetas …  (En Terminal: pip install BeautifulSoup4) 25-feb-2015CultCompES, Prof. Howard, Tulane University 8

capturarWeb.py # -*- coding: utf-8 -*- import requests from bs4 import BeautifulSoup url = ' html = requests.get(url).text sopa = BeautifulSoup(html) # encontrar el primero print sopa.find("div", {"class":"entry-body"}).text.encode('utf8') # encontrar todos texto = sopa.find_all("div", {"class":"entry-body"}) texto1 = [entrada.text.encode('utf8') for entrada in texto] 25-feb-2015CultCompES, Prof. Howard, Tulane University 9

Como extraer el texto de páginas web y proveedores de blogs El próximo día 25-feb-2015CultCompES, Prof. Howard, Tulane University 10