Texto de las páginas web día19, 27-feb-15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University
Organización del curso 25-feb-2015CultCompES, Prof. Howard, Tulane University 2 Computación cultural 2. Python 3. Cadenas 4. Unicode 5. Exreg 6. Archivos 7. Listas 8. Control 9. Texto de la web
Repaso 25-feb CultCompES, Prof. Howard, Tulane University
Un script para abrir la Gitanilla Con Spyder, baja el menú File y abre una nuevo documento. Entra lo siguiente: 1. from nltk.corpus import PlaintextCorpusReader 2. texlector = PlaintextCorpusReader('', 'Gitanilla.txt', encoding='utf8') 3. texto = texlector.words() 4. Guárdalo como "procesaTexto.py". 25-feb-2015CultCompES, Prof. Howard, Tulane University 4
25-feb-2015CultCompES, Prof. Howard, Tulane University 5 Un ejemplo Con Spyder, baja el menú File, abre una nuevo documento y entra lo siguiente: 1. from __future__ import division 2. def diversidad_lexica(texto): 3. cuenta_palabras = len(texto) 4. tamano_vocabulario = len(set(texto)) 5. diversidad_lexica = cuenta_palabras / tamano_vocabulario 6. return diversidad_lexica Guárdalo como "funciones.py".
Invócalo Ejecuta (run) "procesaTexto.py" si no lo has hecho. 1. >>> from funciones import diversidad_lexica 2. >>> diversidad_lexica(texto) feb-2015CultCompES, Prof. Howard, Tulane University 6
§9 texto de la web 25-feb CultCompES, Prof. Howard, Tulane University
Un ejemplo ✕ ✓ Right click "View page source" Busca el texto, que está entre las etiquetas … (En Terminal: pip install BeautifulSoup4) 25-feb-2015CultCompES, Prof. Howard, Tulane University 8
capturarWeb.py # -*- coding: utf-8 -*- import requests from bs4 import BeautifulSoup url = ' html = requests.get(url).text sopa = BeautifulSoup(html) # encontrar el primero print sopa.find("div", {"class":"entry-body"}).text.encode('utf8') # encontrar todos texto = sopa.find_all("div", {"class":"entry-body"}) texto1 = [entrada.text.encode('utf8') for entrada in texto] 25-feb-2015CultCompES, Prof. Howard, Tulane University 9
Como extraer el texto de páginas web y proveedores de blogs El próximo día 25-feb-2015CultCompES, Prof. Howard, Tulane University 10