Texto de las páginas web día19, 27-feb-15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.

Texto de las páginas web día19, 27-feb-15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University

Organización del curso 25-feb-2015CultCompES, Prof. Howard, Tulane University 2  http://www.tulane.edu/~howard/Span4350/ http://www.tulane.edu/~howard/Span4350/  http://www.tulane.edu/~howard/CompCultES/ http://www.tulane.edu/~howard/CompCultES/ 1. Computación cultural 2. Python 3. Cadenas 4. Unicode 5. Exreg 6. Archivos 7. Listas 8. Control 9. Texto de la web

Repaso 25-feb-2015 3 CultCompES, Prof. Howard, Tulane University

Un script para abrir la Gitanilla  Con Spyder, baja el menú File y abre una nuevo documento.  Entra lo siguiente: 1. from nltk.corpus import PlaintextCorpusReader 2. texlector = PlaintextCorpusReader('', 'Gitanilla.txt', encoding='utf8') 3. texto = texlector.words() 4. Guárdalo como "procesaTexto.py". 25-feb-2015CultCompES, Prof. Howard, Tulane University 4

25-feb-2015CultCompES, Prof. Howard, Tulane University 5 Un ejemplo  Con Spyder, baja el menú File, abre una nuevo documento y entra lo siguiente: 1. from __future__ import division 2. def diversidad_lexica(texto): 3. cuenta_palabras = len(texto) 4. tamano_vocabulario = len(set(texto)) 5. diversidad_lexica = cuenta_palabras / tamano_vocabulario 6. return diversidad_lexica  Guárdalo como "funciones.py".

Invócalo  Ejecuta (run) "procesaTexto.py" si no lo has hecho. 1. >>> from funciones import diversidad_lexica 2. >>> diversidad_lexica(texto) 3. 4.868782722513089 25-feb-2015CultCompES, Prof. Howard, Tulane University 6

§9 texto de la web 25-feb-2015 7 CultCompES, Prof. Howard, Tulane University

Un ejemplo ✕ http://www.enriquedans.com/ http://www.enriquedans.com/ ✓ http://www.jesusencinar.com/ http://www.jesusencinar.com/  Right click "View page source"  Busca el texto, que está entre las etiquetas …  (En Terminal: pip install BeautifulSoup4) 25-feb-2015CultCompES, Prof. Howard, Tulane University 8

capturarWeb.py # -*- coding: utf-8 -*- import requests from bs4 import BeautifulSoup url = 'http://www.jesusencinar.com' html = requests.get(url).text sopa = BeautifulSoup(html) # encontrar el primero print sopa.find("div", {"class":"entry-body"}).text.encode('utf8') # encontrar todos texto = sopa.find_all("div", {"class":"entry-body"}) texto1 = [entrada.text.encode('utf8') for entrada in texto] 25-feb-2015CultCompES, Prof. Howard, Tulane University 9

Como extraer el texto de páginas web y proveedores de blogs El próximo día 25-feb-2015CultCompES, Prof. Howard, Tulane University 10

Texto de las páginas web día19, 27-feb-15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.

Presentaciones similares

Presentación del tema: "Texto de las páginas web día19, 27-feb-15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Texto de las páginas web día19, 27-feb-15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.

Presentaciones similares

Presentación del tema: "Texto de las páginas web día19, 27-feb-15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback