Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porMireia Cepero Modificado hace 9 años
1
Texto de las páginas web día19, 27-feb-15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University
2
Organización del curso 25-feb-2015CultCompES, Prof. Howard, Tulane University 2 http://www.tulane.edu/~howard/Span4350/ http://www.tulane.edu/~howard/Span4350/ http://www.tulane.edu/~howard/CompCultES/ http://www.tulane.edu/~howard/CompCultES/ 1. Computación cultural 2. Python 3. Cadenas 4. Unicode 5. Exreg 6. Archivos 7. Listas 8. Control 9. Texto de la web
3
Repaso 25-feb-2015 3 CultCompES, Prof. Howard, Tulane University
4
Un script para abrir la Gitanilla Con Spyder, baja el menú File y abre una nuevo documento. Entra lo siguiente: 1. from nltk.corpus import PlaintextCorpusReader 2. texlector = PlaintextCorpusReader('', 'Gitanilla.txt', encoding='utf8') 3. texto = texlector.words() 4. Guárdalo como "procesaTexto.py". 25-feb-2015CultCompES, Prof. Howard, Tulane University 4
5
25-feb-2015CultCompES, Prof. Howard, Tulane University 5 Un ejemplo Con Spyder, baja el menú File, abre una nuevo documento y entra lo siguiente: 1. from __future__ import division 2. def diversidad_lexica(texto): 3. cuenta_palabras = len(texto) 4. tamano_vocabulario = len(set(texto)) 5. diversidad_lexica = cuenta_palabras / tamano_vocabulario 6. return diversidad_lexica Guárdalo como "funciones.py".
6
Invócalo Ejecuta (run) "procesaTexto.py" si no lo has hecho. 1. >>> from funciones import diversidad_lexica 2. >>> diversidad_lexica(texto) 3. 4.868782722513089 25-feb-2015CultCompES, Prof. Howard, Tulane University 6
7
§9 texto de la web 25-feb-2015 7 CultCompES, Prof. Howard, Tulane University
8
Un ejemplo ✕ http://www.enriquedans.com/ http://www.enriquedans.com/ ✓ http://www.jesusencinar.com/ http://www.jesusencinar.com/ Right click "View page source" Busca el texto, que está entre las etiquetas … (En Terminal: pip install BeautifulSoup4) 25-feb-2015CultCompES, Prof. Howard, Tulane University 8
9
capturarWeb.py # -*- coding: utf-8 -*- import requests from bs4 import BeautifulSoup url = 'http://www.jesusencinar.com' html = requests.get(url).text sopa = BeautifulSoup(html) # encontrar el primero print sopa.find("div", {"class":"entry-body"}).text.encode('utf8') # encontrar todos texto = sopa.find_all("div", {"class":"entry-body"}) texto1 = [entrada.text.encode('utf8') for entrada in texto] 25-feb-2015CultCompES, Prof. Howard, Tulane University 9
10
Como extraer el texto de páginas web y proveedores de blogs El próximo día 25-feb-2015CultCompES, Prof. Howard, Tulane University 10
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.