La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.

Presentaciones similares


Presentación del tema: "UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University."— Transcripción de la presentación:

1 UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University

2 Organización del curso 4-feb-2015CultCompES, Prof. Howard, Tulane University 2  http://www.tulane.edu/~howard/Span4350/ http://www.tulane.edu/~howard/Span4350/  http://www.tulane.edu/~howard/CompCultES/ http://www.tulane.edu/~howard/CompCultES/

3 La prueba es el resumen. Repaso 4-feb-2015 3 CultCompES, Prof. Howard, Tulane University

4 §6. Las expressions regulares 4-feb-2015 4 CultCompES, Prof. Howard, Tulane University

5 Un ejemplo 1. >>> C = 'cañón' 2. >>> len(C) 3. 7 4. >>> C 5. 'ca\xf1\xf3n' 6. 'ca\xc3\xb1\xc3\xb3n' 7. >>> import sys 8. >>> sys.getdefaultencoding() 9. 'ascii' 4-feb-2015CultCompES, Prof. Howard, Tulane University 5

6 ¿Qué es ASCII ?  http://en.wikipedia.org/wiki/ASCII http://en.wikipedia.org/wiki/ASCII  The American Standard Code for Information Interchange (ASCII, pronunciation: / ˈ æski/ ass-kee;) is a character-encoding scheme originally based on the English alphabet. ASCII codes represent text in computers, communications equipment, and other devices that use text.  Most modern character-encoding schemes are based on ASCII, though they support many additional characters. 4-feb-2015CultCompES, Prof. Howard, Tulane University 6

7 Un cuadro de ASCII 4-feb-2015CultCompES, Prof. Howard, Tulane University 7

8 Arte de ASCII 4-feb-2015 CultCompES, Prof. Howard, Tulane University 8

9 4-feb-2015CultCompES, Prof. Howard, Tulane University 9 Presentación  Para el inglés, el ASCII es suficiente.  Para toda lengua que tenga una letra 'rara', hay que utilizar Unicode.  Unicode tiene un millón de caracteres.  Un fichero de texto tiene una codificación determinada, así que necesitamos algún mecanismo para traducirla a Unicode.  La traducción a Unicode se llama decodificación.  Por el contrario, para escribir Unicode a un fichero o una terminal, primero tenemos que traducirlo a una codificación adecuada  Esta traducción de Unicode se llama codificación.

10 4-feb-2015CultCompES, Prof. Howard, Tulane University 10 Decodificación y codificación de Unicode Fig. 3.3

11 La decodificación y la codificación >>> C.decode('utf8') u'ca\xf1\xf3n' >>> len(u'ca\xf1\xf3n') 5 >>> print u'ca\xf1\xf3n' cañón >>> u'ca\xf1\xf3n'.encode('utf8') 'ca\xc3\xb1\xc3\xb3n' >>> len('ca\xc3\xb1\xc3\xb3n') 7 >>> print 'ca\xc3\xb1\xc3\xb3n' cañón 4-feb-2015CultCompES, Prof. Howard, Tulane University 11

12 Re y Unicode 1. from re import findall, UNICODE 2. >>> findall(r'[a-z]+', C) 3. ['ca', 'n'] 4. >>> findall(r'\w+', C) 5. ['ca', 'n'] 6. >>> findall(r'\w+', C.decode('utf8')) 7. [u'ca', u'n'] 8. >>> findall(r'\w+', C.decode('utf8'), UNICODE) 9. [u'ca\xf1\xf3n'] 10. >>> findall(r'[a-z]+', C.decode('utf8'), UNICODE) 11. [u'ca', u'n'] 4-feb-2015CultCompES, Prof. Howard, Tulane University 12

13 Las listas El próximo día 4-feb-2015CultCompES, Prof. Howard, Tulane University 13


Descargar ppt "UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University."

Presentaciones similares


Anuncios Google