UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.

UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University

Organización del curso 4-feb-2015CultCompES, Prof. Howard, Tulane University 2  http://www.tulane.edu/~howard/Span4350/ http://www.tulane.edu/~howard/Span4350/  http://www.tulane.edu/~howard/CompCultES/ http://www.tulane.edu/~howard/CompCultES/

La prueba es el resumen. Repaso 4-feb-2015 3 CultCompES, Prof. Howard, Tulane University

§6. Las expressions regulares 4-feb-2015 4 CultCompES, Prof. Howard, Tulane University

Un ejemplo 1. >>> C = 'cañón' 2. >>> len(C) 3. 7 4. >>> C 5. 'ca\xf1\xf3n' 6. 'ca\xc3\xb1\xc3\xb3n' 7. >>> import sys 8. >>> sys.getdefaultencoding() 9. 'ascii' 4-feb-2015CultCompES, Prof. Howard, Tulane University 5

¿Qué es ASCII ?  http://en.wikipedia.org/wiki/ASCII http://en.wikipedia.org/wiki/ASCII  The American Standard Code for Information Interchange (ASCII, pronunciation: / ˈ æski/ ass-kee;) is a character-encoding scheme originally based on the English alphabet. ASCII codes represent text in computers, communications equipment, and other devices that use text.  Most modern character-encoding schemes are based on ASCII, though they support many additional characters. 4-feb-2015CultCompES, Prof. Howard, Tulane University 6

Un cuadro de ASCII 4-feb-2015CultCompES, Prof. Howard, Tulane University 7

Arte de ASCII 4-feb-2015 CultCompES, Prof. Howard, Tulane University 8

4-feb-2015CultCompES, Prof. Howard, Tulane University 9 Presentación  Para el inglés, el ASCII es suficiente.  Para toda lengua que tenga una letra 'rara', hay que utilizar Unicode.  Unicode tiene un millón de caracteres.  Un fichero de texto tiene una codificación determinada, así que necesitamos algún mecanismo para traducirla a Unicode.  La traducción a Unicode se llama decodificación.  Por el contrario, para escribir Unicode a un fichero o una terminal, primero tenemos que traducirlo a una codificación adecuada  Esta traducción de Unicode se llama codificación.

4-feb-2015CultCompES, Prof. Howard, Tulane University 10 Decodificación y codificación de Unicode Fig. 3.3

La decodificación y la codificación >>> C.decode('utf8') u'ca\xf1\xf3n' >>> len(u'ca\xf1\xf3n') 5 >>> print u'ca\xf1\xf3n' cañón >>> u'ca\xf1\xf3n'.encode('utf8') 'ca\xc3\xb1\xc3\xb3n' >>> len('ca\xc3\xb1\xc3\xb3n') 7 >>> print 'ca\xc3\xb1\xc3\xb3n' cañón 4-feb-2015CultCompES, Prof. Howard, Tulane University 11

Re y Unicode 1. from re import findall, UNICODE 2. >>> findall(r'[a-z]+', C) 3. ['ca', 'n'] 4. >>> findall(r'\w+', C) 5. ['ca', 'n'] 6. >>> findall(r'\w+', C.decode('utf8')) 7. [u'ca', u'n'] 8. >>> findall(r'\w+', C.decode('utf8'), UNICODE) 9. [u'ca\xf1\xf3n'] 10. >>> findall(r'[a-z]+', C.decode('utf8'), UNICODE) 11. [u'ca', u'n'] 4-feb-2015CultCompES, Prof. Howard, Tulane University 12

Las listas El próximo día 4-feb-2015CultCompES, Prof. Howard, Tulane University 13

UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.

Presentaciones similares

Presentación del tema: "UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University.

Presentaciones similares

Presentación del tema: "UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback