UNICODE DAY /4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University
Organización del curso 4-feb-2015CultCompES, Prof. Howard, Tulane University 2
La prueba es el resumen. Repaso 4-feb CultCompES, Prof. Howard, Tulane University
§6. Las expressions regulares 4-feb CultCompES, Prof. Howard, Tulane University
Un ejemplo 1. >>> C = 'cañón' 2. >>> len(C) >>> C 5. 'ca\xf1\xf3n' 6. 'ca\xc3\xb1\xc3\xb3n' 7. >>> import sys 8. >>> sys.getdefaultencoding() 9. 'ascii' 4-feb-2015CultCompES, Prof. Howard, Tulane University 5
¿Qué es ASCII ? The American Standard Code for Information Interchange (ASCII, pronunciation: / ˈ æski/ ass-kee;) is a character-encoding scheme originally based on the English alphabet. ASCII codes represent text in computers, communications equipment, and other devices that use text. Most modern character-encoding schemes are based on ASCII, though they support many additional characters. 4-feb-2015CultCompES, Prof. Howard, Tulane University 6
Un cuadro de ASCII 4-feb-2015CultCompES, Prof. Howard, Tulane University 7
Arte de ASCII 4-feb-2015 CultCompES, Prof. Howard, Tulane University 8
4-feb-2015CultCompES, Prof. Howard, Tulane University 9 Presentación Para el inglés, el ASCII es suficiente. Para toda lengua que tenga una letra 'rara', hay que utilizar Unicode. Unicode tiene un millón de caracteres. Un fichero de texto tiene una codificación determinada, así que necesitamos algún mecanismo para traducirla a Unicode. La traducción a Unicode se llama decodificación. Por el contrario, para escribir Unicode a un fichero o una terminal, primero tenemos que traducirlo a una codificación adecuada Esta traducción de Unicode se llama codificación.
4-feb-2015CultCompES, Prof. Howard, Tulane University 10 Decodificación y codificación de Unicode Fig. 3.3
La decodificación y la codificación >>> C.decode('utf8') u'ca\xf1\xf3n' >>> len(u'ca\xf1\xf3n') 5 >>> print u'ca\xf1\xf3n' cañón >>> u'ca\xf1\xf3n'.encode('utf8') 'ca\xc3\xb1\xc3\xb3n' >>> len('ca\xc3\xb1\xc3\xb3n') 7 >>> print 'ca\xc3\xb1\xc3\xb3n' cañón 4-feb-2015CultCompES, Prof. Howard, Tulane University 11
Re y Unicode 1. from re import findall, UNICODE 2. >>> findall(r'[a-z]+', C) 3. ['ca', 'n'] 4. >>> findall(r'\w+', C) 5. ['ca', 'n'] 6. >>> findall(r'\w+', C.decode('utf8')) 7. [u'ca', u'n'] 8. >>> findall(r'\w+', C.decode('utf8'), UNICODE) 9. [u'ca\xf1\xf3n'] 10. >>> findall(r'[a-z]+', C.decode('utf8'), UNICODE) 11. [u'ca', u'n'] 4-feb-2015CultCompES, Prof. Howard, Tulane University 12
Las listas El próximo día 4-feb-2015CultCompES, Prof. Howard, Tulane University 13