Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porErnesto Iglesias Méndez Modificado hace 10 años
1
UNICODE DAY 10 - 2/4/15 SPAN 4350 Cultura computacional en español Harry Howard Tulane University
2
Organización del curso 4-feb-2015CultCompES, Prof. Howard, Tulane University 2 http://www.tulane.edu/~howard/Span4350/ http://www.tulane.edu/~howard/Span4350/ http://www.tulane.edu/~howard/CompCultES/ http://www.tulane.edu/~howard/CompCultES/
3
La prueba es el resumen. Repaso 4-feb-2015 3 CultCompES, Prof. Howard, Tulane University
4
§6. Las expressions regulares 4-feb-2015 4 CultCompES, Prof. Howard, Tulane University
5
Un ejemplo 1. >>> C = 'cañón' 2. >>> len(C) 3. 7 4. >>> C 5. 'ca\xf1\xf3n' 6. 'ca\xc3\xb1\xc3\xb3n' 7. >>> import sys 8. >>> sys.getdefaultencoding() 9. 'ascii' 4-feb-2015CultCompES, Prof. Howard, Tulane University 5
6
¿Qué es ASCII ? http://en.wikipedia.org/wiki/ASCII http://en.wikipedia.org/wiki/ASCII The American Standard Code for Information Interchange (ASCII, pronunciation: / ˈ æski/ ass-kee;) is a character-encoding scheme originally based on the English alphabet. ASCII codes represent text in computers, communications equipment, and other devices that use text. Most modern character-encoding schemes are based on ASCII, though they support many additional characters. 4-feb-2015CultCompES, Prof. Howard, Tulane University 6
7
Un cuadro de ASCII 4-feb-2015CultCompES, Prof. Howard, Tulane University 7
8
Arte de ASCII 4-feb-2015 CultCompES, Prof. Howard, Tulane University 8
9
4-feb-2015CultCompES, Prof. Howard, Tulane University 9 Presentación Para el inglés, el ASCII es suficiente. Para toda lengua que tenga una letra 'rara', hay que utilizar Unicode. Unicode tiene un millón de caracteres. Un fichero de texto tiene una codificación determinada, así que necesitamos algún mecanismo para traducirla a Unicode. La traducción a Unicode se llama decodificación. Por el contrario, para escribir Unicode a un fichero o una terminal, primero tenemos que traducirlo a una codificación adecuada Esta traducción de Unicode se llama codificación.
10
4-feb-2015CultCompES, Prof. Howard, Tulane University 10 Decodificación y codificación de Unicode Fig. 3.3
11
La decodificación y la codificación >>> C.decode('utf8') u'ca\xf1\xf3n' >>> len(u'ca\xf1\xf3n') 5 >>> print u'ca\xf1\xf3n' cañón >>> u'ca\xf1\xf3n'.encode('utf8') 'ca\xc3\xb1\xc3\xb3n' >>> len('ca\xc3\xb1\xc3\xb3n') 7 >>> print 'ca\xc3\xb1\xc3\xb3n' cañón 4-feb-2015CultCompES, Prof. Howard, Tulane University 11
12
Re y Unicode 1. from re import findall, UNICODE 2. >>> findall(r'[a-z]+', C) 3. ['ca', 'n'] 4. >>> findall(r'\w+', C) 5. ['ca', 'n'] 6. >>> findall(r'\w+', C.decode('utf8')) 7. [u'ca', u'n'] 8. >>> findall(r'\w+', C.decode('utf8'), UNICODE) 9. [u'ca\xf1\xf3n'] 10. >>> findall(r'[a-z]+', C.decode('utf8'), UNICODE) 11. [u'ca', u'n'] 4-feb-2015CultCompES, Prof. Howard, Tulane University 12
13
Las listas El próximo día 4-feb-2015CultCompES, Prof. Howard, Tulane University 13
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.