Fluent Python(3)——文本和字节序列
1.处理文本文件
unicode三明治:bytes->str->bytes,中间的文本处理只涉及到str。
chardet:检测文本编码的模块。
不要依赖系统的默认编码,一定要设置编码。
1 | # 使用文本方式打开文本文件 |
2.规范化Unicode字符串
1 | from unicodedata import normalize |
3.正则表达式对str和bytes的匹配
1 | # 按str形式进行匹配,可以匹配到中文 |
unicode三明治:bytes->str->bytes,中间的文本处理只涉及到str。
chardet:检测文本编码的模块。
不要依赖系统的默认编码,一定要设置编码。
1 | # 使用文本方式打开文本文件 |
1 | from unicodedata import normalize |
1 | # 按str形式进行匹配,可以匹配到中文 |