python小记——python对中文的处理

2012-01-13 | pyinx | python

用python处理字符串很容易，但是在处理中文的时候需要注意一些问题。
比如：

>>> a=’我是python学习者’
>>> print a[0] #只能输出“我”字的前半部分
^J>>> print a[0:3] #输出整个的我字
我

这样很不方便，并且当一段文本中同时有中英文的时候很难处理。
最好的办法就是转换为unicode。

像这样：

>>> c=unicode(a,’utf-8’)
>>> print c[0]
我

这个时候c的下标对应的就是每一字，不再是字节，并且通过 len(c) 就可以获得字数！
还可以很方便的转换为其他编码.