比较unicode和非unicode字符串

我怎么能测试这两个字符串相同:
'sã©d'(retes's \\ xc3 \\ xa9d')
u'sã©d'(reter是u's \\ xe9d')

# 回答1


在8月31日,11:04 pm,Asterix 不,reth是's \ xc3 \ xa9d'.
不,reter是u's \ xe9d'.
回答您的问题:( _@_)
在8月31日,11:04 pm,Asterix [注意:您的reter是错误的;将\\更改为\]
您需要解码非unicode字符串,并将结果与
Unicode字符串.您需要知道用于非 -
Unicode字符串.在您给出的示例中,可能是99.99%
是UTF-8.
你\ xe9d'
's \ xc3 \ xa9d'
hth,
约翰
# 回答2


Asterix写道:
确定以前字符串使用的编码(看起来UTF-8),
并在进行比较之前将其转换为Unicode.
's \ xc3 \ xa9d'
你\ xe9d'
你\ xe9d'
真的
# 回答3


par toutatis!
si tu avaisposã©la Questionâordralphabã©tix,ou sur un sur un des ng ng des ngfranã§ais
consacrã©s -python,au lieu de Refaire" la grandetraversã©e",laréponse
AURAIT peut-âtre-tétre-téplusplus rapide.
@-Salutations
- -
米歇尔·克拉沃
# 回答4


Asterix写道:
您可能还想查看unicodedata.normorize().例如,可以
被多种方式表示:
u'\ xe9'
u'e \ u0301'
错误的
第一种形式是"组成",只是u+00e9(拉丁小字母e
急性).第二种形式是"分解",由U+0065组成
(拉丁小字母E)和U+0301(结合急性重音).
即使他们代表人类的同一件事,他们也没有比较
等同.但是,如果您将它们标准化为相同的形式,则它们会.
有关更多信息,请查看Unicodedata模块的文档:

-

标签: python

添加新评论