Python会与CRLF混淆吗?

你好
我坚持理解为什么Python不能从
使用REGEXES的HTML文件,尽管我可以发现
Ultraedit。
我想知道Python在阅读文本文件时是否重写CRLF
打开/阅读?
这是代码:
==========
f =打开(" content.html"," r")
content = f.read()
f.close()
#坏的
朋友= re.compile(' \ r \ n

\ r \ n',re.ignorecase
| Re.Multilinine | re.dotall)
#好的
friends = re.compile(' ',re.ignorecase | re.multililine
| re.dotall)
m = friends.search(content)
如果m:
打印"找到"
别的:
打印"找不到的列表"
==========
谢谢您的任何提示。

# 回答1


在2008年11月12日星期三12:04:07 +0100,Gilles Ganault
写道:
对于那些看到同一件事的人,答案是肯定的:在Windows上,
上面的代码将CRLF变成LF。我尝试了" rb"而不是" r",没有
区别。
# 回答2


11月12日,10:04*PM,Gilles Ganault 不要想知道;进行一些非常基本的调试并找出答案
你自己。
考虑插入
打印reter(内容)
这里。
# 回答3


吉尔斯·加诺(Gilles Ganault)写道:
对于那些看到同一件事的人,答案是肯定的:在Windows上,
上面的代码将CRLF变成LF。我尝试了" rb"而不是" r",没有
区别。
抱歉,这不是发生的事情。您的问题不是阅读
文件,它是您使用的正则表达式中。
使用" rb"标志打开,使文件内容完好无损,并且不介绍新线
以任何方式。 read()将返回文件中的确切字节。
- 帝国
# 回答4


吉尔斯·加诺(Gilles Ganault)写道:
如果您继续遇到麻烦,并且确定它与Newlines有关,请
也许它有助于使用您的表达中的'whitespace'符号,而不是\ r \ n:
re.compile(' \\ s*

\\ s*',....)
除此之外,很难说出不知道的预期工作
您正在搜索的" content.html"文件的确切内容....
- 帝国

标签: python

添加新评论