Regex帮助

谁知道好的正则表达式解析html链接的html代码?我我目前使用似乎切断一些链接的最后一个字母,像http://somesite.co和返回链接或http://somesite.ph我使用的代码regex = r ' < a href =["| \]([^"| \] +)[" | \] >的page_text = urllib.urlopen ("http://somesite.com")page_text = page_text.read ()链接= re.findall(正则表达式、文本re.IGNORECASE)

# 回答1

你好,BeautifulSoup * *库处理HTML从BeautifulSoup进口BeautifulSoup从urllib进口urlopen汤= BeautifulSoup (urlopen (" http://python.org/ "))在汤("a"):打印("href")HTH,--杨爱瑾<小姐* * * * * * * * * @gmail.com > http://pythonwise.blogspot.com
# 回答2

在消息<马* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * @python.rg >啊,支持桌子上写道:你可以贴一些示例HTML序列,这个正则表达式不处理正确吗?
# 回答3

谢谢你的回答,我发现问题是发生在晚些时候脚本.regexp运作得很好.——原始邮件来自:劳伦斯D 'Oliveiro (mailto: ld * @geek-central.gen.new_zealand)发送:星期二,2008年9月23日6:51点:py * * * * * * * * * @python.org主题:Re:正则表达式的帮助在消息< mailman.1369.1222101506.3487.py * * * * * * * * * @python.rg >啊,支持桌子上写道:你可以贴一些示例HTML序列,这个正则表达式不处理正确吗?
# 回答4

在消息<马* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * @python.rg >啊,支持桌子上写道:答:秃鹰不会频繁的海报英里.问:有什么区别top-poster和秃鹰吗?

标签: python

添加新评论