HTML解析/抓取和python

我们希望选择更适合A的语言和工具集 项目需要从实际的几个网站获取数据 时间.... HTML解析/刮擦. 它需要完全仿真 浏览器,包括处理饼干,自动登录和关注 多个Web链接路径. 多线将是一个加号,但不是 要求. 建议一些解决方案: 佩尔: LWP ::简单 www ::机械化 html ::解析器 Curl&libcurl: 您可以建议使用Python的解决方案吗? 使用Perl vs. Python的利弊? 为什么要python? 指示其他各种工具及其与Python的比较 解决方案将不胜感激. 任何知识渊博的人 申请主题,请分享您的知识以帮助我们做 这个权利. 最诚挚的问候. 桑杰.

# 回答1

sanjay arora 写道: 因为它很漂亮. 认真地,Python代码非常可读, 设计. 当然,有些实现这种情况的功能 有些人疯了. 如果您是其中之一,那么Python不是 您的语言. <迈克 - - Mike Meyer http://www.mired.org/home/mwm/ 独立www/perforce/freebsd/unix顾问,电子邮件以获取更多信息.
# 回答2

获取HTML的标准库模块是Urllib2. 刮擦HTML的最佳模块是美丽的套件. 约翰·李(John Lee)在 URLLIB2和其他标准模块. 它将模仿浏览器的行为 - 包括历史记录,cookie, 基本身份验证,等等. 有几个用于自动形式填充的模块 - formencode为 一. 一切顺利, fuzzyman http://www.voidspace.org.uk/python/index.shtml
# 回答3

" fuzzyman" 写道: Urllib2处理cookie和身份验证. 我使用这些功能 日常的. 我不确定历史是否适用,除非您也在处理 JavaScript. 还有其他方法要求浏览器返回 历史? <迈克 - - Mike Meyer http://www.mired.org/home/mwm/ 独立www/perforce/freebsd/unix顾问,电子邮件以获取更多信息.

标签: python

添加新评论