HTML解析/抓取和python

作者: admin

时间: 23/02/03 12:19:23

我们希望选择更适合A的语言和工具集项目需要从实际的几个网站获取数据时间.... HTML解析/刮擦. 它需要完全仿真浏览器,包括处理饼干,自动登录和关注多个Web链接路径. 多线将是一个加号,但不是要求. 建议一些解决方案: 佩尔: LWP ::简单 www ::机械化 html ::解析器 Curl＆libcurl: 您可以建议使用Python的解决方案吗? 使用Perl vs. Python的利弊? 为什么要python? 指示其他各种工具及其与Python的比较解决方案将不胜感激. 任何知识渊博的人申请主题,请分享您的知识以帮助我们做这个权利. 最诚挚的问候. 桑杰.

# 回答1

sanjay arora 写道: 因为它很漂亮. 认真地,Python代码非常可读, 设计. 当然,有些实现这种情况的功能有些人疯了. 如果您是其中之一,那么Python不是您的语言. <迈克 - - Mike Meyer http://www.mired.org/home/mwm/ 独立www/perforce/freebsd/unix顾问,电子邮件以获取更多信息.

# 回答2

获取HTML的标准库模块是Urllib2. 刮擦HTML的最佳模块是美丽的套件. 约翰·李(John Lee)在 URLLIB2和其他标准模块. 它将模仿浏览器的行为 - 包括历史记录,cookie, 基本身份验证,等等. 有几个用于自动形式填充的模块 - formencode为一. 一切顺利, fuzzyman http://www.voidspace.org.uk/python/index.shtml

# 回答3

" fuzzyman" 写道: Urllib2处理cookie和身份验证. 我使用这些功能日常的. 我不确定历史是否适用,除非您也在处理 JavaScript. 还有其他方法要求浏览器返回历史? <迈克 - - Mike Meyer http://www.mired.org/home/mwm/ 独立www/perforce/freebsd/unix顾问,电子邮件以获取更多信息.

HTML解析/抓取和python

添加新评论

最新文章

分类

最近回复

归档

其它