需要解析/组织大量文件,算法提示?

我有很多由MoviereViews组成的文件.
对于每个文件,我构建一个评论列表,然后为每个新文件构建
我合并了评论,以便最终有审阅者列表和
对于每个审阅者,他们的所有评论.
最快的方法是什么?
1.创建一个带有评论的文件,打开下一个文件和每个评论请参阅
如果审阅者存在,请添加评论else创建新审稿人.
2.创建所有带有评论的单独文件,然后将它们合并?

# 回答1


CNB在星期二,2008年9月2日09:48:32 -0700写道:
使用TimeIt模块查找.
答案将取决于您是否有三个评论或三个评论
百万,每个评论是二十个单词还是二万个单词,
以及您是否必须一次或一遍又一遍地进行合并.
- -
史蒂文
# 回答2


在9月2日,7:06*PM,Steven d'Aprano cybersource.com.auwrote:
使用TimeIt模块查找.
答案将取决于您是否有三个评论或三个评论
百万,每个评论是二十个单词还是二万个单词,
以及您是否必须一次或一遍又一遍地进行合并.
- -
史蒂文

我合并一次.每个评论都有3个字段,日期评级客户ID.在
总病情在10k到100k之间解析,最终450k评论.

# 回答3


超过17000个文件...
Netflixprize.
# 回答4


我认为您真的希望使用某种关系数据库为此.
在周二,2008年9月2日,下午2:02,CNB
# 回答5


cnb 顺序扫描所有文件,发射记录
(电影,评论者,评论)
然后使用外部排序实用程序对该输出文件进行排序/合并
在3列中的每一个.击败编写代码.
# 回答6


在9月2日,1:02*PM,CNB http://wiki.python.org/moin/netflixprizebof
具体:http://pyflix.python-hosting.com/

标签: python

添加新评论