|
Originally posted by 用程序诠释生命 at 2005-12-13 20:34:
刚刚看了一下,我把我发现的说说吧。
第一,爬内容速度不快,大概四五秒才一个页面。可能是网通的速度关系。
第二,分词有点奇怪,不像是左起分词,又不像是右起分词,能不能说说你分词的思路?我查了"学生 ...
实际上我用的是左起分词
如果搜索 "我的学生活动"
以我开始,找出"我的",如果词库有的话
然后,我的学 失败,则向前
到的, 匹配"的学"失败
到"学",匹配"学生","学生活动"成功
到"生",匹配"生活"
到"活",匹配"活动"
所以最后匹配了
我的
学生
学生活动
生活
活动
基本上包含了所有能够分出的词组,这些词组依据词库.更改词库增加条目导致分词结果不同.
我打算在上面增加关键词的权重,例如对于专业名词,搜索频繁的关键词,进行优先处理,这样把权重大的放到前面, 搜索一般对前面的关键词能够有较大关联度. |
|