|
Originally posted by 用程序诠释生命 at 2005-12-13 20:34:
刚刚看了一下,我把我发现的说说吧。
第一,爬内容速度不快,大概四五秒才一个页面。可能是网通的速度关系。
第二,分词有点奇怪,不像是左起分词,又不像是右起分词,能不能说说你分词的思路?我查了\"学生 ...
实际上我用的是左起分词
如果搜索 \"我的学生活动\"
以我开始,找出\"我的\",如果词库有的话
然后,我的学 失败,则向前
到的, 匹配\"的学\"失败
到\"学\",匹配\"学生\",\"学生活动\"成功
到\"生\",匹配\"生活\"
到\"活\",匹配\"活动\"
所以最后匹配了
我的
学生
学生活动
生活
活动
基本上包含了所有能够分出的词组,这些词组依据词库.更改词库增加条目导致分词结果不同.
我打算在上面增加关键词的权重,例如对于专业名词,搜索频繁的关键词,进行优先处理,这样把权重大的放到前面, 搜索一般对前面的关键词能够有较大关联度. |
|