五帝 的个人资料Wudi's Blog日志列表 工具 帮助
2006/5/4

模式识别 之 分类器

这两天在学习模式识别中的分类方法,由于知识有限,很多内容看不懂。

前两天做了一个简单的基于贝叶斯决策理论的分类器。在应用合并概率公式时发现一个问题,如果一个样本中有一个词在第一类中出现的概率为1,还有一个词在第一类中出现的概率为0(或者说在第二类中出现的概率为1),这时最终就会出现0除以0的问题,这是我不愿意看到的。还有,只要有一个词在某一类中的概率为1或0,最终概率就会等于1或0,这也是我不愿意看到的。为了解决这个问题,对于在某一类中出现的概率为1或0的词,我把这个概率改为0.999999或0.000001这样接近于1或0的数字。最终测试结果还是比较令人满意的,分得八九不离十。

今天下午看到了一篇论文,里面提到了 Winnow 这个线性分类算法。看了半天没怎么看懂,里面的向量 x = (x1, x2, ..., xn) 表示待分类的文本实例,然后这个 x 向量还要和权重向量 w = (w1, w2, ..., wn)  点乘。这样看来 x 向量里的每个坐标应该都是数字,但是分类时提取出来的都是词,进行到这块就不知道该怎么处理了。不过中科院早已经把这个方法应用到垃圾邮件识别上了,据说效果比贝叶斯的要好一些。

评论 (2)

请稍候...
很抱歉,您输入的评论太长。请缩短您的评论。
您没有输入任何内容,请重试。
很抱歉,我们当前无法添加您的评论。请稍后重试。
若要添加评论,需要您的家长授予您相应权限。请求权限
您的家长禁用了评论功能。
很抱歉,我们当前无法删除您的评论。请稍后重试。
您已超过了一天之内允许提供的评论数上限。请在 24 小时后重试。
因为我们的系统表明您可能在向其他用户提供垃圾评论,您的帐户已禁用了评论功能。如果您认为我们错误地禁用了您的帐户,请联系 Windows Live 支持部门
完成下面的安全检查,您提供评论的过程才能完成。
您在安全检查中键入的字符必须与图片或音频中的字符一致。

若要添加评论,请使用您的 Windows Live ID 登录(如果您使用过 Hotmail、Messenger 或 Xbox LIVE,您就拥有 Windows Live ID)。登录


还没有 Windows Live ID 吗?请注册

Mic发表:
又听了一次天书,呵呵...
5 月 22 日
呼噜噜发表:
厉害..
5 月 14 日

引用通告

此日志的引用通告 URL 是:
http://wudicgi.spaces.live.com/blog/cns!9DE41F78C25746EA!272.trak
引用此项的网络日志