基于增量式的Bayes新闻分类识别方法研究.doc

资料分类:精选论文 上传会员:HOV3366 更新时间:2025-04-28
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:13009
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)
摘要:新闻作为重要的信息来源,传统的人工分类会耗费大量时间,利用信息技术自动化识别新闻文本所属类别对提高新闻的易读性十分必要。论文介绍了多项式贝叶斯分类算法和增量学习思想,针对人民网的新闻文本数据,绘制了词云图对已分类的新闻文本进行可视化分析,得到财经、文旅和军事三个类别新闻的特征,构建了一种基于增量学习的贝叶斯新闻分类模型。通过定义对新闻数据预处理的函数,构建新闻分类模型,对预处理后的数据集进行增量训练、交叉检验、增量预测,得到每次增量学习后的预测结果及交叉检验得分,评价模型预测的准确性。结果表明,随着训练次数及数据量的增加,该模型的识别准确率会不断提高,可达93.43%。使用该模型对随机新闻文本进行预测,能够准确预测出其类别,证明该模型对于快速增长和变化的文本信息会产生良好的分类效果。
 
关键词:新闻分类;增量学习;贝叶斯算法;文本分类;
 
目 录
摘 要
Abstract
1 引言-1
2 概念定义和问题提出-2
2.1 文本分类-2
2.2 多项式贝叶斯分类算法-2
2.3 增量学习-3
2.4 问题定义及研究思路-4
3 数据获取与探索性分析-5
3.1 数据获取-5
3.2 数据预处理-7
3.3 新闻类型分布情况-8
3.4 新闻文本词云图特征分析-9
4 基于增量学习的贝叶斯新闻分类模型构建-13
4.1 定义全局变量和常量-13
4.2 交叉检验和预测数据集的预处理-14
4.3 增量学习及增量预测-14
5 新闻分类模型评价及预测-16
5.1 模型的评估-16
5.2 新闻分类预测-19
6 小结-20
参考文献-21
附录-22
致谢-32
相关论文资料:
最新评论
上传会员 HOV3366 对本文的描述:文本分类的主要内容可分为文本预处理、文本表示、特征选择、分类器训练、性能评测与结果反馈等过程,其中特征选择和分类器训练最为关键。目前常用的特征选择方法包括文档频次......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: