需要金币:![]() ![]() |
资料包括:完整论文 | ![]() |
![]() |
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:13009 | ![]() | |
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) | ![]() |
摘要:新闻作为重要的信息来源,传统的人工分类会耗费大量时间,利用信息技术自动化识别新闻文本所属类别对提高新闻的易读性十分必要。论文介绍了多项式贝叶斯分类算法和增量学习思想,针对人民网的新闻文本数据,绘制了词云图对已分类的新闻文本进行可视化分析,得到财经、文旅和军事三个类别新闻的特征,构建了一种基于增量学习的贝叶斯新闻分类模型。通过定义对新闻数据预处理的函数,构建新闻分类模型,对预处理后的数据集进行增量训练、交叉检验、增量预测,得到每次增量学习后的预测结果及交叉检验得分,评价模型预测的准确性。结果表明,随着训练次数及数据量的增加,该模型的识别准确率会不断提高,可达93.43%。使用该模型对随机新闻文本进行预测,能够准确预测出其类别,证明该模型对于快速增长和变化的文本信息会产生良好的分类效果。
关键词:新闻分类;增量学习;贝叶斯算法;文本分类;
目 录
摘 要
Abstract
1 引言-1
2 概念定义和问题提出-2
2.1 文本分类-2
2.2 多项式贝叶斯分类算法-2
2.3 增量学习-3
2.4 问题定义及研究思路-4
3 数据获取与探索性分析-5
3.1 数据获取-5
3.2 数据预处理-7
3.3 新闻类型分布情况-8
3.4 新闻文本词云图特征分析-9
4 基于增量学习的贝叶斯新闻分类模型构建-13
4.1 定义全局变量和常量-13
4.2 交叉检验和预测数据集的预处理-14
4.3 增量学习及增量预测-14
5 新闻分类模型评价及预测-16
5.1 模型的评估-16
5.2 新闻分类预测-19
6 小结-20
参考文献-21
附录-22
致谢-32 |