居民收入二分类问题的集成学习方法研究.docx

资料分类:精选论文 上传会员:螺蛳粉50g 更新时间:2024-01-20
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:8629
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:在人工智能领域中,机器学习是十分关键的一个分支,经常用于实现各类人工智能问题。现阶段,信用卡异常检测、生物特征识别、医疗诊断、数据挖掘等方面已经开始大量应用机器学习,图像识别、回归分析、聚类和分类是常见的机器学习算法,其中,对于分类问题,二分类是其中非常重要的课题之一。单个分类器的表现往往不尽如人意,因此研究人员提出了集成学习的理念,基于特定的规则组合若干弱学习器,从而得到一个强学习器用于预测,它的预测性能通常优于单一分类器。本文针对居民收入二分类问题,利用已有的训练集数据构造决策树分类器,来预测测试集数据的类别。在该项分类任务中,分为两个类别,一类是“不超过50k”,另一类是“超过50k”。分别利用随机森林算法和AdaBoost算法两种集成学习算法处理Adult数据集,比较两种集成学习方法预测居民收入二分类问题的性能方面存在的差异。根据实验结果发现,AdaBoost算法和随机森林算法都具有较高的分类准确率和AUC值,且AdaBoost算法倾向于得到更高的AUC值和准确率。由此得到,AdaBoost集成学习方法在居民收入二分类问题上的预测性能优于随机森林集成学习方法。

 

关键词:二分类;集成学习;AdaBoost;随机森林

 

目录

摘要

Abstract

1 绪 论-1

1.1 背景与意义-1

1.2 国内外研究现状-1

1.3 本文的主要研究内容-1

2 二分类概述-2

2.1 分类的概念-2

2.2 分类的步骤-2

2.3 二分类-2

3 集成学习概述-2

3.1 集成学习的概念-2

3.2 集成学习的分类-3

3.3 常用的基学习器——决策树-3

3.3.1 决策树分类原理-4

3.3.2 决策树学习过程-4

3.3.3 基于信息论的决策树算法-4

3.4 集成学习算法-5

3.4.1 AdaBoost集成学习-5

3.4.2 随机森林集成学习-7

4 集成学习算法的评价指标-7

5 实验分析-9

5.1 实验数据-9

5.2 实验结果-10

5.3 实验结论-11

6 总结与展望-11

参考文献-12

致谢-13

相关论文资料:
最新评论
上传会员 螺蛳粉50g 对本文的描述:集成有两种方式,第一种方式是异质集成,这种集成内部存在不同的学习算法和个体学习器,比如同时包含神经网络和决策树的异质集成;第二种方式是同质集成,这种集成全都运用相......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: