基于人口普查数据的集成学习算法比较研究.doc

资料分类:精选论文 上传会员:螺蛳粉50g 更新时间:2024-01-24
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:8282
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

内容摘要:集成学习是被国际机器学习界的权威Dietterich列为机器学习四大研究方向之首,是一种被广泛关注的一种统计建模方法。集成算法会考虑多个评估器的建模结果,汇总之后得到一个综合的结果,以此来获取比单个模型更好的回归或分类表现。经典的集成学习算法分为两类:Bagging(袋装法)和Boosting(提升法)。本文以Bagging的特例随机森林,Boosting的特例XGBoost、GBDT进行人口普查数据的比较研究,运用Blending进行融合,最后交叉验证比较效果。

关键词:集成学习; 随机森林; 梯度提升树;Xgboost; Blending

 

目录

内容摘要

Abstract

1引言-1

2整体架构构建-2

2.1人口普查数据集-2

2.1.1属性描述-2

2.1.2数据观察-2

2.1.3特征预处理-4

2.2随机森林模型的构建-6

2.3梯度提升树模型的构建-7

2.4 XGBOOST模型的构建-7

2.5 Blending模型融合-8

3建模分析-8

3.1调参标准的选择-8

3.2随机森林参数调整过程-9

3.2梯度提升树参数调整过程-10

3.3 XGboost参数调整过程-11

3.4 Blend模型融合-12

4总结-12

参 考 文 献-14

致谢-15

附录-16

相关论文资料:
最新评论
上传会员 螺蛳粉50g 对本文的描述:根据数据提供者的描述,这份数据取自20多年前的一次美国的人口普查,提供者将其从美国数据库中调取出来后又进行了一些修改后,则作为了数据工作者的一份小小的考验。该数据集的......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: