需要金币:![]() ![]() |
资料包括:完整论文 | ![]() |
![]() |
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:13036 | ![]() | |
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) | ![]() |
摘要:近些年来,在我们国家经济和社会飞速发展的同时,不健康的生活习惯和其他不可避免的一些因素使得癌症的发病率逐年增高。据统计,在我国,每个人都有23.36%的可能性患癌。其中,乳腺癌是对我国女性生命健康造成严重威胁的恶性肿瘤疾病之一,它的发病率位于女性疾病的首位。面对这一严峻的形势,急切需要对乳腺癌发病风险的研究。因此,我们利用机器学习算法对乳腺癌进行分析与预测。 本毕业设计对UCI公开乳腺肿瘤数据集进行分析与预测。首先,对数据进行预处理,分析出与乳腺癌发病强相关性的因子,并且以可视化的方式展示结果。然后对逻辑回归、决策树和随机森林算法进行性能评估,训练模型,最后得出一种准确率较高的随机森林算法来实现乳腺癌的预测。 通过使用随机森林算法实现对乳腺癌的分析与预测,有效地避免了病人承受不必要的身心压力,降低了乳腺癌的发病率,提高医生诊断的正确率,对乳腺癌的预防和防复发有着重要的作用。
关键词:乳腺癌;随机森林;分析预测;机器学习
目录 摘要 Abstract 第1章 前言- 1 - 1.1 研究背景- 1 - 1.2 国内外研究现状- 1 - 1.3 研究目的及意义- 1 - 1.4 全文组织结构- 2 - 第2章 数据采集与处理- 3 - 2.1 数据来源- 3 - 2.2 数据预处理- 3 - 第3章 影响因子相关度分析- 5 - 3.1 问题描述- 5 - 3.2 Matplotlib可视化库介绍- 5 - 3.3 Seaborn可视化库介绍- 6 - 3.4 数据分析和可视化过程- 6 - 3.4.1 计算相关系数并绘制热图- 6 - 3.4.2 可视化结果- 10 - 第4章 建模关键技术- 11 - 4.1 模型介绍及比较- 11 - 4.1.1 Logistic Regression(逻辑回归)- 11 - 4.1.2 Decision Tree(决策树)- 12 - 4.1.3 Random Forest(随机森林)- 13 - 4.1.4 模型比较- 15 - 4.2 算法性能评估方法- 15 - 4.2.1 留出法- 16 - 4.2.2 交叉验证法- 16 - 4.2.3 自助法- 16 - 4.2.4 调节参数- 16 - 4.2.5 性能度量- 17 - 第5章 模型训练与预测- 20 - 5.1 5折交叉验证- 20 - 5.2 模型训练和预测- 20 - 5.3 预测结果分析- 23 - 第6章 总结与展望- 25 - 6.1 总结- 25 - 6.2 展望- 25 - 附 录- 26 - 参考文献- 31 - 致 谢- 32 - |