| 需要金币: |
资料包括:完整论文 | ![]() | |
| 转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:6974 | ||
| 折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) |
摘要:随着计算机、互联网和数字媒体等的普及,非结构化数据为主的信息急剧增加。据统计,当前非结构化数据的内容占据了数据海洋的 80%,并将在2020年之前以44倍的速度迅猛增长。招投标文本作为一类重要的非结构化文本文档,是掌握企业命脉的关键内容。 本文针对海量的招投标文本信息,将会提出一种不同的、简单有效的文本结构化处理方式。在web服务器上运行爬虫,实现网络爬虫scrapy框架,爬虫实现信息会不断更新,网页内容以txt的形式不断更新。通过 FudanNLP进行自然语言处理,也就是分词,然后使用hanNLP提取关键词,最后通过python的正则表达式处理呈现出结构化的文本内容,以json文件的形式存储。用户通过web服务器进行访问,得到结构化的文档。
关键词:网络爬虫;文本;结构化;Python;数据挖掘
目录 摘要 Abstract 1. 绪论-1 1.1 研究背景与意义-1 1.2 研究现状-1 1.3 存在的问题-1 1.4 设计目标与风险评估-2 1.5 论文组织结构-2 2 可行性分析-3 2.1 经济可行性分析-3 2.2 市场可行性分析-3 3 相关工具和方法理论-3 3.1 处理工具-3 3.1.1采集数据-3 3.1.2数据清洗-3 3.1.3数据提取-4 3.2 文本结构化-4 4招投标文本结构化的处理方法-4 4.1 引言-4 4.2 技术流程-4 4.3 数据预处理-5 4.4功能实现成果及方法-6 4.4.1精准查询功能-6 4.4.2 模糊查询-8 4.4.3 限制查询-9 4.5 核心算法-11 5.总结与展望-13 结论-14 参 考 文 献-15 致 谢-16 |

