招投标文本结构化处理方法研究.doc[原创毕业论文]

需要金币：1000 个金币	资料包括：完整论文
转换比率：金额 X 10=金币数量，例100元=1000金币	论文字数：6974
折扣与优惠：团购最低可5折优惠 - 了解详情	论文格式：Word格式(*.doc)

上一篇：校友交流互动网站的设计与实现.doc

下一篇：App数据监测系统的设计与实现.docx

摘要：随着计算机、互联网和数字媒体等的普及，非结构化数据为主的信息急剧增加。据统计，当前非结构化数据的内容占据了数据海洋的 80%，并将在2020年之前以44倍的速度迅猛增长。招投标文本作为一类重要的非结构化文本文档，是掌握企业命脉的关键内容。

本文针对海量的招投标文本信息，将会提出一种不同的、简单有效的文本结构化处理方式。在web服务器上运行爬虫，实现网络爬虫scrapy框架，爬虫实现信息会不断更新，网页内容以txt的形式不断更新。通过 FudanNLP进行自然语言处理，也就是分词，然后使用hanNLP提取关键词，最后通过python的正则表达式处理呈现出结构化的文本内容，以json文件的形式存储。用户通过web服务器进行访问，得到结构化的文档。

关键词：网络爬虫；文本；结构化；Python；数据挖掘

摘要

Abstract

1. 绪论-1

1.1 研究背景与意义-1

1.2 研究现状-1

1.3 存在的问题-1

1.4 设计目标与风险评估-2

1.5 论文组织结构-2

2 可行性分析-3

2.1 经济可行性分析-3

2.2 市场可行性分析-3

3 相关工具和方法理论-3

3.1 处理工具-3

3.1.1采集数据-3

3.1.2数据清洗-3

3.1.3数据提取-4

3.2 文本结构化-4

4招投标文本结构化的处理方法-4

4.1 引言-4

4.2 技术流程-4

4.3 数据预处理-5

4.4功能实现成果及方法-6

4.4.1精准查询功能-6

4.4.2 模糊查询-8

4.4.3 限制查询-9

4.5 核心算法-11

5.总结与展望-13

结论-14

参考文献-15

致谢-16

基于JAVAEE的在线直播授课系统的设计与实	基于Java Web的小型移动网上营业厅.doc	粒子群优化算法的参数调整策略研究_信息
基于bootstrap框架的爱看漫画网站的设计与	校园云存储平台的设计与实现.doc	基于C,S模式的坦克大战游戏设计与开发
Android平台下XX学院掌上校园“学院通”的	华芳集团人事管理系统的设计与实现.do	基于web的XX学院二手书交易网.zip
基于Java的教育网站的设计与实现.docx	基于.net的电子文档管理平台设计与实现	基于Android的校园物品置换和点餐系统的设