招投标文本结构化处理方法研究.doc

资料分类:计算机信息 上传会员:紫色烟火 更新时间:2022-06-10
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:6974
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:随着计算机、互联网和数字媒体等的普及,非结构化数据为主的信息急剧增加。据统计,当前非结构化数据的内容占据了数据海洋的 80%,并将在2020年之前以44倍的速度迅猛增长。招投标文本作为一类重要的非结构化文本文档,是掌握企业命脉的关键内容。

本文针对海量的招投标文本信息,将会提出一种不同的、简单有效的文本结构化处理方式。在web服务器上运行爬虫,实现网络爬虫scrapy框架,爬虫实现信息会不断更新,网页内容以txt的形式不断更新。通过 FudanNLP进行自然语言处理,也就是分词,然后使用hanNLP提取关键词,最后通过python的正则表达式处理呈现出结构化的文本内容,以json文件的形式存储。用户通过web服务器进行访问,得到结构化的文档。

 

关键词:网络爬虫;文本;结构化;Python;数据挖掘

 

目录

摘要

Abstract

1. 绪论-1

1.1 研究背景与意义-1

1.2 研究现状-1

1.3 存在的问题-1

1.4 设计目标与风险评估-2

1.5 论文组织结构-2

2 可行性分析-3

2.1 经济可行性分析-3

2.2 市场可行性分析-3

3 相关工具和方法理论-3

3.1 处理工具-3

3.1.1采集数据-3

3.1.2数据清洗-3

3.1.3数据提取-4

3.2 文本结构化-4

4招投标文本结构化的处理方法-4

4.1 引言-4

4.2 技术流程-4

4.3 数据预处理-5

4.4功能实现成果及方法-6

4.4.1精准查询功能-6

4.4.2 模糊查询-8

4.4.3 限制查询-9

4.5 核心算法-11

5.总结与展望-13

结论-14

参 考 文 献-15

致    谢-16

相关论文资料:
最新评论
上传会员 紫色烟火 对本文的描述:该软件的目标人群主要针对有信息搜集、筛选、比较需求的相关人群与企业;而服务内容主要是做到根据用户提供的关键字检索信息并将其结构化处理以供用户后续使用;并且,在此基......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: