基于爬虫的文学作品作者常用语统计分析.docx

资料分类:精选论文 上传会员:螺蛳粉50g 更新时间:2024-01-29
需要金币1000 个金币 资料包括:完整论文 下载论文
转换比率:金额 X 10=金币数量, 例100元=1000金币 论文字数:11455
折扣与优惠:团购最低可5折优惠 - 了解详情 论文格式:Word格式(*.doc)

摘要:本论文研究了如何使用Scrapy框架网络爬虫爬取网络文学网站中作者主页下的所有作品。猜想每个作者的常用字的使用频率不会产生太大浮动,以此为依据创建作者的常用字对比数据库为抄袭现象提供一种实时的判别依据。

本文首先从熟悉Scrapy框架的工作原理为起点,了解每个模块所负责的内容和每个工程文件所对应实现的功能以及启动爬虫的常用命令,同时涉及python和sql语法,然后进行字数统计、中文标点符号统计、通用最常用五个字统计和本作品中最常出现的十个字的统计;最后连接本地数据库后将数据存入库方便进行分析。

□□

关键词:常用字;网络爬虫;数据库;python;网络小说

 

目录

摘要

Abstract

1 引言 · 1

1.1研究背景及意义 · 1

1.2研究现状 · 1

1.3本选题创新点 · 2

2 需求分析 4

2.1爬虫需要爬取内容分析 · 4

2.1.1关键字的选取  4

2.1.2标点符号的统计 · 4

2.2数据库储存分析  4

2.3技术可行性分析 · 5

3 方法实现  6

3.1爬虫技术的实现 · 6

3.1.1创建工程和文件 · 6

3.1.2规则和方法的编写  6

3.1.3数据处理 · 9

3.2数据库功能的实现 · 9

4 实验结果展示与分析  11

4.1泛用性测试 · 11

4.2猜想验证与错误反思  12

5总结与展望 · 14

参考文献 15

致谢

 
相关论文资料:
最新评论
上传会员 螺蛳粉50g 对本文的描述:在学术研究上研究者们运用网络爬虫完成了很多繁琐的工作,也达成了很多耀眼 的成绩:旅游网站、网购网站、影评网站、社交网站通通都少不了被爬虫采集过的经历:冯悦悦的硕士论......
发表评论 (我们特别支持正能量传递,您的参与就是我们最好的动力)
注册会员后发表精彩评论奖励积分,积分可以换金币,用于下载需要金币的原创资料。
您的昵称: 验证码: