基于爬虫的文学作品作者常用语统计分析.docx[原创毕业论文]

摘要：本论文研究了如何使用Scrapy框架网络爬虫爬取网络文学网站中作者主页下的所有作品。猜想每个作者的常用字的使用频率不会产生太大浮动，以此为依据创建作者的常用字对比数据库为抄袭现象提供一种实时的判别依据。

本文首先从熟悉Scrapy框架的工作原理为起点，了解每个模块所负责的内容和每个工程文件所对应实现的功能以及启动爬虫的常用命令，同时涉及python和sql语法，然后进行字数统计、中文标点符号统计、通用最常用五个字统计和本作品中最常出现的十个字的统计；最后连接本地数据库后将数据存入库方便进行分析。

□□

关键词：常用字；网络爬虫；数据库；python；网络小说

摘要

Abstract

1 引言 · 1

1．1研究背景及意义 · 1

1．2研究现状 · 1

1．3本选题创新点 · 2

2 需求分析 4

2．1爬虫需要爬取内容分析 · 4

2．1.1关键字的选取 4

2．1．2标点符号的统计 · 4

2．2数据库储存分析 4

2．3技术可行性分析 · 5

3 方法实现 6

3．1爬虫技术的实现 · 6

3.1.1创建工程和文件 · 6

3.1.2规则和方法的编写 6

3.1.3数据处理 · 9

3．2数据库功能的实现 · 9

4 实验结果展示与分析 11

4．1泛用性测试 · 11

4．2猜想验证与错误反思 12

5总结与展望 · 14

参考文献 15

致谢