需要金币:![]() ![]() |
资料包括:完整论文 | ![]() |
![]() |
转换比率:金额 X 10=金币数量, 例100元=1000金币 | 论文字数:11455 | ![]() | |
折扣与优惠:团购最低可5折优惠 - 了解详情 | 论文格式:Word格式(*.doc) | ![]() |
摘要:本论文研究了如何使用Scrapy框架网络爬虫爬取网络文学网站中作者主页下的所有作品。猜想每个作者的常用字的使用频率不会产生太大浮动,以此为依据创建作者的常用字对比数据库为抄袭现象提供一种实时的判别依据。 本文首先从熟悉Scrapy框架的工作原理为起点,了解每个模块所负责的内容和每个工程文件所对应实现的功能以及启动爬虫的常用命令,同时涉及python和sql语法,然后进行字数统计、中文标点符号统计、通用最常用五个字统计和本作品中最常出现的十个字的统计;最后连接本地数据库后将数据存入库方便进行分析。 □□ 关键词:常用字;网络爬虫;数据库;python;网络小说
目录 摘要 Abstract 1 引言 · 1 1.1研究背景及意义 · 1 1.2研究现状 · 1 1.3本选题创新点 · 2 2 需求分析 4 2.1爬虫需要爬取内容分析 · 4 2.1.1关键字的选取 4 2.1.2标点符号的统计 · 4 2.2数据库储存分析 4 2.3技术可行性分析 · 5 3 方法实现 6 3.1爬虫技术的实现 · 6 3.1.1创建工程和文件 · 6 3.1.2规则和方法的编写 6 3.1.3数据处理 · 9 3.2数据库功能的实现 · 9 4 实验结果展示与分析 11 4.1泛用性测试 · 11 4.2猜想验证与错误反思 12 5总结与展望 · 14 参考文献 15 致谢 |