详细编制教程
一、进入后台,创建规则
输入采集点标识,比如nnsc或者域名(不带http://)便于记忆,然后提交保存,别忘了!
二、选择刚才创建的规则,点击编辑,进入详细编写界面。
- 1.是否突破:选择是。
- 2.图片本地化:我个人建议选是,避免目标站图片挂了。
- 3.所属栏目,一般是多栏目。
- 4.目标站点域名:有https的写https,后面有没有斜杠无所谓
- 5.网站编码:GBK还是UTF-8。在网站页面右击,看下编码。不过选错了没关系,回头在切换下就可以了。
- 6.规则列表页面:https://www.dududu.la/sort[cate]/0/[page].htm,例如这个站,其中[cate]代表分类,[page]代表页码,如果页码只有一页可以不用写。分类可以是数字,也可以是字母。这里分类为什么不把前面的sort写进去,是为了防止误采到非列表页,比如主页。
- 7.下面的cate对应,可以有以下形式,只列出3种作为参考,具体要按目标站来。
- 8.页码,可以在每个后面写,目标站是多少你就写多少。这种虽然麻烦但是准确。还有一种就是写1|1|1000,其中1000是最大页数,比较懒o(* ̄︶ ̄*)o。
- 9. 无缩略图标志:一般就写nocover
好了前面的准备好了,我们来打开目标页,来一步一步写采集内容。
列表规则、文章页规则、章节页规则编写
一、列表页规则
- 列表页:链接CSS选择器
打开随便一个分类页,我们要获取文章标题和链接,选择文章标题,右键检查元素(或者F12)。
这里首先看css,是a标签,不精确,我们看上面他是在.booklist span.sm 里面,这里我们就写
.booklist span.sm a
PS:一定要是绝对的,如果同一个sm里面有两个a,这样写就采不到链接了,就需要替换规则,替换掉不能用的标签class。
{filter replace=’替换后代码’}需要替换的标签代码{/filter} ,如
{filter replace='<p>’}<a href=”(.*)”>最新章节***</a>/filter} 。新手遇到这种站可以放弃哈。
2.列表页:标题CSS选择器
一般是和上面是一样的,但是这个刚好不一样,多了个<b>标签
我们就写.booklist span.sm b或者.booklist li b或者.booklist li a b
3. 列表页:缩略图CSS选择器
没有图就不用谢,有图就写。方法一样,右键查看,看对应css。这里没有图片不要紧,我们可以在文章页采集。
4.作者:我们选中作者,右键
然后选中zz上面,看到是绝对的,我们写
.booklist span.zz a
二、文章页规则
这里有两种方式:两种方式可混合使用!!!
*****************************************************************
一种就是查看源文件,快速填写标签,这种比较好写,绝大多网站都有这种参数;
通用标签meta[property=]|content
- 书名:meta[property=og:novel:book_namel]|content
- 作者:meta[property=og:novel:author]|content
- 内容:meta[property=og:description]|content
- 分类:meta[property=og:novel:category]|content
- 图片:meta[property=og:image]|content
- 完整目录:一般文章页是目录页的不写
- 完结标识:已完结或者大结局或者完本,或者
meta[property=og:novel:status]|content
*****************************************************************
一种就是上面的方法选中对应的右键审查元素,一个一个写,比较麻烦。
1.书名:h1
2.作者:
.jieshao .rt .msg em a
这里有两个,我们需要替换掉一个
<em>最新章节:<a href="11899692.html">26、急报</a></em>
文章页:源码预过滤规则里面填下下面的代码
{filter replace=''}<em>最新章节:<a href="(.*)">(.*)</a></em>{/filter}
上面的(.*)是正则代码,小白遇到这种可以放弃,这里需要慢慢调试。
3.内容:
.jieshao .rt .intro
4.分类标签:这里一般不用写,除非单列表规则才写。这个网站没有加这个标签,可以按照上一种方式写。
5.图片:
.jieshao .lf img
三、章节页规则
- 章节目录页:区域CSS选择器 我们写:mulu或者.mulu
- 章节目录页:采集规则 我们写:
<li><a href="[link]">[title]</a></li>
或者<a href="[link]">[title]</a>
有些网站是<dd><a href="[link]">[title]</dd>
这里要注意,一般链接地址
<a href="11899668.html">
是这种的不容易采集到,前面要带书号。
<a href="/42/42619/11899668.html">这种就容易采集到。
采不到章节页地址的网站可以放弃,一般这是由于目标站加密的缘故。
四、章节页规则
这个比较简单,我们这里写:.yd_text2
常用的是:
content
这里我们需要的是替换掉目标站的广告哦
比如:一秒记住笔趣阁www.biquge.com等等
好了,规则写好了,我们来测试一下,看有没有问题,然后一项一项在进行修改。直到能看到章节内容就成功了!
评论(0)