小说站点html解析模块源码

1.模块说明

本小说解析模块,调用海绵宝宝elss6.01引擎(论坛搜elss即可)进行html解析(采用xpath表达式)

封装了一些处理小说站点html网页信息的子程序,

可以利用本模块来轻松制作一个可换源的阅读软件。

2.模块子程序自定义类型数据介绍以及制作阅读软件简单设计思路

这里将处理小说站点html信息的采集规则叫书源

书源的成员大致可分为以下几大类(具体成员名参见附件里面的【说明文件.txt】)

书源名称、书源网址、搜索网址、搜索页处理规则,书籍介绍页处理规则,目录页处理规则,章节内容页处理规则

目前采用json格式文本保存书源。(参见附件里面的【书源default.txt】)

首先在解析html前需要导入书源

也就是调用书源初始化()

通过组合框根据站点名切换书源

然后在软件搜索框输入关键字

程序根据当前书源的搜索网址,通过搜索页处理()得到搜索页信息(具体成员名参见附件里面的【说明文件.txt】)

然后双击选择某本书籍通过书籍页处理()得到书籍页,同时通过目录页处理()得到目录页信息(也就是章节名称和章节链接)

最后根据章节链接进行内容页处理()可以变成纯净的在线阅读或者根据章节链接直接下载(比如鱼刺多线程下载)

小说站点html解析模块源码

相关文件下载地址
©下载资源版权归作者所有;本站所有资源均来源于网络,仅供学习使用,请支持正版!

小说站点html解析模块源码》有0个想法

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注