小说站点html解析模块源码

1.模块说明

本小说解析模块，调用海绵宝宝elss6.01引擎（论坛搜elss即可）进行html解析（采用xpath表达式）

封装了一些处理小说站点html网页信息的子程序，

可以利用本模块来轻松制作一个可换源的阅读软件。

2.模块子程序自定义类型数据介绍以及制作阅读软件简单设计思路

这里将处理小说站点html信息的采集规则叫书源

书源的成员大致可分为以下几大类（具体成员名参见附件里面的【说明文件.txt】）

书源名称、书源网址、搜索网址、搜索页处理规则，书籍介绍页处理规则，目录页处理规则，章节内容页处理规则

目前采用json格式文本保存书源。（参见附件里面的【书源default.txt】）

首先在解析html前需要导入书源

也就是调用书源初始化（）

通过组合框根据站点名切换书源

然后在软件搜索框输入关键字

程序根据当前书源的搜索网址，通过搜索页处理（）得到搜索页信息（具体成员名参见附件里面的【说明文件.txt】）

然后双击选择某本书籍通过书籍页处理（）得到书籍页，同时通过目录页处理（）得到目录页信息（也就是章节名称和章节链接）

最后根据章节链接进行内容页处理（）可以变成纯净的在线阅读或者根据章节链接直接下载（比如鱼刺多线程下载）

中文编程资源网