鱼刺多线程例程 [v4.7]代理智能提取

v4.7(2019-05-23)

修正第二次创建代理提取架构后无法获取到代理的问题

增加了两个新的函数`获取代理Ex()` `自压入代理Ex()`  '//详情请查看`例程2.e`

增加了两个例程`例程1.e` `例程2.e`

使用方法:

1.  (编辑配置)

1.1 编辑运行目录下的`Config_Proxy.ini`填写提取和验证参数并保存 

1.2 如果程序目录下没有`Config_Proxy.ini`这个文件 请调用一次`代理智能提取_创建()`会自动生成在运行目录下

1.3 你也可以用代码来配置这些信息 直接调用 `代理智能提取_置代理提取参数()` `代理智能提取_置代理验证参数()` `代理智能提取_置代理生命值()` `代理智能提取_置代理最长存活时间()`

2.  (创建和获取状态)

2.1 在执行工作前调用一次 `代理智能提取_创建()`  (比如: `启动按钮_被单击`)

2.2 你可以搞个时钟/定时器来刷新代理智能提取模块的工作状态

2.3 当你打算结束工作/工作完毕时记得执行 `代理智能提取_销毁()`

3.  (提取代理)

3.1 当你需要用代理时 直接调用`代理智能提取_获取代理()`即可得到一条代理

3.2 没错 你可以在任意环境下调用`代理智能提取_获取代理()` (比如:在并发线程中调用)

4.  (总结)

如果你已修改好了提取配置 你其实可以很轻松的使用它 

只要先创建 然后只管在任意线程获取代理即可 代理快不够了会自动提取补充

就像下面这样

创建()

获取代理()'//线程A

获取代理()'//线程B

获取代理()'//线程C

销毁()

——————————————–

Config_Proxy.ini 配置说明:

触发补充阀值     : 当前剩余代理小于这个数值会触发自动提取并验证补充代理(0=自动(本次提取数量\5+5且>=5))

提取地址         : 用于提取代理的API地址

提取分隔符       :  提取后用这个分隔符来分割成多条 默认=\\r\\n(换行符) (本参数也支持正则匹配)

是否正则分割     : 是否使用正则匹配 1=使用正则匹配(正则必须包含两个子匹配项1为地址2为端口) 0=使用分割文本匹配

提取附加协议头   : 提取代理时附加的HTTP协议头 默认=空(默认协议头)

提取间隔         : 两次提取最小间隔(毫秒) 为了防止提取API接口限制提取频繁冻结 默认=1000(1秒)

—————-

验证地址         : 用于验证代理是否有效的url 比如IP138 又比如百度  |如果想不验证提取的代理直接使用 请设置为:不验证

是否UTF8解码     : 验证代理返回的网页内容是否进行UTF8解码 1=解码 0=不解码

提取附加协议头   : 验证代理时附加的HTTP协议头 默认=空(默认协议头)

验证特征         : 验证代理URL返回的内容里存在这个特征既是有效(比如验证地址是(百度) 特征可以是'百度一下')

验证超时         : 验证代理超时 默认=12 (秒)

尝试验证次数     : 尝试验证次数 默认=1 (次)

代理生命值       : 提取的代理能被获取几次 默认=1 (次)  (比如采集东西的时候就可以设置10-50次)

代理最长存活时间 : 提取的代理最长存活时间 0=不启用(默认) 大于0=启用(秒) 提取的代理过了这个时间后 将不会被提取直接被丢弃

——————————————–

相关文件下载地址
©下载资源版权归作者所有;本站所有资源均来源于网络,仅供学习使用,请支持正版!

鱼刺多线程例程 [v4.7]代理智能提取》有0个想法

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注