网页信息收集器是一款绿色小巧,功能实用的网页信息采集软件。Internet上有着极其庞大的资源信息,各行各业的信息无所不有,网页信息收集器可以很方便的针对某个网站的信息内容进行收集。如某个论坛的所有注册会员的E-MAIL列表、某个行业网站的企业名录、某个下载网站上所有软件列表等等。操作简单方便,更容易为普通用户所掌握,有需求的用户不妨下载体验!

功能特色

1、执行任务

根据已建立的任务信息保存、提取网页,也可通过“双击”某项任务启动此功能

2、新建、复制、修改、删除任务

新建、复制、修改、删除任务信息

3、默认选项

设置默认工作路径(默认为当前程序目录下的WorkDir文件夹)

设置默认提取测试数 (默认为10)

设置默认文本分隔符 (默认为 *)

4、新建、编辑任务信息

任务名称:在默认的工作文件夹下生成以此命名的文件夹。

登录地址:针对某些需要登录才能查看其网页内容的网站,填写登录页面地址。在执行任务时,软件会打开此登录页面让您登录该网站

序数格式类型网页、非序数格式类型网:

这里的序数格式、非序数格式主要是指提取地址是否仅仅是数字的变化。例如类似于:

①http://xxx.com/1. 和 http://xxx.com/2. 就属于序数格式

②http://xxx.com/abc. 和 http://xxx.com/def. 则属于非序数格式

列表地址:在类型为“非序数格式类型网”时,第一页列表的链接地址

提取地址:由实际保存的网页地址共同部分 + * 号组成。

例如要提取:

①http://xxx.com/1. 和 http://xxx.com/2. 则提取地址为 http://xxx.com/*.

②http://abc.xxx.com/abc. 和 http://test.xxx.com/def. 则提取地址为 http://*.xxx.com/*.

翻页地址:为列表网页上的“下一页”链接地址,将其中变化的部分用 * 号代替。

页数起始:要开始提取的页数

页数截止:要停止提取的页数

当前页数:当前已经提取到的页数

已保存网页数:已经保存的网页数

任务详细描述:该任务的详细描述信息

下载地址

远程下载