介绍两个web采集器:火车头采集器和小蜜蜂采集器
虽然说现在不用采集器了,开始写原创文章了,但还是想向大家介绍两个很有用的采集器。一个是火车头采集器,一个是小蜜蜂采集器。这两个采集器都是为懒惰的站长设计的,我以前就属于非常懒惰的站长。说是在做网站,其实就是用采集器狂采别人网站的数据,然后修改标题,变成自己的内容。
用采集器来做网站,很难被搜索引擎承认,索然也可以被搜索引擎收录,但是根本没有什么权重,因为数据不是原创的,但是可以用大量的数据来赚取流量,做上十个垃圾站,就算每个站每天是有二百个IP,十个加起来也有一些了。以前就是用这种方法做网站的,现在终于意识到这样是做不出好的网站的,所以好久没有用过采集器了,但是有必要介绍一下这两个采集器,因为就算我们不用它来做网站,我们还可以把它当成一个机器人来代替我们自己做大量的工作。
首先说一下火车头采集器,这是一个运行在本地计算机上面的采集器,目前最新版本是火车采集器 V3.2正式版 SP5,他是一个windows软件,安装需要先安装.net framework 2.0框架。主要功能有:
- 采集格式化的数据
- 采集数据中的图片,并可以重新命名后保存到本地电脑。
- 数据库可以直接导入,需要定义导库的规则,这个比较难弄
- 采集过程中对数据进行替换,过滤
- 智能的分页采集功能
- 可以在线发布到web系统中,支持所有的CMS,论坛,Blog系统,并可以自己编写发布规则。
- 使用代理服务器采集
- 可以对数据中出现的Flash,附件进行下载保存。
- 真正意义的软件计划任务,实现对某些网站的动态内容更新监视。
功能还是很多的,但是最大的问题就是采集器在本地,采集得到的数据需要发布到web系统中,采集得到的附件等需要上传到服务器才能使用。
下面来说另外一个采集器:小蜜蜂采集器.和火车头采集器不同,这个采集器是使用php语言开发的一个基于web的采集器。目前最新版本是小蜜蜂采集器V2.2 SP1,和火车头采集器不同,这个程序在服务器端运行,这样最大的好处就是采集速度快,因为在服务器端运行,目标网站也在服务器,这样服务器对服务器的速度当然是非常的快。除具有火车头采集器的基本功能外,它还可以专门对论坛进行采集,支持多种CMS导库 如:BBWPS、DedeCms(织梦) V2/V3、PHP168 CMS、mephpcms、Mambo CMS、Joomla CMS、多讯(DuoXun) CMS、SupeSite、Cmsware、帝国ECMS、新雨动网(XYDW)CMS、动易CMS、风讯CMS、HUGESKY CMS、PHPCMS系统导库;用户也可自行设计适合自己系统的导库功能。支持PHPWIND、Discuz、BBSxp论坛导库,程序包内含3大论坛导库规则及操作指南说明;附带数据库优化工具,减少频繁采集数据碎片过多降低数据库性能。
以下特殊功能仅“小蜜蜂采集器”拥有:
1、支持采集过程断点续采功能,不受浏览器意外关闭影响,重新启动后不会重复采集;
2、支持自动对比过滤功能,对已采集的链接系统不会进行重复采集和入库;
以上两条功能可大幅度减少采集时间,降低系统负载。
3、支持系统每日自动创建图片保存目录,方便管理;
4、支持采集/导库间隔时间设置,避免被目标站识别为流量攻击而拒绝响应;
5、支持自定义内容写入,达到简单防采功能;
6、支持html标签过滤,近乎完美的显示您想要的采集效果;
7、完美的内容入库解决方案,不受目标程序语言、数据库类别限制。


Comments
4条评论
最近有人问我一些关于小蜜蜂采集器使用的问题,因为比较忙,没顾的上答复,我准备写一篇关于小蜜蜂采集器的使用和到库规则的制作教程。方便大家使用。
[...] 很就没写什么教程了,今天这篇算是一篇吧。标题是什么意思呢?有人可能不明白。那就让我来告诉你吧,其实这是一个批量下载是很有用的东西。火车头采集器是什么?请看这篇文章。什么是迅雷批量下载地址?这个可能有人不明白,下面我来举例说明。 [...]
关于火车头采集器的高级使用功能,请看这篇文章:http://blog.showjay.com/posts/use-locoyspider-to-get-down-url-list.html
火车头正在用 我在搞法文站 发布倒是挺方便 可是数据下到本地得上传的确麻烦
小蜜蜂没试过 现在试试 呵呵