网址链条»站长动态»文章内容
0
分享到
TOP

如何判断爬虫在采集自己网站的数据?

站长动态 网址链条 2022-10-29 15:53:16 638人浏览 0人回复

做过网长的朋友应该清楚,如果网站被其他人用软件恶意采集不仅消耗网站的硬件资源同时也有可能对正常访问网站的用户造成影响。如打不开。那么当我们在巡查自己网站的时候如何判断是否有人在采集自己网站的数据,下面就让网址链条带你来看看:


1、从日志和统计中查看,主要针对直接访问者(不是通过关键词访问网站的《如何判断爬取网站的百度蜘蛛真假?》)时通过对来访数据进行分析,一般采集都会定时在某个时间段自动访问网站,那么我们可以结合几天的数据,如果某个IP在每天的某表时间段固定访问网站,看上去很有规律,那么很可能就是采集的IP。当然,也有很多人在采集别人网站的时候会大批量的采集网站全部数据,以备后面用,面对这种情况时,我们就需要在服务器上进行安全设置,如宝塔的防火墙。这样可以有效规避对正常访问网站的客户出现打不开网站的情况。


2、从百度搜索中查看,我们筛选部分网站的文章,然后在百度中进行搜索文章标题或段落中的某些句子,从而来判断网站是否被其他网站进行采集,此方法一般只针对原创文章有效。


3、从服务器上硬件使用率的情况查看,如服务器的cpu、内存使用率,如果我们的网站平常cpu和内存的使用情况都在正常范围,而突然存在很高的占用时,很有可能也是有人采集网站数据或一些垃圾爬虫在爬取网站数据。

评论列表 共有 0 条评论

暂无评论