走啊走
来学wordpress建站吧

虚拟主机被搜索引擎爬虫访问耗费大量流量解决方法

问题场景:

客户使用虚拟主机,网站被搜索引擎爬虫访问耗费大量流量和带宽,如何处理。

解决方法:

可以通过在站点根目录下创建 Robots.txt,Robots.txt 文件是网站的一个文件,搜索引擎蜘蛛抓取网站首先就是抓取这个文件,根据里面的内容来决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的控制蜘蛛的爬取路径。

注:Robot.txt协议不是强制协议,部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议,对于不遵守该协议的情况,以下方法无效。

1. 首先,先了解一下目前搜索引擎和其对应的 User-Agent,如下:

搜索引擎         User-Agent
AltaVista        Scooter
baidu            Baiduspider
Infoseek         Infoseek
Hotbot           Slurp
AOL Search       Slurp
Excite           ArchitextSpider
Google           Googlebot
Goto             Slurp
Lycos            Lycos
MSN              Slurp
Netscape         Googlebot
NorthernLight    Gulliver
WebCrawler       ArchitextSpider
Iwon             Slurp
Fast             Fast
DirectHit        Grabber
Yahoo Web Pages  Googlebot
LooksmartWebPages Slurp 

 

2. Robots.tx t样例代码:

例1. 禁止所有搜索引擎访问网站的任何部分
User-agent: 
Disallow: /
例2. 允许所有的搜索引擎访问网站的任何部分
User-agent: 

Disallow:
例3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /
例4. 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Disallow:
例5. 禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/

注意事项:

  • 三个目录要分别写。
  • 请注意最后要带斜杠。
  • 带斜杠与不带斜杠的区别。

例6. 允许访问特定目录中的部分url
实现a目录下只有b.htm允许访问
User-agent: *
Allow: /a/b.htm
Disallow: /a/

微信订阅号:wordpress8—WordPress建站吧 » 虚拟主机被搜索引擎爬虫访问耗费大量流量解决方法

评论 抢沙发

#快捷签到点我#

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址


走啊走—【WordPress建站吧,轻松学建站!关注微信订阅号:wordpress8】

wordpress建站安装》联系我们
ECS突发性能T6-99元/年
力荐

阿里云服务器新老用户优惠229.00/3,89.00/年起

阅读(8822)评论(242)

新用户专属小站价,爆款产品1折起,百度云服务器之前买的特价大概100块钱左右一年的吧,大概还有一个月就要过期了,平时没怎么用基本是空着的,做一些测试用,今天去百度云续费域名,结果发现又有活动团购价格62元/6个月的价格,感觉比较划算六十多块钱买半年,这个价格还是比较诱人的,...

ECS突发性能T6-99元/年
新手必看

wordpress建站首选云服务器229.00/3年

阅读(822)评论(242)

新用户专属小站价,爆款产品1折起爆款产品5折起,新老用户同享优惠,限时抢购,指定云产品使用 限新用户 最高¥2000...

实时疯抢榜