Nginx 禁止指定 User Agent 访问

2019-12-20T19:22:55

UA,即 Http User Agent,在 Nginx 中使用内置变量 $http_user_agent 表示,该信息作为 request header 的一部分被发往 webserver。因此,对 webserver 来说,有一种禁止访问的方式,就是对 UA 进行判断。

禁止搜索引擎爬虫

因为你懂的原因,并不是太希望 Baidu 这类爬虫来我的网站,所以在 Nginx 中使用 if 对 UA 进行判断:

    if ($http_user_agent ~* "qihoobot|Baidu|Baiduspider|Baiduspider-image|Baiduspider-video|Baiduspider-news|Baiduspider-favo|Baiduspider-cpro|Baiduspider-ads|Baiduboxapp|YisouSpider|EasouSpider|YodaoBot|YoudaoBot|Sosospider|Sogou|^$") {
        return 444;
    }

禁止下载工具

    if ($http_user_agent ~* "Scrapy|HttpClient|Curl|Wget|Idm|Aria2|Axel|Thunder|Youtube-dl|Movgrab|rtorrent|ctorrent|Transmission-cli|vuze") {
        return 444;
    }

禁止国产浏览器访问

    if ($http_user_agent ~* "360|360SE|360EE|2345Explorer|maxthon|sogou|theworld|qiyu|green|qq|qqbrowser|tt|liebao|lbbrowser|tao|taobao|coolnovo|saayaa|uc|mi|xiaomi|baidu|yandex|micromessenger|wechat|weibo|douban|suning|iqiyi|alipay|ali-ap|ali-ap-pd|ali-am|ali-tb|ali-tb-pd|ali-tm|ali-tm-pd") {
        return 444;
    }

禁止指定系统访问

也有某些国产系统,例如 aliyun os 这样的,我也想禁止它的访问:

    if ($http_user_agent ~* "yunos") {
        return 444;
    }

结论

根据以上可以看出,要对 UA 进行判断,规则就是:

    if ($http_user_agent ~* "UA关键词") {
        ...
    }

不过这种方法缺点很明显,因为 UA 实在太容易伪造了,不过防一下不经伪造的请求(例如国产搜索爬虫)还是可以的。当然也有些更靠谱的方式,例如对 session 的验证。

 

via.https://blog.sometimesnaive.org/article/62.html

当前页面是本站的「Baidu MIP」版。发表评论请点击:完整版 »