關于注意合法使用網(wǎng)絡爬蟲的公告
網(wǎng)絡爬蟲,又稱網(wǎng)絡蜘蛛或者網(wǎng)絡機器人,它是一種“自動化瀏覽網(wǎng)絡”的程序,按照一定規(guī)則,自動抓取互聯(lián)網(wǎng)信息,比如網(wǎng)頁、各類文檔、圖片、音頻、視頻等。爬蟲可作為一種獲取數(shù)據(jù)的手段,爬取的數(shù)據(jù)如何合法使用都是必須注意的問題。
根據(jù)《數(shù)據(jù)安全管理辦法(征求意見稿)》第十六條:網(wǎng)絡運營者采取自動化手段訪問收集網(wǎng)站數(shù)據(jù),不得妨礙網(wǎng)站正常運行;此類行為嚴重影響網(wǎng)站運行,如自動化訪問收集流量超過網(wǎng)站日均流量三分之一,網(wǎng)站要求停止自動化訪問收集時,應當停止。
在使用爬蟲過程中,提出以下建議:
1.遵守Robots協(xié)議,但有沒有Robots都不代表可以隨便爬;
2.限制你的爬蟲行為,禁止近乎DDOS的請求頻率,一旦造成服務器癱瘓,約等于網(wǎng)絡攻擊;
3.對于明顯反爬,或者正常情況不能到達的頁面不能強行突破,否則是Hacker行為;
4.最后,審視清楚自己爬的內容,遵守國家相關法律法規(guī),以下是絕不能碰的紅線(包括但不限于):
?爬取用戶個人數(shù)據(jù)非法牟利,包括模擬登錄他人賬號。
?爬取商業(yè)數(shù)據(jù)造成不正當競爭。
?爬取大量帶有知識產權的數(shù)據(jù)用于商業(yè)目的,獲取盈利行為。
5、不得違反相應法律法規(guī)。
如發(fā)現(xiàn)上述行為者,我們會將用戶信息及行為提交給本地主管部門,若遇到公安機關調查,我公司將全力配合。