由于雅虎搜索從整個(gè)因特網(wǎng)上抓取數(shù)以百億計(jì)的網(wǎng)頁,對(duì)于網(wǎng)絡(luò)抓取我們采取大量系統(tǒng),因此,您的網(wǎng)絡(luò)服務(wù)器會(huì)從不同的YST抓取程序的客戶端IP地址登錄請(qǐng)求。不同的抓取程序系統(tǒng)彼此配合,來限制任何來自單一網(wǎng)絡(luò)服務(wù)器的活動(dòng)。所謂單一網(wǎng)絡(luò)服務(wù)器,是由IP地址判斷的。因此,如果您的服務(wù)器主機(jī)擁有多個(gè)IP,它的活動(dòng)則會(huì)處于更高的級(jí)別。
在robots.txt
里,YST有一個(gè)特定的擴(kuò)展名,可以通過它對(duì)我們的抓取程序設(shè)定一個(gè)較低的抓取請(qǐng)求頻率。您可以加入Crawl-delay:xx指示,其中,“XX”是指在crawler程序兩次進(jìn)入站點(diǎn)時(shí),以秒為單位的最低延時(shí)。如果crawler頻率對(duì)您的服務(wù)器是一個(gè)負(fù)擔(dān),您可以將這個(gè)延時(shí)設(shè)定為任何您認(rèn)為恰當(dāng)?shù)臄?shù)字,例如60或300。
例如,您想設(shè)定一個(gè)20秒的延時(shí),語句如下:
User-agent: Slurp
Crawl-delay: 20