
|
10、能否查到黃梅“女人與小說(shuō)”系列文章,印象中是發(fā)表在八十年代中后期《讀書(shū)》雜志上。
用GOOGLE查詢“黃梅 女人與小說(shuō)”,只有3個(gè)網(wǎng)頁(yè)。其中2個(gè)網(wǎng)頁(yè)是“樸素”的個(gè)人書(shū)架,帶berkeley.edu的那個(gè)可能就是讀書(shū)雜志,點(diǎn)一下“網(wǎng)頁(yè)快照”,得知這是〈讀書(shū)〉雜志1988年第1期,雖然包含“黃梅”、“
女人與小說(shuō)”2個(gè)關(guān)鍵詞,可是“黃梅”一詞是在別人的文章里出現(xiàn)的,后面的《“女人與小說(shuō)”雜談之四》像是黃梅的文章,也只有個(gè)開(kāi)頭。如果我們對(duì)GOOGLE搜索沒(méi)有更多的了解或者沒(méi)有聽(tīng)說(shuō)過(guò)網(wǎng)上有20年的《讀書(shū)》雜志全文,搜索到這兒可能也就終止了。噢,用高級(jí)語(yǔ)法指定網(wǎng)域“黃梅
女人與小說(shuō) site:tiger.berkeley.edu”?不用多此一舉,那是用來(lái)縮小搜索范圍的。用“黃梅
site:tiger.berkeley.edu”和“女人與小說(shuō)
site:berkeley.edu”來(lái)試探倒還可以。
事實(shí)上,如果我們后退返回查詢結(jié)果頁(yè)面,點(diǎn)擊網(wǎng)址進(jìn)入網(wǎng)頁(yè)
http://tiger.berkeley.edu/wdluo/reading/vol-106
從頭瀏覽一遍,是能夠找到黃梅的《“女人與小說(shuō)”雜談之四》全文的,那為什么網(wǎng)頁(yè)快照只有文章的開(kāi)頭呢?這與GOOGLE的偵察兵的爬進(jìn)能力有關(guān),大一點(diǎn)的頁(yè)面,GOOGLE的SPIDER最多能CRAWL開(kāi)始的110K文本內(nèi)容,超過(guò)這個(gè)范圍的,就是invisible,是不能抓取、索引和搜索的。《“女人與小說(shuō)”雜談之四》這篇文章,GOOGLE只抓取了標(biāo)題和開(kāi)頭部分,文章結(jié)尾的作者“黃梅”以及本期雜志最后的目錄中的“女人與小說(shuō)”、“黃
梅”是不能抓取和索引的,查詢結(jié)果里,GOOGLE給這個(gè)網(wǎng)頁(yè)文本大小標(biāo)注101K。我們開(kāi)始所以能查到這個(gè)頁(yè)面,也是這2個(gè)關(guān)鍵詞趕巧碰到一塊了。如果沒(méi)有呂叔湘《葛德文其人》中“今年第八期《讀書(shū)》上刊出黃梅同志的《瑪麗們的命運(yùn)》”那句話,以“黃梅
女人與小說(shuō)”為關(guān)鍵詞,GOOGLE是搜索不到黃梅的文章的。20年的讀書(shū)雜志,GOOGLE能搜索的,不過(guò)是每期前面三分之一左右的內(nèi)容。
現(xiàn)在已經(jīng)找到了“雜談之四”,網(wǎng)址http://tiger.berkeley.edu/wdluo/reading/vol-106中的vol-106肯定是總期數(shù),可以用直接增加或減少期數(shù)的辦法來(lái)尋找其他各篇,也可以先找總目錄。返回上一級(jí)地址http://tiger.berkeley.edu/wdluo/reading/點(diǎn)一下Parent
Directory,我們知道這是在加州大學(xué)伯克萊分校上過(guò)學(xué)的Weidong
Luo的個(gè)人網(wǎng)頁(yè),點(diǎn)一下contents,噢,找到了《讀書(shū)》雜志的總目錄,這個(gè)頁(yè)面也夠長(zhǎng)的,看著眼暈,用IE的“編輯”--“查找”(在當(dāng)前頁(yè))”或直接CTRL+F,查不到?呵,那是因?yàn)樽髡呙种虚g有空格,那就用“女人與小說(shuō)”查吧。找到了87年第6期(總第99期)、87年第8期(總第101期)、87年第10期(總第103期)、88年第1期(總第106期)。返回http://tiger.berkeley.edu/wdluo/reading/,按總期數(shù)找到黃梅的《女人與小說(shuō)》四篇文章。如果以后還需要查1979-98年《讀書(shū)》雜志的文章,就收藏這個(gè)網(wǎng)址吧,順便把contents另存為文本文件,下次再找就用不著GOOGLE了。
搜索專家Gary Price說(shuō)搜索引擎AllTheWeb的SPIDER爬進(jìn)能力特別強(qiáng),“Unlike
Google and AltaVista, this search engine does not have a limit
on the amount of content crawled on a Web page.”,我們可以測(cè)試一下。在http://www.alltheweb.com中查詢“黃梅
女人與小說(shuō)”,找到2個(gè)網(wǎng)頁(yè),全是Berkeley的,《讀書(shū)》雜志總第99期、106期,標(biāo)記的文本大小都是125KB,實(shí)際上這兩個(gè)網(wǎng)頁(yè)的文本內(nèi)容是290K和266K。
最后的結(jié)論是:GOOGLE的SPIDER最多能爬110K的文本,AllTheWeb這方面的能力稍強(qiáng)一點(diǎn)點(diǎn),專家Price王婆賣瓜式的所謂Priceless
Tips也有不靠譜的胡言亂語(yǔ)。
Gary Price的網(wǎng)站
http://www.searchengineshowdown.com/
Web Search Engines FAQS: Questions, Answers, and Issues by Gary
Price
http://www.infotoday.com/searcher/oct01/price.htm
本例寫(xiě)作過(guò)程中,參閱過(guò)季米的貼子《如何查詢網(wǎng)上《讀書(shū)》二十年的文章?》。
http://www.softto.com.cn/books/detail.asp?BBS_ID=822092
|