怎樣利用互聯網學習和研究
|
|||||||||||||||||||||||
http://www.haveco.cn 作者:朱穎 2004年5月24日 來源:天極網絡專區 |
|||||||||||||||||||||||
|
|||||||||||||||||||||||
|
|||||||||||||||||||||||
全世界的人們在互聯網上就無數論題提供了海量信息。在互聯網上,用戶可以訪問到大量信息:大量的信息資源,電子郵件,文件傳輸,興趣小組成員,交互式協作,多媒體展示等等。互聯上包含多種連接協議。這些協議包括e-mail,
FTP, HTTP, Telnet和 Usenet新聞。 多數協議都有配套的支持程序,可讓用戶搜索和存取信息資源。
> 要了解互聯網訪問協議的背景知識,請參見《了解互聯網》。 互聯網并不是一個其中所有的資源已經分門別類,且可以從目錄中檢索的圖書館。
事實上,沒有人了解互聯網上有多少個文件。這個數字至少有數十億,且正在快速增長。
互聯網是一個自我發布的媒體。這意味著任何人只要有一些技能,就可以在互聯網上的一臺主機上發布信息。在你進行研究,尋找站點的時候,重要的是要記住這點。互聯網站點的內容可根據創建者的喜好和承諾,隨著時間可能會有改變。有些站點介紹專家領域的知識,而有些站點則是業余愛好者的天堂。有些站點也許會每天更新,而有些站點則是老面孔。對于這些資源,要評估所找到的信息的重要性。 注意互聯網的地址經常會有變化,有的網站會消失掉。不要指望互聯網是穩固不變的。 在互聯網上開展研究的一個最為有效的方法就是使用全球網(WWW)。因為該網絡包含了最重要的互聯網協議,全球網提供了互聯網上的大部分信息。 在互聯網上如何尋找信息 要在互聯網上獲得信息有不少基本方法: 1 如果有網址,直接訪問該網站 2瀏覽 3探索一個主題目錄 4使用網絡搜索引擎進行搜索 5在Web上的數據庫中檢索信息,即所謂的“深度Web” 6 加入 e-mail討論組或者 Usenet新聞組 下面將詳細介紹上面的每一個方法。 1. 如果有網址,就直接訪問該網站 如果你知道要訪問的網站的網址,可以使用 Web瀏覽器來訪問該站點。需要的是在地址窗口輸入該URL。URL代表統一資源定位符( Uniform Resource Locator)。 URL指明了對應的電子文檔的互聯網地址。互聯網上的每個文件,無論其訪問協議是什么,都有一個獨一無二的URL。 Web瀏覽器使用 URL來存取主機目錄中的文件。該文件隨之顯示在用戶計算機的屏幕上。 URL的格式為 protocol://host/path/filename 例如: http://www.yesky.com/ServerIndex/77131840200114176/index.shtml ——Web中的一個超文本文件 ftp://ftp.uu.net/graphics/picasso —— 一個FTP站點中的文件 telnet://www.mysite.com —— 一個Telnet連接 可以在Web瀏覽器的地址窗口進行輸入上面這些地址。 2. 瀏覽 瀏覽Web主頁可以找到有用的信息,這個方法雖然有趣但不常見。 因為鏈接是由主頁的創建者設定的,你不會預先知道這些鏈接會連接到哪里。質量高的起始頁面通常包含高質量的鏈接。大學圖書館的網站就包含了鏈接到Web中的好的鏈接,這是你開始探索的好地方。 3.探索主題目錄 越來越多的大學,圖書館,公司,機構,甚至志愿者正在創建主題目錄,以便對互聯網上部分信息進行分類。這些目錄按著主題分類,包含著同這些主題相關的互聯網資源的鏈接。Web上的主題目錄存儲在有重復但各不相同的數據庫中。大多數主題目錄提供搜索功能,可以讓用戶根據需要查詢數據庫。 何時使用主題目錄?對于一般的,需要探索的論題,以及供用戶瀏覽的論題,主題目錄是有用的。 有兩種基本類型的主題目錄:學術和專業目錄通常由行業專家創建和維護,以便為研究服務,而商業門戶網站中包含的目錄通常是為了滿足普通大眾的需要,且為了吸引用戶的訪問量。你需要判斷有關主題目錄是否適合你的需要。 位于美國加州大學的INFOMINE,就是一個學術性的主題目錄的范例。 Yahoo就是一個最著名的商業門戶的例子 不同的主題目錄在內容選擇方面,差別很大。例如著名的Yahoo在添加網頁到其數據庫中時,對于用戶提交的內容并不作仔細審核。因此它不是一個可靠的研究資源,且不應該用作研究。而INFOMINE僅選擇對于學術和研究團體有用的資源。需要考慮到你所訪問的目錄的搜集策略。對于這個問題的一個挑戰是:不是所有的目錄服務供應者都愿意披露其搜集策略,同樣他們也不愿意透露對其網站進行評論的人的身份和資質。不少主題目錄包含描述或者評估網站內容的注解的鏈接。來自知名評論人士的質量好的注解比諸如Yahoo! 這樣的由網站創建者寫的注解更有價值。 某些目錄是多年來的人們的智力勞動成果的結晶,了解這一點是有用的。所以,當在Web上開展研究時,查詢主題目錄是很重要的。 建議: 如果你打算查找大量的資源,可以試一試 圖書館的互聯網索引 。由美國聯邦政府支持的該索引,搜集了大量的加州圖書館的資源,以及對大量論題的網絡資源的注解。 經過精心的和細致的搜集整理,加上其客觀的富有價值的注解,以及層次化的組織,使得該索引成為“知識界的 Yahoo”。 WWW虛擬圖書館是網絡上最久遠的,也是最令人動心的主題了。其目錄包含了單個的主題的集合,其中不少主題是由位于全球的大學來維護的。 INFOMINE 是一個由加州大學維護的大型學術網站目錄,該目錄可以通過主題,關鍵字,或者標題來瀏覽。對于每個列出的網站都有描述。 4. 使用Web搜索引擎,開展研究 一個互聯網搜索引擎可以讓用戶輸入同論題相關的關鍵字,查到包含相關信息的網站。有多種支持各種互聯網協議的搜索引擎。例如,Archie用于搜索存儲在匿名FTP網站中的文件。 目前,Web本身已經成為互聯網環境的首選,位于Web中的搜索引擎越來越受到歡迎。Web搜索引擎能夠提供位于互聯網中的大量網站的信息。不少搜索引擎匯集了多種互聯網協議的數據庫,包括HTTP, FTP和Usenet。它們也能夠在Web中深入搜索到多媒體或者其他類型的文件,且可進行單項搜索。雖然Web搜索引擎主要由私營公司開發,但其中的大多數是免費的。 一個Web搜索引擎包含三個部分: 爬蟲:能夠從一個鏈接到另外一個鏈接,遍歷網絡,且識別和閱讀網頁的程序。 注意爬蟲程序是不加選擇地進行遍歷的,要知道一些搜集到的資源可能是過時的,不準確或者不完整的。剔除這些不準確的資源,其他的查到的資源當然是有根有據的和有價值的。需要仔細評估所有的搜索結果。 大多數搜索引擎使用時,是在搜索項中填寫表格,之后請求搜索。該搜索引擎查詢其索引,之后生成一個包含你的搜索項的部分或者全部內容的鏈接資源的頁面。這些資源列表的排列通常是有次序的,對于搜索內容的打分比較曾經是個流行的方法,如果你的搜索項在一個文檔中(包括在文檔的標題中,在文檔的開始,在文檔的結束位置等)出現的次數越多,那么該文檔在就在搜索結果列表中就越處于開始的地位。 這類引擎被認為是第一代搜索引擎。 在搜索引擎技術中更為復雜的一項技術是根據概念,關鍵字,網址,鏈接或者流行度來對搜索結果排序。支持這些功能的搜索引擎被認為是第二代搜索引擎。這些搜索引擎對排序結果進行了改進。這是因為在決定相關度的時候,需要加上人為因素。例如,Google根據鏈接到其他頁面的網頁的排序得分對搜索結果進行排序。 如果有其他得分高的頁面鏈接到該頁面,那么該頁面的得分就高。這個策略結合了技術和人為的判斷。 所有的搜索引擎都有查尋規則。在開始搜索之前,你需要閱讀幫助文件,在線教程也可以幫助你學會這些規則。本文的最后列出了一些推薦教程。 建議: 從Google開始。這是個著名的第二代搜索引擎,其頁面的排序是基于熱門網頁鏈接到的數量來決定的。包含這些鏈接的網頁越熱門,該頁面的排列位置越靠前。這些熱門網頁的排列位置同樣也是這樣確定的。 這里用到的思想是:高質量的網頁可以通過另外一個高質量的網頁的鏈接找到。Google在市場上大獲成功,這就是該排序理念的見證。 另外一個有趣的鏈接排序引擎是Teoma。該搜索工具把搜索結果組成為三個部分:按照得分高低排序的網頁列表,專家給出的相關網站的鏈接, 以及基于論題關鍵字的概念分類。這些分類是動態生成的,可以細化你的搜索結果。排序同Google有些不同,Teoma在搜索論題時,在同一類別中來對網頁排序。 它們被稱為“特定主題的流行度”。 如果你的論題不太明確,或者你打算一次用一個搜索語句獲得多個搜索引擎的結果,那么Ixquick 是個好去處。該服務同時使用多個搜索工具,并返回剔除了重復頁面的搜索結果。這種搜索處理稱為元搜索。值得一提的是:Ixquick在源搜索服務中,僅僅返回最靠前的10個相關結果。這就意味著你一次可以使用多個搜索引擎來查詢。其他推薦的元搜索引擎包括 Vivisimo和ProFusion。 5. 探索“深度Web” “深度”或者“不可見”Web的概念近來開始浮現,這是指存儲在Web數據庫中的,但搜索引擎訪問不到的內容。換句話說,對于搜索引擎來說是“不可見”的。不同于檢索靜態頁面,爬蟲程序無法進入到數據庫中檢索內容,以往,這些數據庫數量少,被稱為專門數據庫,主題數據庫等。 在不可見Web中訪問信息的最好方法是搜索這些數據庫,這些數據庫包羅萬象,從學術資源到商業信息。近來,動態生成的信息很可能是存儲在數據庫中,包括新聞,求職信息,飛機航班信息等等。隨著通過Web訪問的數據庫數量的增加,通過數據庫來在Web上尋找信息將成為主流。 其他未被爬蟲搜集的內容包括非文本文件,諸如多媒體文件,圖像文件,以及象PDF這樣的非標準格式文件。Google對此是個例外,它可以檢索到PDF, Word和其他文檔。 注意:不少搜索引擎網站以及商業門戶網站把能夠搜索深度Web作為其服務項目之一,這種內容匯集是大勢所趨。例如,你可以訪問AltaVista,查找新聞,地圖,職位信息,拍賣,購物信息等等,所有這些都處于爬蟲程序搜索的范圍之外,另外一個例子,Google把 PDF和Microsoft Office文件的檢索功能集成到其通用搜索服務中。 此處列舉了一些能夠搜索深度Web的網站: The Invisible Web 擁有超過10,000個數據庫的目錄,可以搜索你所需要的數據庫 Invisible-web.net 尤其適合于研究人員,擁有高質量的數據庫 Search.Com 來自CNET的數十個基于論題的數據庫 6. 加入電子郵件討論組或者USENET新聞組 加入數以千計的電子郵件討論組或者Usenet新聞組。這些討論組涵蓋了大量論題。你可以提出專業問題且能夠得到來自其他人的回答。加入這些組之后,你每天就會收到一份你所感興趣的論題的新聞簡報。在互聯網上,這些討論組提供了一個很好的途徑來跟蹤你的專業課題。另外,討論組可以幫助你找到你需要的信息,無論是在線的和離線的。 有一些學術機構的電子郵件討論組,不少論題是關于自然科學的,如果在參與者中找到一些專家是不奇怪的,Usenet新聞組涵蓋的論題的范圍更廣,參與者中有不少專業人士。對于任何論壇中的觀點和信息要小心評估。也要注意一小部分電子郵件討論組也發布到Usenet新聞組。例如,早期音樂電子郵件組EARLYM-L也存在于新聞組 rec.music.early。 電子郵件討論組由軟件程序管理,常見的程序有三種:Listserv, Majordomo和Listproc。使用這些程序的命令類似。 新聞組列表可以通過新聞閱讀程序訪問,諸如Netscape Communicator 這樣的Web瀏覽器也包含新聞閱讀器。這就可以在圖形環境下方便地訪問Usenet。 有一個很好的,基于Web的目錄可以幫助找到電子郵件討論組和Usenet新聞組,這就是Tilen.et, 網址為: http://tile.net/. WEB搜索引擎實戰 如何形成查詢語句 進行數據庫搜索需要進行三個步驟: 1明確你的概念 當進行數據庫搜索時,你需要把你的論題分解成幾個部分,例如,如果你打算尋找美國總統布什和民主黨之間的預算協定的信息, 這里有三個概念:布什,民主黨,預算。 2對于每個概念,列出關鍵字 一旦明確了概念,就需要列出描述每個概念的關鍵字,一些概念也許只有一個關鍵字,其他一些概念則可能有若干關鍵字。 例如: 布什 民主黨 眾議院發言人 預算 預算協定 預算爭議 預算僵局 預算分配 根據你的搜索重點,也許有其他的關鍵字。 3 在你的關鍵字中明確邏輯關系 一旦明確了進行搜索的關鍵字,就需要建立這些關鍵字之間的邏輯關系。此處正式的名稱是布爾邏輯。布爾邏輯可以通過使用邏輯運算符 AND, OR和 NOT 來明確搜索項之間的關系。
一些搜索引擎可以進行布爾搜索,但沒有顯式用到邏輯運算符。 例如,你被要求列出所有搜索條件,并選擇搜索所有這些條件。這就表示AND邏輯。指明使用其中的任何一個條件,就表示OR邏輯。大多數搜索引擎使用一種隱含的布爾邏輯,其中用符號或者空格來表邏輯關系。例如, +bears +hibernation 表示 AND邏輯。 某些搜索引擎可以使用鄰近度運算符。這是一種規定了源文件中單詞之間的距離的AND邏輯。例如, AltaVista使用NEAR運算符。考慮如下搜索:布什 NEAR預算。在AltaVista中,這兩個單詞在源文件中相距不超過10個單詞。這就可以幫助你在搜索結果中保證了相關度。 大多數Web搜索引擎不能用一個搜索語句處理包含上面步驟2中的所有條件。 你可能需要使用不同的組合來修正的你的搜索,直到找到滿意的結果。例如,你可以從布什,民主黨,預算協定開始,用AND邏輯連接這些條件。看看你的搜索結果,如果找不到,,用預算概念中的替換關鍵字重復上述過程。根據一開始的搜索結果,來看看需要添加哪些新搜索項。 要了解更多規范化搜索的信息,請參見互聯網上的布爾搜索。 進行搜索的11條技巧 1在每個搜索網站上閱讀指南,搜索的技巧取決于你使用的搜索引擎。在不同的搜索引擎中有大量選項。 2如果你進行多項條件的搜索,要清楚使用的布爾邏輯類型。例如,關于緯度和溫度的關系的搜索在不少Web搜索引擎上可以組合成: +緯度 +溫度,采用邏輯AND。 3 采用邏輯OR時,在搜索語句中包含同義詞或替代詞。 4 檢查拼寫。 5 如果搜索引擎區分大小寫,利用大寫的好處。 6 如不滿意搜索結果,用替代詞語再次搜索。 7 嘗試從不同的信息源,進行搜索,以便獲得多種結果。信息源包括 Usenet新聞組,互聯網FAQ,目錄中的評論頁面等等。 8 嘗試不同的搜索引擎,沒有兩個搜索引擎在同一索引中檢索。 9 嘗試可以同時啟動多個搜索引擎的搜索引擎。注意你將失去高級查詢選項功能,因為不是所有引擎都支持同一種查詢格式。 10 如果得到的搜索結果太多,或得到不相關的結果:
|
|||||||||||||||||||||||
|
|||||||||||||||||||||||
|
|||||||||||||||||||||||
|
|
Copyright © 2003 SoWang.com.All
Rights Reserved
中文搜索引擎指南網
版權所有