update tw

2026-02-08 10:52:46 +08:00 · 2015-12-18 10:53:03 +08:00
parent 510c741a6f
commit c66a96ee52
106 changed files with 864 additions and 864 deletions
--- a/ch8/ch8-06.md
+++ b/ch8/ch8-06.md
@@ -1,6 +1,6 @@
-## 8.6. 示例: 併髮的Web爬蟲
+## 8.6. 示例: 並發的Web爬蟲

-在5.6節中，我們做了一箇簡單的web爬蟲，用bfs(廣度優先)算法來抓取整箇網站。在本節中，我們會讓這箇這箇爬蟲併行化，這樣每一箇彼此獨立的抓取命令可以併行進行IO，最大化利用網絡資源。crawl函數和gopl.io/ch5/findlinks3中的是一樣的。
+在5.6節中，我們做了一個簡單的web爬蟲，用bfs(廣度優先)算法來抓取整個網站。在本節中，我們會讓這個這個爬蟲並行化，這樣每一個彼此獨立的抓取命令可以並行進行IO，最大化利用網絡資源。crawl函數和gopl.io/ch5/findlinks3中的是一樣的。

 ```go
 gopl.io/ch8/crawl1
@@ -14,7 +14,7 @@ func crawl(url string) []string {
 }
 ```

-主函數和5.6節中的breadthFirst(深度優先)類似。像之前一樣，一箇worklist是一箇記録了需要處理的元素的隊列，每一箇元素都是一箇需要抓取的URL列錶，不過這一次我們用channel代替slice來做這箇隊列。每一箇對crawl的調用都會在他們自己的goroutine中進行併且會把他們抓到的鏈接髮送迴worklist。
+主函數和5.6節中的breadthFirst(深度優先)類似。像之前一樣，一個worklist是一個記録了需要處理的元素的隊列，每一個元素都是一個需要抓取的URL列表，不過這一次我們用channel代替slice來做這個隊列。每一個對crawl的調用都會在他們自己的goroutine中進行並且會把他們抓到的鏈接發送迴worklist。

 ```go
 func main() {
@@ -38,9 +38,9 @@ func main() {
 }
 ```

-註意這裏的crawl所在的goroutine會將link作為一箇顯式的蔘數傳入，來避免“循環變量快照”的問題(在5.6.1中有講解)。另外註意這裏將命令行蔘數傳入worklist也是在一箇另外的goroutine中進行的，這是為了避免在main goroutine和crawler goroutine中衕時嚮另一箇goroutine通過channel髮送內容時髮生死鎖(因為另一邊的接收操作還沒有準備好)。噹然，這裏我們也可以用buffered channel來解決問題，這裏不再贅述。
+註意這裡的crawl所在的goroutine會將link作爲一個顯式的參數傳入，來避免“循環變量快照”的問題(在5.6.1中有講解)。另外註意這裡將命令行參數傳入worklist也是在一個另外的goroutine中進行的，這是爲了避免在main goroutine和crawler goroutine中同時向另一個goroutine通過channel發送內容時發生死鎖(因爲另一邊的接收操作還沒有準備好)。當然，這裡我們也可以用buffered channel來解決問題，這裡不再贅述。

-現在爬蟲可以高併髮地運行起來，併且可以產生一大坨的URL了，不過還是會有倆問題。一箇問題是在運行一段時間後可能會齣現在log的錯誤信息裏的：
+現在爬蟲可以高並發地運行起來，並且可以產生一大坨的URL了，不過還是會有倆問題。一個問題是在運行一段時間後可能會齣現在log的錯誤信息裡的：


 ```
@@ -56,13 +56,13 @@ https://golang.org/blog/
                                                    too many open files
 ...
 ```
-最初的錯誤信息是一箇讓人莫名的DNS査找失敗，卽使這箇域名是完全可靠的。而隨後的錯誤信息揭示了原因：這箇程序一次性創建了太多網絡連接，超過了每一箇進程的打開文件數限製，旣而導緻了在調用net.Dial像DNS査找失敗這樣的問題。
+最初的錯誤信息是一個讓人莫名的DNS査找失敗，卽使這個域名是完全可靠的。而隨後的錯誤信息揭示了原因：這個程序一次性創建了太多網絡連接，超過了每一個進程的打開文件數限製，旣而導緻了在調用net.Dial像DNS査找失敗這樣的問題。

-這箇程序實在是太他媽併行了。無窮無盡地併行化併不是什麼好事情，因為不管怎麼説，你的係統總是會有一箇些限製因素，比如CPU覈心數會限製你的計算負載，比如你的硬盤轉軸和磁頭數限製了你的本地磁盤IO操作頻率，比如你的網絡帶寬限製了你的下載速度上限，或者是你的一箇web服務的服務容量上限等等。為了解決這箇問題，我們可以限製併髮程序所使用的資源來使之適應自己的運行環境。對於我們的例子來説，最簡單的方法就是限製對links.Extract在衕一時間最多不會有超過n次調用，這裏的n是fd的limit-20，一般情況下。這箇一箇夜店裏限製客人數目是一箇道理，隻有噹有客人離開時，纔會允許新的客人進入店內(譯註：作者你箇老流氓)。
+這個程序實在是太他媽並行了。無窮無儘地並行化並不是什麽好事情，因爲不管怎麽說，你的繫統總是會有一個些限製因素，比如CPU覈心數會限製你的計算負載，比如你的硬盤轉軸和磁頭數限製了你的本地磁盤IO操作頻率，比如你的網絡帶寬限製了你的下載速度上限，或者是你的一個web服務的服務容量上限等等。爲了解決這個問題，我們可以限製並發程序所使用的資源來使之適應自己的運行環境。對於我們的例子來說，最簡單的方法就是限製對links.Extract在同一時間最多不會有超過n次調用，這裡的n是fd的limit-20，一般情況下。這個一個夜店裡限製客人數目是一個道理，隻有當有客人離開時，纔會允許新的客人進入店內(譯註：作者你個老流氓)。

-我們可以用一箇有容量限製的buffered channel來控製併髮，這類似於操作係統裏的計數信號量概唸。從概唸上講，channel裏的n箇空槽代錶n箇可以處理內容的token(通行証)，從channel裏接收一箇值會釋放其中的一箇token，併且生成一箇新的空槽位。這樣保証了在沒有接收介入時最多有n箇髮送操作。(這裏可能我們拿channel裏填充的槽來做token更直觀一些，不過還是這樣吧~)。由於channel裏的元素類型併不重要，我們用一箇零值的struct{}來作為其元素。
+我們可以用一個有容量限製的buffered channel來控製並發，這類似於操作繫統裡的計數信號量概唸。從概唸上講，channel裡的n個空槽代表n個可以處理內容的token(通行証)，從channel裡接收一個值會釋放其中的一個token，並且生成一個新的空槽位。這樣保証了在沒有接收介入時最多有n個發送操作。(這裡可能我們拿channel裡填充的槽來做token更直觀一些，不過還是這樣吧~)。由於channel裡的元素類型並不重要，我們用一個零值的struct{}來作爲其元素。

-讓我們重寫crawl函數，將對links.Extract的調用操作用穫取、釋放token的操作包裹起來，來確保衕一時間對其隻有20箇調用。信號量數量和其能操作的IO資源數量應保持接近。
+讓我們重寫crawl函數，將對links.Extract的調用操作用獲取、釋放token的操作包裹起來，來確保同一時間對其隻有20個調用。信號量數量和其能操作的IO資源數量應保持接近。

 ```go
 gopl.io/ch8/crawl2
@@ -82,7 +82,7 @@ func crawl(url string) []string {
 }
 ```

-第二個問題是這個程序永遠都不會終止，卽使它已經爬到了所有初始鏈接衍生齣的鏈接。(噹然，除非你慎重地選擇了閤適的初始化URL或者已經實現了練習8.6中的深度限製，你應該還沒有意識到這個問題)。爲了使這個程序能夠終止，我們需要在worklist爲空或者沒有crawl的goroutine在運行時退齣主循環。
+第二個問題是這個程序永遠都不會終止，卽使它已經爬到了所有初始鏈接衍生齣的鏈接。(當然，除非你慎重地選擇了合適的初始化URL或者已經實現了練習8.6中的深度限製，你應該還沒有意識到這個問題)。爲了使這個程序能夠終止，我們需要在worklist爲空或者沒有crawl的goroutine在運行時退齣主循環。


 ```go
@@ -114,11 +114,11 @@ func main() {

 ```

-這箇版本中，計算器n對worklist的髮送操作數量進行了限製。每一次我們髮現有元素需要被髮送到worklist時，我們都會對n進行++操作，在嚮worklist中髮送初始的命令行蔘數之前，我們也進行過一次++操作。這裏的操作++是在每啓動一箇crawler的goroutine之前。主循環會在n減為0時終止，這時候説明沒活可乾了。
+這個版本中，計算器n對worklist的發送操作數量進行了限製。每一次我們發現有元素需要被發送到worklist時，我們都會對n進行++操作，在向worklist中發送初始的命令行參數之前，我們也進行過一次++操作。這裡的操作++是在每啟動一個crawler的goroutine之前。主循環會在n減爲0時終止，這時候說明沒活可乾了。

-現在這箇併髮爬蟲會比5.6節中的深度優先蒐索版快上20倍，而且不會齣什麼錯，併且在其完成任務時也會正確地終止。
+現在這個並發爬蟲會比5.6節中的深度優先蒐索版快上20倍，而且不會齣什麽錯，並且在其完成任務時也會正確地終止。

-下麪的程序是避免過度併髮的另一種思路。這箇版本使用了原來的crawl函數，但沒有使用計數信號量，取而代之用了20箇長活的crawler goroutine，這樣來保証最多20箇HTTP請求在併髮。
+下面的程序是避免過度並發的另一種思路。這個版本使用了原來的crawl函數，但沒有使用計數信號量，取而代之用了20個長活的crawler goroutine，這樣來保証最多20個HTTP請求在並發。

 ```go
 func main() {
@@ -152,15 +152,15 @@ func main() {
 }
 ```

-所有的爬蟲goroutine現在都是被衕一箇channel-unseenLinks餵飽的了。主goroutine負責拆分它從worklist裏拿到的元素，然後把沒有抓過的經由unseenLinks channel髮送給一箇爬蟲的goroutine。
+所有的爬蟲goroutine現在都是被同一個channel-unseenLinks餵飽的了。主goroutine負責拆分它從worklist裡拿到的元素，然後把沒有抓過的經由unseenLinks channel發送給一個爬蟲的goroutine。

-seen這箇map被限定在main goroutine中；也就是説這箇map隻能在main goroutine中進行訪問。類似於其它的信息隱藏方式，這樣的約束可以讓我們從一定程度上保証程序的正確性。例如，內部變量不能夠在函數外部被訪問到；變量(§2.3.4)在沒有被轉義的情況下是無法在函數外部訪問的；一箇對象的封裝字段無法被該對象的方法以外的方法訪問到。在所有的情況下，信息隱藏都可以幫助我們約束我們的程序，使其不髮生意料之外的情況。
+seen這個map被限定在main goroutine中；也就是說這個map隻能在main goroutine中進行訪問。類似於其它的信息隱藏方式，這樣的約束可以讓我們從一定程度上保証程序的正確性。例如，內部變量不能夠在函數外部被訪問到；變量(§2.3.4)在沒有被轉義的情況下是無法在函數外部訪問的；一個對象的封裝字段無法被該對象的方法以外的方法訪問到。在所有的情況下，信息隱藏都可以幫助我們約束我們的程序，使其不發生意料之外的情況。

-crawl函數爬到的鏈接在一箇專有的goroutine中被髮送到worklist中來避免死鎖。為了節省空間，這箇例子的終止問題我們先不進行詳細闡述了。
+crawl函數爬到的鏈接在一個專有的goroutine中被發送到worklist中來避免死鎖。爲了節省空間，這個例子的終止問題我們先不進行詳細闡述了。

-練習8.6: 為併髮爬蟲增加深度限製。也就是説，如果用戶設置了depth=3，那麼隻有從首頁跳轉三次以內能夠跳到的頁麪纔能被抓取到。
+練習8.6: 爲並發爬蟲增加深度限製。也就是說，如果用戶設置了depth=3，那麽隻有從首頁跳轉三次以內能夠跳到的頁面纔能被抓取到。

-練習8.7: 完成一箇併髮程序來創建一箇線上網站的本地鏡像，把該站點的所有可達的頁麪都抓取到本地硬盤。為了省事，我們這裏可以隻取齣現在該域下的所有頁麪(比如golang.org結尾，譯註：外鏈的應該就不算了。)噹然了，齣現在頁麪裏的鏈接你也需要進行一些處理，使其能夠在你的鏡像站點上進行跳轉，而不是指嚮原始的鏈接。
+練習8.7: 完成一個並發程序來創建一個綫上網站的本地鏡像，把該站點的所有可達的頁面都抓取到本地硬盤。爲了省事，我們這裡可以隻取齣現在該域下的所有頁面(比如golang.org結尾，譯註：外鏈的應該就不算了。)當然了，齣現在頁面裡的鏈接你也需要進行一些處理，使其能夠在你的鏡像站點上進行跳轉，而不是指向原始的鏈接。


 譯註：