11.9. 全部放在一起

11.9. 全部放在一起

你已經看到了構造一個智能的 HTTP web 客戶端的所有片斷。現在讓我們看看如何將它們整合到一起。

例 11.17. `openanything` 函數

這個函數定義在 openanything.py 中。


def openAnything(source, etag=None, lastmodified=None, agent=USER_AGENT):
    # non-HTTP code omitted for brevity
    if urlparse.urlparse(source)[0] == 'http':                                       
        # open URL with urllib2                                                     
        request = urllib2.Request(source)                                           
        request.add_header('User-Agent', agent)                                      
        if etag:                                                                    
            request.add_header('If-None-Match', etag)                                
        if lastmodified:                                                            
            request.add_header('If-Modified-Since', lastmodified)                    
        request.add_header('Accept-encoding', 'gzip')                                
        opener = urllib2.build_opener(SmartRedirectHandler(), DefaultErrorHandler()) 
        return opener.open(request)

	`urlparse` 是一個解析 URL 的便捷的工具模塊。它的主要函數也叫 `urlparse`，接受一個 URL 并將其拆分為 tuple (scheme (協議), domain (域名), path (路徑), params (參數), query string parameters (請求字符串參數), fragment identifier (片段效驗符))。當然，你唯一需要注意的就是 scheme，確認你處理的是一個 HTTP URL (`urllib2` 才能處理)。
	通過調用函數使用 `User-Agent` 向 HTTP 服務器確定你的身份。如果沒有 `User-Agent` 被指定，你會使用一個默認的，就是定義在早期的 `openanything.py` 模塊中的那個。你從來不會使用到默認的定義在 `urllib2` 中的那個。
	如果給出了 `ETag`，要在 `If-None-Match` 頭信息中發送它。
	如果給出了最近修改日期，要在 `If-Modified-Since` 頭信息中發送它。
	如果可能要告訴服務器你要獲取壓縮數據。
	使用兩個自定義 URL 處理器創建一個 URL 開啟器：`SmartRedirectHandler` 終于處理 `301` 和 `302` 重定向，而 `DefaultErrorHandler` 用于處理 `304`, `404` 以及其它的錯誤條件。
	就是這樣！打開 URL 并返回一個類文件對象給調用者。

例 11.18. `fetch` 函數

這個函數定義在 openanything.py 中。


def fetch(source, etag=None, last_modified=None, agent=USER_AGENT):  
    '''Fetch data and metadata from a URL, file, stream, or string'''
    result = {}                                                      
    f = openAnything(source, etag, last_modified, agent)              
    result['data'] = f.read()                                         
    if hasattr(f, 'headers'):                                        
        # save ETag, if the server sent one                          
        result['etag'] = f.headers.get('ETag')                        
        # save Last-Modified header, if the server sent one          
        result['lastmodified'] = f.headers.get('Last-Modified')       
        if f.headers.get('content-encoding', '') == 'gzip':           
            # data came back gzip-compressed, decompress it          
            result['data'] = gzip.GzipFile(fileobj=StringIO(result['data']])).read()
    if hasattr(f, 'url'):                                             
        result['url'] = f.url                                        
        result['status'] = 200                                       
    if hasattr(f, 'status'):                                          
        result['status'] = f.status                                  
    f.close()                                                        
    return result

	首先，你用 URL、`ETag` hash、`Last-Modified` 日期和 `User-Agent` 調用 `openAnything` 函數。
	讀取從服務器返回的真實數據。這可能是被壓縮的；如果是，將在后面進行解壓縮。
	保存從服務器返回的 `ETag` hash，這樣主調程序下一次就能把它傳遞給你，然后再傳遞給 `openAnything`，放到 `If-None-Match` 頭信息里發送給遠程服務器。
	也要保存 `Last-Modified` 數據。
	如果服務器說它發送的是壓縮數據，就執行解壓縮。
	如果你的服務器返回一個 URL 就保存它，并在查明之前假定狀態代碼為 `200`。
	如果其中一個自定義 URL 處理器捕獲了一個狀態代碼，也要保存下來。

例 11.19. 使用 `openanything.py`

>>> import openanything
>>> useragent = 'MyHTTPWebServicesApp/1.0'
>>> url = 'http://diveintopython.org/redir/example301.xml'
>>> params = openanything.fetch(url, agent=useragent)              
>>> params                                                         
{'url': 'http://diveintomark.org/xml/atom.xml', 
'lastmodified': 'Thu, 15 Apr 2004 19:45:21 GMT', 
'etag': '"e842a-3e53-55d97640"', 
'status': 301,
'data': '<?xml version="1.0" encoding="iso-8859-1"?>
<feed version="0.3"
<-- rest of data omitted for brevity -->'}
>>> if params['status'] == 301:                                    
...     url = params['url']
>>> newparams = openanything.fetch(
...     url, params['etag'], params['lastmodified'], useragent)    
>>> newparams
{'url': 'http://diveintomark.org/xml/atom.xml', 
'lastmodified': None, 
'etag': '"e842a-3e53-55d97640"', 
'status': 304,
'data': ''}

	第一次獲取資源時，你沒有 `ETag` hash 或 `Last-Modified` 日期，所以你不用使用這些參數。 (它們是可選參數。)
	你獲得了一個 dictionary，它包括幾個有用的頭信息、HTTP 狀態代碼和從服務器返回的真實數據。`openanything` 在內部處理 gzip 壓縮；在本級別上你不必關心它。
	如果你得到一個 `301` 狀態代碼，表示是個永久重定向，你需要把你的 URL 更新為新地址。
	第二次獲取相同的資源時，你已經從以往獲得了各種信息：URL (可能被更新了)、從上一次訪問獲得的 `ETag`、從上一次訪問獲得的 `Last-Modified` 日期，當然還有 `User-Agent`。
	你重新獲取了這個 dictionary，但是數據沒有改變，所以你得到了一個 `304` 狀態代碼而沒有數據。

深入 Python :Dive Into Python 中文版

11.9. 全部放在一起

例 11.17. openanything 函數

例 11.18. fetch 函數

例 11.19. 使用 openanything.py

例 11.17. `openanything` 函數

例 11.18. `fetch` 函數

例 11.19. 使用 `openanything.py`