<pre id="vvttv"><mark id="vvttv"><progress id="vvttv"></progress></mark></pre>
    <pre id="vvttv"></pre>

      <p id="vvttv"></p>

          <p id="vvttv"></p>

                <p id="vvttv"></p>

                <pre id="vvttv"><cite id="vvttv"><progress id="vvttv"></progress></cite></pre>

                  <output id="vvttv"><dfn id="vvttv"><th id="vvttv"></th></dfn></output>

                    <p id="vvttv"></p>

                    第 10 章 腳本和流

                    10.1. 抽象輸入源

                    Python 的最強大力量之一是它的動態綁定,而動態綁定最強大的用法之一是類文件(file-like)對象

                    許多需要輸入源的函數可以只接收一個文件名,并以讀方式打開文件,讀取文件,處理完成后關閉它。其實它們不是這樣的,而是接收一個類文件對象

                    在最簡單的例子中,類文件對象 是任意一個帶有 read 方法的對象,這個方法帶有一個可選的 size 參數,并返回一個字符串。調用時如果沒有 size 參數,它從輸入源中讀取所有東西并將所有數據作為單個字符串返回;調用時如果指定了 size 參數,它將從輸入源中讀取 size 大小的數據并返回這些數據;再次調用的時候,它從余下的地方開始并返回下一塊數據。

                    這就是從真實文件讀取數據的工作方式;區別在于你不用把自己局限于真實的文件。輸入源可以是任何東西:磁盤上的文件,甚至是一個硬編碼的字符串。只要你將一個類文件對象傳遞給函數,函數只是調用對象的 read 方法,就可以處理任何類型的輸入源,而不需要為處理每種類型分別編碼。

                    你可能會納悶,這和 XML 處理有什么關系。其實 minidom.parse 就是一個可以接收類文件對象的函數。

                    例 10.1. 從文件中解析 XML

                    >>> from xml.dom import minidom
                    >>> fsock = open('binary.xml')    1
                    >>> xmldoc = minidom.parse(fsock) 2
                    >>> fsock.close()                 3
                    >>> print xmldoc.toxml()          4
                    <?xml version="1.0" ?>
                    <grammar>
                    <ref id="bit">
                      <p>0</p>
                      <p>1</p>
                    </ref>
                    <ref id="byte">
                      <p><xref id="bit"/><xref id="bit"/><xref id="bit"/><xref id="bit"/>\
                    <xref id="bit"/><xref id="bit"/><xref id="bit"/><xref id="bit"/></p>
                    </ref>
                    </grammar>
                    1 首先,你要打開一個磁盤上的文件。這會提供給你一個文件對象
                    2 將文件對象傳遞給 minidom.parse,它調用 fsockread 方法并從磁盤上的文件讀取 XML 文檔。
                    3 確保處理完文件后調用 close 方法。minidom.parse不會替你做這件事。
                    4 在返回的 XML 文檔上調用 toxml() 方法,打印出整個文檔的內容。

                    哦,所有這些看上去像是在浪費大量的時間。畢竟,你已經看到,minidom.parse 可以只接收文件名,并自動執行所有打開文件和關閉無用文件的行為。不錯,如果你知道正要解析的是一個本地文件,你可以傳遞文件名而且 minidom.parse 可以足夠聰明地做正確的事情 (Do The Right Thing?[10]),這一切都不會有問題。但是請注意,使用類文件,會使分析直接從 Internet 上來的 XML 文檔變得多么相似和容易!

                    例 10.2. 解析來自 URLXML

                    >>> import urllib
                    >>> usock = urllib.urlopen('http://slashdot.org/slashdot.rdf') 1
                    >>> xmldoc = minidom.parse(usock)                              2
                    >>> usock.close()                                              3
                    >>> print xmldoc.toxml()                                       4
                    <?xml version="1.0" ?>
                    <rdf:RDF xmlns="http://my.netscape.com/rdf/simple/0.9/"
                     xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#">
                    
                    <channel>
                    <title>Slashdot</title>
                    <link>http://slashdot.org/</link>
                    <description>News for nerds, stuff that matters</description>
                    </channel>
                    
                    <image>
                    <title>Slashdot</title>
                    <url>http://images.slashdot.org/topics/topicslashdot.gif</url>
                    <link>http://slashdot.org/</link>
                    </image>
                    
                    <item>
                    <title>To HDTV or Not to HDTV?</title>
                    <link>http://slashdot.org/article.pl?sid=01/12/28/0421241</link>
                    </item>
                    
                    [...snip...]
                    1 正如在前一章中所看到的,urlopen 接收一個 web 頁面的 URL 作為參數并返回一個類文件對象。最重要的是,這個對象有一個 read 方法,它可以返回 web 頁面的 HTML 源代碼。
                    2 現在把類文件對象傳遞給 minidom.parse,它順從地調用對象的 read 方法并解析 read 方法返回的 XML 數據。這與 XML 數據現在直接來源于 web 頁面的事實毫不相干。minidom.parse 并不知道 web 頁面,它也不關心 web 頁面;它只知道類文件對象。
                    3 到這里已經處理完畢了,確保將 urlopen 提供給你的類文件對象關閉。
                    4 順便提一句,這個 URL 是真實的,它真的是一個 XML。它是 Slashdot 站點 (一個技術新聞和隨筆站點) 上當前新聞提要的 XML 表示。

                    例 10.3. 解析字符串 XML (容易但不靈活的方式)

                    >>> contents = "<grammar><ref id='bit'><p>0</p><p>1</p></ref></grammar>"
                    >>> xmldoc = minidom.parseString(contents) 1
                    >>> print xmldoc.toxml()
                    <?xml version="1.0" ?>
                    <grammar><ref id="bit"><p>0</p><p>1</p></ref></grammar>
                    1 minidom 有一個方法,parseString,它接收一個字符串形式的完整 XML 文檔作為參數并解析這個參數。如果你已經將整個 XML 文檔放入一個字符串,你可以使用它代替 minidom.parse

                    好吧,所以你可以使用 minidom.parse 函數來解析本地文件和遠端 URL,但對于解析字符串,你使用……另一個函數。這就是說,如果你要從文件、URL 或者字符串接收輸入,就需要特別的邏輯來判斷參數是否是字符串,然后調用 parseString。多不讓人滿意。

                    如果有一個方法可以把字符串轉換成類文件對象,那么你只要這個對象傳遞給 minidom.parse 就可以了。事實上,有一個模塊專門設計用來做這件事:StringIO

                    例 10.4. StringIO 介紹

                    >>> contents = "<grammar><ref id='bit'><p>0</p><p>1</p></ref></grammar>"
                    >>> import StringIO
                    >>> ssock = StringIO.StringIO(contents)   1
                    >>> ssock.read()                          2
                    "<grammar><ref id='bit'><p>0</p><p>1</p></ref></grammar>"
                    >>> ssock.read()                          3
                    ''
                    >>> ssock.seek(0)                         4
                    >>> ssock.read(15)                        5
                    '<grammar><ref i'
                    >>> ssock.read(15)
                    "d='bit'><p>0</p"
                    >>> ssock.read()
                    '><p>1</p></ref></grammar>'
                    >>> ssock.close()                         6
                    1 StringIO 模塊只包含了一個類,也叫 StringIO,它允許你將一個字符串轉換為一個類文件對象。 StringIO 類在創建實例時接收字符串作為參數。
                    2 現在你有了一個類文件對象,你可用它做類文件的所有事情。比如 read 可以返回原始字符串。
                    3 再次調用 read 返回空字符串。真實文件對象的工作方式也是這樣的;一旦你讀取了整個文件,如果不顯式定位到文件的開始位置,就不可能讀取到任何其他數據。StringIO 對象以相同的方式進行工作。
                    4 使用 StringIO 對象的 seek 方法,你可以顯式地定位到字符串的開始位置,就像在文件中定位一樣。
                    5 將一個 size 參數傳遞給 read 方法,你還可以以塊的形式讀取字符串。
                    6 任何時候,read 都將返回字符串的未讀部分。所有這些嚴格地按文件對象的方式工作;這就是術語類文件對象 的來歷。

                    例 10.5. 解析字符串 XML (類文件對象方式)

                    >>> contents = "<grammar><ref id='bit'><p>0</p><p>1</p></ref></grammar>"
                    >>> ssock = StringIO.StringIO(contents)
                    >>> xmldoc = minidom.parse(ssock) 1
                    >>> ssock.close()
                    >>> print xmldoc.toxml()
                    <?xml version="1.0" ?>
                    <grammar><ref id="bit"><p>0</p><p>1</p></ref></grammar>
                    1 現在你可以把類文件對象 (實際是一個 StringIO) 傳遞給 minidom.parse,它將調用對象的 read 方法并高興地開始解析,絕不會知道它的輸入源自一個硬編碼的字符串。

                    那么現在你知道了如何使用同一個函數,minidom.parse,來解析一個保存在 web 頁面上、本地文件中或硬編碼字符串中的 XML 文檔。對于一個 web 頁面,使用 urlopen 得到類文件對象;對于本地文件,使用 open;對于字符串,使用 StringIO。現在讓我們進一步并歸納一下這些 不同。

                    例 10.6. openAnything

                    
                    def openAnything(source):                  1
                        # try to open with urllib (if source is http, ftp, or file URL)
                        import urllib                         
                        try:                                  
                            return urllib.urlopen(source)      2
                        except (IOError, OSError):            
                            pass                              
                    
                        # try to open with native open function (if source is pathname)
                        try:                                  
                            return open(source)                3
                        except (IOError, OSError):            
                            pass                              
                    
                        # treat source as string
                        import StringIO                       
                        return StringIO.StringIO(str(source))  4
                    1 openAnything 函數接受單個參數,source,并返回類文件對象。source 是某種類型的字符串;它可能是一個 URL (例如 'http://slashdot.org/slashdot.rdf'),一個本地文件的完整或者部分路徑名 (例如 'binary.xml'),或者是一個包含了待解析 XML 數據的字符串。
                    2 首先,檢查 source 是否是一個 URL。這里通過強制方式進行:嘗試把它當作一個 URL 打開并靜靜地忽略打開非 URL 引起的錯誤。這樣做非常好,因為如果 urllib 將來支持更多的 URL 類型,不用重新編碼就可以支持它們。如果 urllib 能夠打開 source,那么 return 可以立刻把你踢出函數,下面的 try 語句將不會執行。
                    3 另一方面,如果 urllib 向你呼喊并告訴你 source 不是一個有效的 URL,你假設它是一個磁盤文件的路徑并嘗試打開它。再一次,你不用做任何特別的事來檢查 source 是否是一個有效的文件名 (在不同的平臺上,判斷文件名有效性的規則變化很大,因此不管怎樣做都可能會判斷錯)。反而,只要盲目地打開文件并靜靜地捕獲任何錯誤就可以了。
                    4 到這里,你需要假設 source 是一個其中有硬編碼數據的字符串 (因為沒有別的可以判斷的了),所以你可以使用 StringIO 從中創建一個類文件對象并將它返回。(實際上,由于使用了 str 函數,所以 source 沒有必要一定是字符串;它可以是任何對象,你可以使用它的字符串表示形式,只要定義了它的 __str__ 專用方法。)

                    現在你可以使用這個 openAnything 函數聯合 minidom.parse 構造一個函數,接收一個指向 XML 文檔的 source,而且無需知道這個 source 的含義 (可以是一個 URL 或是一個本地文件名,或是一個硬編碼 XML 文檔的字符串形式),然后解析它。

                    例 10.7. 在 kgp.py 中使用 openAnything

                    
                    class KantGenerator:
                        def _load(self, source):
                            sock = toolbox.openAnything(source)
                            xmldoc = minidom.parse(sock).documentElement
                            sock.close()
                            return xmldoc

                    Footnotes

                    [10] 這是一部著名的電影。――譯注

                      <pre id="vvttv"><mark id="vvttv"><progress id="vvttv"></progress></mark></pre>
                      <pre id="vvttv"></pre>

                        <p id="vvttv"></p>

                            <p id="vvttv"></p>

                                  <p id="vvttv"></p>

                                  <pre id="vvttv"><cite id="vvttv"><progress id="vvttv"></progress></cite></pre>

                                    <output id="vvttv"><dfn id="vvttv"><th id="vvttv"></th></dfn></output>

                                      <p id="vvttv"></p>

                                      这里只有精品视频