Keep It Real BLOG

ソフトウェアエンジニア。1児の父。 酒、ラーメン、サッカー好き。旅行も好きですが、普段は出不精で大抵たまプラーザ界隈に居ます。

PythonでXMLパース

f:id:naohide_a:20151202202517j:plain PythonXMLをパースする機会があったので、色々と弄ってみました。

まず、PythonXMLをパースする際には、ElementTreeというライブラリを使用すると簡単そうだったので、こちらを利用して進めました。 使用するデータは、以下のようなものを想定しています。

sample.xml
<?xml version='1.0' encoding='utf-8'?>
<rss xmlns:atom="http://www.w3.org/2005/Atom" version="2.0">
<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E"/>
        <dc:creator>john</dc:creator>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
        <dc:creator>dave</dc:creator>
    </country>
    <country name="Panama">
        <rank>68</rank>
        <year>2011</year>
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <dc:creator>alex</dc:creator>
    </country>
</data>
</rss>

まず、ElementTreeを使用して、xmlをツリー構造化します。

from xml.etree.ElementTree import parse, fromstring
from xml.parsers.expat import ExpatError

# ファイル名を指定する場合
try:
    tree = parse('sample.xml')
except ExpatError:
    self.fail("Unable to parse XML data from string")

# xmlを直接渡す場合
try:
    tree = fromstring('<?xml version="1.0"?>;....')
except ExpatError:
    self.fail("Unable to parse XML data from string")

続いて、ツリー構造化したものの中から、タグを探します。 今回の場合、dataの中にcountryが複数ある為、iterateしています。

for country in tree.find('data').getiterator('country'):
    # タグ内のテキストを取得
    country.find('rank').text
    # 属性値を取得
    country.find('neighbor').attrib['name']
    # prefixの付いた値を取得
    country.find("{http://purl.org/dc/elements/1.1/}" + 'creator').text

また、iterateせず、リストに入れた後に番号を指定して、値を取得する方法もあります。

countries = tree.findall('data/country')

# 上記と同じように
for country in countries:
    # タグ内のテキストを取得
    country.find('rank').text
    # 属性値を取得
    country.find('neighbor').attrib['name']
    # prefixの付いた値を取得
    country.find("{http://purl.org/dc/elements/1.1/}" + 'creator').text

# 番号指定して、リスト内の値取得
countries[1].find('rank').text
countries[1].find('neighbor').attrib['name']

意外と、prefixを用いたdcの値を取得するのが大変でした…。