Como converter uma string xml para um dicionário?


Eu tenho um programa que lê um documento xml de um soquete. Eu tenho o documento xml armazenado em uma string que eu gostaria de converter diretamente em um dicionário Python, da mesma forma que é feito na simplejsonbiblioteca do Django .

Tome como exemplo:

str ="<?xml version="1.0" ?><person><name>john</name><age>20</age></person"
dic_xml = convert_to_dic(str)

Então dic_xmlpareceria{'person' : { 'name' : 'john', 'age' : 20 } }

str tem alguns erros de sintaxe. Tente: str = '<? xml version = "1.0"?> <person> <name> john </name> <age> 20 </age> </person>'
Este é um ótimo módulo que alguém criou. Eu usei várias vezes.

Aqui está o código do site, caso o link não funcione.

from xml.etree import cElementTree as ElementTree

class XmlListConfig(list):
    def __init__(self, aList):
        for element in aList:
            if element:
                # treat like dict
                if len(element) == 1 or element[0].tag != element[1].tag:
                # treat like list
                elif element[0].tag == element[1].tag:
            elif element.text:
                text = element.text.strip()
                if text:

class XmlDictConfig(dict):
    Example usage:

    >>> tree = ElementTree.parse('your_file.xml')
    >>> root = tree.getroot()
    >>> xmldict = XmlDictConfig(root)

    Or, if you want to use an XML string:

    >>> root = ElementTree.XML(xml_string)
    >>> xmldict = XmlDictConfig(root)

    And then use xmldict for what it is... a dict.
    def __init__(self, parent_element):
        if parent_element.items():
        for element in parent_element:
            if element:
                # treat like dict - we assume that if the first two tags
                # in a series are different, then they are all different.
                if len(element) == 1 or element[0].tag != element[1].tag:
                    aDict = XmlDictConfig(element)
                # treat like list - we assume that if the first two tags
                # in a series are the same, then the rest are the same.
                    # here, we put the list in dictionary; the key is the
                    # tag name the list elements all share in common, and
                    # the value is the list itself 
                    aDict = {element[0].tag: XmlListConfig(element)}
                # if the tag has attributes, add those to the dict
                if element.items():
                self.update({element.tag: aDict})
            # this assumes that if you've got an attribute in a tag,
            # you won't be having any text. This may or may not be a 
            # good idea -- time will tell. It works for the way we are
            # currently doing XML configuration files...
            elif element.items():
                self.update({element.tag: dict(element.items())})
            # finally, if there are no child tags and no attributes, extract
            # the text
                self.update({element.tag: element.text})

Exemplo de uso:

tree = ElementTree.parse('your_file.xml')
root = tree.getroot()
xmldict = XmlDictConfig(root)

// Ou, se você deseja usar uma string XML:

root = ElementTree.XML(xml_string)
xmldict = XmlDictConfig(root)

U pode usar 'xmltodict' alternativamente

Eu tentei isso e é muito mais rápido que o xmltodict. Para analisar um arquivo de 80MB xml levou 7s, com xmltodict demorou 90

Confirmado ... Eu não testei isso em todos os casos extremos, mas, para minhas seqüências XML bastante complicadas, isso é bastante rápido (cerca de 8 vezes mais rápido que a xmltodictbiblioteca). A desvantagem é que você deve hospedá-lo no seu projeto.

Oi lá, isso funciona perfeito, vai acrescentar apenas um trecho para aqueles que não conseguem encontrar cElementTree, basta alterar primeira linha para: from xml.etree import cElementTree as ElementTree
Rafael Aguilar

Baixa na votação, pois há respostas melhores postadas abaixo, principalmente no tratamento de várias tags com o mesmo nome.


O xmltodict (divulgação completa: escrevi) faz exatamente isso:

<?xml version="1.0" ?>
# {u'person': {u'age': u'20', u'name': u'john'}}

Este é um módulo fantástico.
você acabou de me poupar muito esforço. Fez o meu dia.

além disso, para futuros googlenauts - pude usar isso no App Engine, que eu acreditava que não funcionava muito bem com a maioria das bibliotecas xml em Python.

O u está apenas indicando que está armazenada uma string unicode. Não afeta o valor da string de forma alguma.
Agradável. E sim, @ypercube, existe uma função xmldict.unparse () para o inverso.


O seguinte trecho XML-para-Python-dict analisa entidades e atributos após esta "especificação" de XML para JSON . É a solução mais geral que lida com todos os casos de XML.

from collections import defaultdict

def etree_to_dict(t):
    d = {t.tag: {} if t.attrib else None}
    children = list(t)
    if children:
        dd = defaultdict(list)
        for dc in map(etree_to_dict, children):
            for k, v in dc.items():
        d = {t.tag: {k:v[0] if len(v) == 1 else v for k, v in dd.items()}}
    if t.attrib:
        d[t.tag].update(('@' + k, v) for k, v in t.attrib.items())
    if t.text:
        text = t.text.strip()
        if children or t.attrib:
            if text:
              d[t.tag]['#text'] = text
            d[t.tag] = text
    return d

É usado:

from xml.etree import cElementTree as ET
e = ET.XML('''
  <e />
  <e name="value" />
  <e name="value">text</e>
  <e> <a>text</a> <b>text</b> </e>
  <e> <a>text</a> <a>text</a> </e>
  <e> text <a>text</a> </e>

from pprint import pprint

A saída deste exemplo (conforme a "especificação" vinculada acima) deve ser:

{'root': {'e': [None,
                {'@name': 'value'},
                {'#text': 'text', '@name': 'value'},
                {'a': 'text', 'b': 'text'},
                {'a': ['text', 'text']},
                {'#text': 'text', 'a': 'text'}]}}

Não necessariamente bonito, mas é inequívoco, e entradas XML mais simples resultam em JSON mais simples. :)


Se você deseja fazer o inverso , emita uma sequência XML de um JSON / dict , você pode usar:

except NameError:  # python3
  basestring = str

def dict_to_etree(d):
    def _to_etree(d, root):
        if not d:
        elif isinstance(d, basestring):
            root.text = d
        elif isinstance(d, dict):
            for k,v in d.items():
                assert isinstance(k, basestring)
                if k.startswith('#'):
                    assert k == '#text' and isinstance(v, basestring)
                    root.text = v
                elif k.startswith('@'):
                    assert isinstance(v, basestring)
                    root.set(k[1:], v)
                elif isinstance(v, list):
                    for e in v:
                        _to_etree(e, ET.SubElement(root, k))
                    _to_etree(v, ET.SubElement(root, k))
            raise TypeError('invalid type: ' + str(type(d)))
    assert isinstance(d, dict) and len(d) == 1
    tag, body = next(iter(d.items()))
    node = ET.Element(tag)
    _to_etree(body, node)
    return ET.tostring(node)


Thx para este código! Informações adicionais: se você usa o python 2.5, não pode usar a compreensão de dicionários, portanto, é necessário alterar a linha d = {t.tag: {k:v[0] if len(v) == 1 else v for k, v in dd.iteritems()}} para d = { t.tag: dict( (k, v[0] if len(v) == 1 else v) for k, v in dd.iteritems() ) }
Eu testei quase 10 snippets / módulos python / etc. para isso. Este é o melhor que eu encontrei. De acordo com meus testes, é: 1) muito mais rápido que (baseado em XML SAX api) 2) melhor que que apresenta alguns pequenos problemas quando várias crianças têm o mesmo nome 3 ) melhor que que também apresentava pequenos problemas e mais importante: 4) código muito mais curto que todos os anteriores! Obrigado @ K3 --- rnc

Essa é, de longe, a resposta mais abrangente e funciona em> 2.6, e é bastante flexível. meu único problema é que o texto pode mudar de onde reside, dependendo de haver ou não um atributo). eu publiquei uma solução ainda menor e mais rígida também.
Erik Aronesty

Se você precisar obter um ditado ordenado de um arquivo XML, use este mesmo exemplo com poucas modificações (veja minha resposta abaixo):…

Isso também é bem bacana e rápido quando usado com cElementTreeou lxml.etree. Observe que, ao usar o Python 3, todos .iteritems()devem ser alterados para .items()(mesmo comportamento, mas a palavra-chave foi alterada de Python 2 para 3).


Esta versão leve, embora não seja configurável, é muito fácil de adaptar, conforme necessário, e funciona em pítons antigos. Também é rígido - o que significa que os resultados são os mesmos, independentemente da existência de atributos.

import xml.etree.ElementTree as ET

from copy import copy

def dictify(r,root=True):
    if root:
        return {r.tag : dictify(r, False)}
    if r.text:
    for x in r.findall("./*"):
        if x.tag not in d:
    return d


root = ET.fromstring("<erik><a x='1'>v</a><a y='2'>w</a></erik>")


Resulta em:

{'erik': {'a': [{'x': '1', '_text': 'v'}, {'y': '2', '_text': 'w'}]}}

Eu gosto desta solução. Simples e não requer bibliotecas externas.


As versões mais recentes das bibliotecas PicklingTools (1.3.0 e 1.3.1) suportam ferramentas para a conversão de XML em um ditado Python.

O download está disponível aqui: PicklingTools 1.3.1

Há bastante documentação para os conversores aqui : a documentação descreve em detalhes todas as decisões e problemas que surgirão ao converter entre dicionários XML e Python (há vários casos extremos: atributos, listas, listas anônimas, anônimas dict, eval etc. que a maioria dos conversores não suporta). Em geral, porém, os conversores são fáceis de usar. Se um 'exemplo.xml' contiver:


Em seguida, para convertê-lo em um dicionário:

>>> from xmlloader import *
>>> example = file('example.xml', 'r')   # A document containing XML
>>> xl = StreamXMLLoader(example, 0)     # 0 = all defaults on operation
>>> result = xl.expect XML()
>>> print result
{'top': {'a': '1', 'c': 'three', 'b': '2.2'}}

Existem ferramentas para converter tanto em C ++ quanto em Python: o C ++ e o Python fazem conversão idêntica, mas o C ++ é cerca de 60x mais rápido

é claro que, se houver 2 a, esse não é um bom formato.
Erik Aronesty

Parece interessante, mas ainda não descobri como os PicklingTools devem ser usados ​​- é apenas um pacote de arquivos de código-fonte dos quais preciso encontrar os corretos para o meu trabalho e copiá-los no meu projeto? Não há módulos para carregar ou algo mais simples?

Eu recebo: em peekIntoNextNWSChar c = .read (1) AttributeError: 'str' objeto não tem nenhum atributo 'read'


Você pode fazer isso facilmente com o lxml. Primeiro instale-o:

[sudo] pip install lxml

Aqui está uma função recursiva que escrevi que faz o trabalho pesado para você:

from lxml import objectify as xml_objectify

def xml_to_dict(xml_str):
    """ Convert xml to dict, using lxml v3.4.2 xml processing library """
    def xml_to_dict_recursion(xml_object):
        dict_object = xml_object.__dict__
        if not dict_object:
            return xml_object
        for key, value in dict_object.items():
            dict_object[key] = xml_to_dict_recursion(value)
        return dict_object
    return xml_to_dict_recursion(xml_objectify.fromstring(xml_str))

xml_string = """<?xml version="1.0" encoding="UTF-8"?><Response><NewOrderResp>

print xml_to_dict(xml_string)

A variante abaixo preserva a chave / elemento pai:

def xml_to_dict(xml_str):
    """ Convert xml to dict, using lxml v3.4.2 xml processing library, see """
    def xml_to_dict_recursion(xml_object):
        dict_object = xml_object.__dict__
        if not dict_object:  # if empty dict returned
            return xml_object
        for key, value in dict_object.items():
            dict_object[key] = xml_to_dict_recursion(value)
        return dict_object
    xml_obj = objectify.fromstring(xml_str)
    return {xml_obj.tag: xml_to_dict_recursion(xml_obj)}

Se você deseja retornar apenas uma subárvore e convertê-la em dict, use Element.find () para obter a subárvore e depois convertê-la:

xml_obj.find('.//')  # lxml.objectify.ObjectifiedElement instance

Veja os documentos do lxml aqui . Eu espero que isso ajude!


Isenção de responsabilidade: este analisador XML modificado foi inspirado em Adam Clark. O analisador XML original funciona na maioria dos casos simples. No entanto, não funcionou para alguns arquivos XML complicados. Eu depurei o código linha por linha e finalmente resolvi alguns problemas. Se você encontrar alguns erros, entre em contato. Fico feliz em corrigi-lo.

class XmlDictConfig(dict):  
    Note: need to add a root into if no exising    
    Example usage:
    >>> tree = ElementTree.parse('your_file.xml')
    >>> root = tree.getroot()
    >>> xmldict = XmlDictConfig(root)
    Or, if you want to use an XML string:
    >>> root = ElementTree.XML(xml_string)
    >>> xmldict = XmlDictConfig(root)
    And then use xmldict for what it is... a dict.
    def __init__(self, parent_element):
        if parent_element.items():
            self.updateShim( dict(parent_element.items()) )
        for element in parent_element:
            if len(element):
                aDict = XmlDictConfig(element)
            #   if element.items():
            #   aDict.updateShim(dict(element.items()))
                self.updateShim({element.tag: aDict})
            elif element.items():    # items() is specialy for attribtes
                elementattrib= element.items()
                if element.text:           
                    elementattrib.append((element.tag,element.text ))     # add tag:text if there exist
                self.updateShim({element.tag: dict(elementattrib)})
                self.updateShim({element.tag: element.text})

    def updateShim (self, aDict ):
        for key in aDict.keys():   # keys() includes tag and attributes
            if key in self:
                value = self.pop(key)
                if type(value) is not list:
                    listOfDicts = []
                    self.update({key: listOfDicts})
                    self.update({key: value})
                self.update({key:aDict[key]})  # it was self.update(aDict)    

def xml_to_dict(node):
    @param node:lxml_node
    @return: dict 

    return {'tag': node.tag, 'text': node.text, 'attrib': node.attrib, 'children': {child.tag: xml_to_dict(child) for child in node}}


O analisador XML mais fácil de usar para Python é o ElementTree (a partir de 2.5x e acima, está na biblioteca padrão xml.etree.ElementTree). Eu não acho que exista algo que faça exatamente o que você deseja fora da caixa. Seria bastante trivial escrever algo para fazer o que você deseja usando o ElementTree, mas por que converter em um dicionário e por que não usar diretamente o ElementTree?


O código de funciona bem, mas se houver vários elementos iguais em um determinado local da hierarquia, apenas os substituirá.

Eu adicionei um calço entre eles para ver se o elemento já existe antes de self.update (). Nesse caso, aparece a entrada existente e cria uma lista a partir da existente e da nova. Quaisquer duplicatas subsequentes são adicionadas à lista.

Não tenho certeza se isso pode ser tratado com mais facilidade, mas funciona:

import xml.etree.ElementTree as ElementTree

class XmlDictConfig(dict):
    def __init__(self, parent_element):
        if parent_element.items():
        for element in parent_element:
            if len(element):
                aDict = XmlDictConfig(element)
                if element.items():
                self.updateShim({element.tag: aDict})
            elif element.items():
                self.updateShim({element.tag: dict(element.items())})
                self.updateShim({element.tag: element.text.strip()})

    def updateShim (self, aDict ):
        for key in aDict.keys():
            if key in self:
                value = self.pop(key)
                if type(value) is not list:
                    listOfDicts = []
                    self.update({key: listOfDicts})

                    self.update({key: value})


Do @ K3 --- resposta rnc (o melhor para mim), adicionamos pequenas modificações para obter um OrderedDict a partir de um texto XML (algumas vezes o pedido é importante):

def etree_to_ordereddict(t):
d = OrderedDict()
d[t.tag] = OrderedDict() if t.attrib else None
children = list(t)
if children:
    dd = OrderedDict()
    for dc in map(etree_to_ordereddict, children):
        for k, v in dc.iteritems():
            if k not in dd:
                dd[k] = list()
    d = OrderedDict()
    d[t.tag] = OrderedDict()
    for k, v in dd.iteritems():
        if len(v) == 1:
            d[t.tag][k] = v[0]
            d[t.tag][k] = v
if t.attrib:
    d[t.tag].update(('@' + k, v) for k, v in t.attrib.iteritems())
if t.text:
    text = t.text.strip()
    if children or t.attrib:
        if text:
            d[t.tag]['#text'] = text
        d[t.tag] = text
return d

Seguindo o exemplo @ K3 --- rnc, você pode usá-lo:

from xml.etree import cElementTree as ET
e = ET.XML('''
  <e />
  <e name="value" />
  <e name="value">text</e>
  <e> <a>text</a> <b>text</b> </e>
  <e> <a>text</a> <a>text</a> </e>
  <e> text <a>text</a> </e>

from pprint import pprint

Espero que ajude ;)


Aqui está um link para uma solução ActiveState - e o código, caso ela desapareça novamente.

from xml.dom.minidom import parse

class NotTextNodeError:

def getTextFromNode(node):
    scans through all children of node and gathers the
    text. if node has non-text child-nodes, then
    NotTextNodeError is raised.
    t = ""
    for n in node.childNodes:
    if n.nodeType == n.TEXT_NODE:
        t += n.nodeValue
        raise NotTextNodeError
    return t

def nodeToDic(node):
    nodeToDic() scans through the children of node and makes a
    dictionary from the content.
    three cases are differentiated:
    - if the node contains no other nodes, it is a text-node
    and {nodeName:text} is merged into the dictionary.
    - if the node has the attribute "method" set to "true",
    then it's children will be appended to a list and this
    list is merged to the dictionary in the form: {nodeName:list}.
    - else, nodeToDic() will call itself recursively on
    the nodes children (merging {nodeName:nodeToDic()} to
    the dictionary).
    dic = {} 
    for n in node.childNodes:
    if n.nodeType != n.ELEMENT_NODE:
    if n.getAttribute("multiple") == "true":
        # node with multiple children:
        # put them in a list
        l = []
        for c in n.childNodes:
            if c.nodeType != n.ELEMENT_NODE:

        text = getTextFromNode(n)
    except NotTextNodeError:
            # 'normal' node

        # text node
    return dic

def readConfig(filename):
    dom = parse(filename)
    return nodeToDic(dom)

def test():
    dic = readConfig("sample.xml")

    print dic["Config"]["Name"]
    for item in dic["Config"]["Items"]:
    print "Item's Name:", item["Name"]
    print "Item's Value:", item["Value"]


<?xml version="1.0" encoding="UTF-8"?>

    <Name>My Config File</Name>

    <Items multiple="true">
        <Name>First Item</Name>
        <Value>Value 1</Value>
        <Name>Second Item</Name>
        <Value>Value 2</Value>


My Config File

Item's Name: First Item
Item's Value: Value 1
Item's Name: Second Item
Item's Value: Value 2

Sim, ele é. Reproduziu o código aqui, caso ele volte a funcionar.
21313 Jamie Bull


Em um ponto, tive que analisar e escrever XML que consistia apenas em elementos sem atributos, para que um mapeamento 1: 1 de XML para ditar fosse possível facilmente. Isso é o que eu vim no caso de alguém também não precisar de atributos:

def xmltodict(element):
    if not isinstance(element, ElementTree.Element):
        raise ValueError("must pass xml.etree.ElementTree.Element object")

    def xmltodict_handler(parent_element):
        result = dict()
        for element in parent_element:
            if len(element):
                obj = xmltodict_handler(element)
                obj = element.text

            if result.get(element.tag):
                if hasattr(result[element.tag], "append"):
                    result[element.tag] = [result[element.tag], obj]
                result[element.tag] = obj
        return result

    return {element.tag: xmltodict_handler(element)}

def dicttoxml(element):
    if not isinstance(element, dict):
        raise ValueError("must pass dict type")
    if len(element) != 1:
        raise ValueError("dict must have exactly one root key")

    def dicttoxml_handler(result, key, value):
        if isinstance(value, list):
            for e in value:
                dicttoxml_handler(result, key, e)
        elif isinstance(value, basestring):
            elem = ElementTree.Element(key)
            elem.text = value
        elif isinstance(value, int) or isinstance(value, float):
            elem = ElementTree.Element(key)
            elem.text = str(value)
        elif value is None:
            res = ElementTree.Element(key)
            for k, v in value.items():
                dicttoxml_handler(res, k, v)

    result = ElementTree.Element(element.keys()[0])
    for key, value in element[element.keys()[0]].items():
        dicttoxml_handler(result, key, value)
    return result

def xmlfiletodict(filename):
    return xmltodict(ElementTree.parse(filename).getroot())

def dicttoxmlfile(element, filename):

def xmlstringtodict(xmlstring):
    return xmltodict(ElementTree.fromstring(xmlstring).getroot())

def dicttoxmlstring(element):
    return ElementTree.tostring(dicttoxml(element))


@dibrovsd: A solução não funcionará se o xml tiver mais de uma tag com o mesmo nome

Na sua linha de pensamento, modifiquei um pouco o código e o escrevi para o nó geral, em vez de raiz:

from collections import defaultdict
def xml2dict(node):
    d, count = defaultdict(list), 1
    for i in node:
        d[i.tag + "_" + str(count)]['text'] = i.findtext('.')[0]
        d[i.tag + "_" + str(count)]['attrib'] = i.attrib # attrib gives the list
        d[i.tag + "_" + str(count)]['children'] = xml2dict(i) # it gives dict
     return d


Modifiquei uma das respostas ao meu gosto e para trabalhar com vários valores com a mesma tag, por exemplo, considere o seguinte código xml salvo no arquivo XML.xml


e em python

import xml.etree.ElementTree as ET

class XMLToDictionary(dict):
    def __init__(self, parentElement):
        self.parentElement = parentElement
        for child in list(parentElement):
            child.text = child.text if (child.text != None) else  ' '
            if len(child) == 0:
                self.update(self._addToDict(key= child.tag, value = child.text.strip(), dict = self))
                innerChild = XMLToDictionary(parentElement=child)
                self.update(self._addToDict(key=innerChild.parentElement.tag, value=innerChild, dict=self))

    def getDict(self):
        return {self.parentElement.tag: self}

    class _addToDict(dict):
        def __init__(self, key, value, dict):
            if not key in dict:
                self.update({key: value})
                identical = dict[key] if type(dict[key]) == list else [dict[key]]
                self.update({key: identical + [value]})

tree = ET.parse('./XML.xml')
root = tree.getroot()
parseredDict = XMLToDictionary(root).getDict()

a saída é

{'A': {'B': [{'BB': 'inAB', 'C': {'D': {'E': ['inABCDE', 'value2', 'value3']}, 'inCout-ofD': '123'}}, 'abc'], 'F': 'F'}}


Eu tenho um método recursivo para obter um dicionário de um elemento lxml

    def recursive_dict(element):
        return (element.tag.split('}')[1],
                dict(map(recursive_dict, element.getchildren()),

Esta solução está faltando algum código, como importação e configuração. Eu tenho o objeto de mensagem 'str' tem nenhum atributo 'tag'
Chris Nielsen
