Script: qual é o mais fácil de extrair um valor em uma tag de um arquivo XML?


14

Quero ler um pom.xml ('Modelo de objeto de projeto' do Maven) e extrair as informações da versão. Aqui está um exemplo:

<?xml version="1.0" encoding="UTF-8"?><project 
xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">

    <modelVersion>4.0.0</modelVersion>
    <groupId>com.mycompany</groupId>
    <artifactId>project-parent</artifactId>
    <name>project-parent</name>
    <version>1.0.74-SNAPSHOT</version>
    <dependencies>
        <dependency>
        <groupId>com.sybase.jconnect</groupId>
        <artifactId>jconnect</artifactId>
        <version>6.05-26023</version>
    </dependency>
    <dependency>
        <groupId>joda-time</groupId>
        <artifactId>joda-time</artifactId>
        <version>1.5.2</version>
    </dependency>
    <dependency>
        <groupId>com.sun.jdmk</groupId>
        <artifactId>jmxtools</artifactId>
        <version>1.2.1</version>
    </dependency>
    <dependency>
        <groupId>org.easymock</groupId>
        <artifactId>easymock</artifactId>
        <version>2.4</version>
    </dependency>       
</dependencies>
</project>

Como posso extrair a versão '1.0.74-SNAPSHOT' de cima?

Gostaria de poder fazer isso usando scripts simples do bash sed ou awk. Caso contrário, um python simples é o preferido.

EDITAR

  1. Limitação

    A caixa do linux está em um ambiente corporativo, portanto, só posso usar ferramentas que já estão instaladas (não que eu não possa solicitar utilitários como o xml2, mas preciso passar por muita burocracia). Algumas das soluções são muito boas (já aprendem alguns truques novos), mas podem não ser aplicáveis ​​devido ao ambiente restrito

  2. lista xml atualizada

    Adicionei a tag de dependências à listagem original. Isso mostrará que alguma solução hacky pode não funcionar neste caso

  3. Distro

    A distribuição que estou usando é RHEL4



Na verdade não. Há muitas tags de versão no xml (por exemplo, na tag dependencies). Eu só quero '/ project / version'
Anthony Kong

Quais ferramentas e bibliotecas relacionadas a xml estão disponíveis? As soluções baseadas em jvm estão OK?
Vi.

Até agora, posso dizer que o módulo XML xml2, xmlgrep e perl não está presente. A maioria dos utilitários de linha de comando unix está presente. A distro é Redhat EL 4. #
Anthony Kong

(Não foi possível adicionar um comentário, por isso tenho que responder como resposta, exagerar um pouco) Algumas ótimas respostas podem ser encontradas aqui ..... stackoverflow.com/questions/2735548/…
JStrahl

Respostas:


17

xml2 pode converter xml para / de formato orientado a linhas:

xml2 < pom.xml  | grep /project/version= | sed 's/.*=//'

6

Outra maneira: xmlgrep e XPath:

xmlgrep --text_only '/project/version' pom.xml

Desvantagem: lenta


comando atualizado paraxml_grep
GAD3R

6

Usando python

$ python -c 'from xml.etree.ElementTree import ElementTree; print ElementTree(file="pom.xml").findtext("{http://maven.apache.org/POM/4.0.0}version")'
1.0.74-SNAPSHOT

Usando xmlstarlet

$ xml sel -N x="http://maven.apache.org/POM/4.0.0" -t -m 'x:project/x:version' -v . pom.xml
1.0.74-SNAPSHOT

Usando xmllint

$ echo -e 'setns x=http://maven.apache.org/POM/4.0.0\ncat /x:project/x:version/text()' | xmllint --shell pom.xml | grep -v /
1.0.74-SNAPSHOT

cat (//x:version)[1]/text()ao usar xmllinttambém funciona!
Kev

5

Maneira Clojure. Requer apenas jvm com arquivo jar especial:

java -cp clojure.jar clojure.main -e "(use 'clojure.xml) (->> (java.io.File. \"pom.xml\") (clojure.xml/parse) (:content) (filter #(= (:tag %) :version)) (first) (:content) (first) (println))"

Maneira Scala:

java -Xbootclasspath/a:scala-library.jar -cp scala-compiler.jar scala.tools.nsc.MainGenericRunner -e 'import scala.xml._; println((XML.load(new java.io.FileInputStream("pom.xml")) match { case <project>{children @ _*}</project> => for (i <- children if (i  match { case <version>{children @ _*}</version> => true; case _ => false;  }))  yield i })(0) match { case <version>{Text(x)}</version> => x })'

Maneira Groovy:

java -classpath groovy-all.jar groovy.ui.GroovyMain -e 'println (new XmlParser().parse(new File("pom.xml")).value().findAll({ it.name().getLocalPart()=="version" }).first().value().first())'

Isso é incrível! Boa ideia!
Anthony Kong

4

Aqui está uma alternativa no Perl

$ perl -MXML::Simple -e'print XMLin("pom.xml")->{version}."\n"'
1.0.74-SNAPSHOT

Ele trabalha com o exemplo revisado / estendido nas perguntas que possuem vários elementos de "versão" em diferentes profundidades.


Lento (embora mais rápido que o xmlgrep)
Vi.

3

Maneira Hacky :

perl -e '$_ = join "", <>; m!<project[^>]*>.*\n(?:    |\t)<version[^>]*>\s*([^<]+?)\s*</version>.*</project>!s and print "$1\n"' pom.xml

Baseia-se no recuo correto dos requisitos <version>


Obrigado pela sugestão, mas infelizmente não retornará o que eu quero. Consulte o modelo pom atualizado.
Anthony Kong

Retorna "1.0.74-SNAPSHOT". Observe que eu mudei o script depois de ler sobre várias <version>coisas.
Vi.

Nota: esta solução é fornecida "apenas por diversão" e não se destina a ser usada no produto real. Melhor usar xml2 / xmlgrep / XML :: Simple solution.
Vi.

Obrigado! mesmo que ele é 'apenas por diversão', mas é provavelmente a solução 'mais adequada', de longe, porque tem número mínimo de dependências: Exige apenas perl ;-)
Anthony Kong

Que tal fazer isso em Java? O uso de arquivos pom implica a instalação da JVM.
Vi.

3

Elabore uma solução de uma linha muito desajeitada

python -c "from xml.dom.minidom import parse;dom = parse('pom.xml');print [n for n in dom.getElementsByTagName('version') if n.parentNode == dom.childNodes[0]][0].toxml()" | sed -e "s/.*>\(.*\)<.*/\1/g"

O sed no final é muito feio, mas não consegui imprimir o texto do nó apenas com mindom.

Atualização de _Vi :

Versão Python menos hacky:

python -c "from xml.dom.minidom import parse;dom = parse('pom.xml');print [i.childNodes.item(0).nodeValue for i in dom.firstChild.childNodes if i.nodeName == 'version'].pop()"

Atualização de mim

Outra versão:

    python -c "from  xml.dom.minidom import parse;dom = parse('pom.xml');print [n.firstChild.data for n in dom.childNodes[0].childNodes if n.firstChild and n.tagName == 'version']"

2

Maneira XSLT:

<?xml version="1.0" encoding="ISO-8859-1"?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
        <xsl:output method="text"/>

        <xsl:template match="/">
                <xsl:for-each select="*[local-name()='project']">
                    <xsl:for-each select="*[local-name()='version']">
                        <xsl:value-of select="text()"/>
                    </xsl:for-each>
                </xsl:for-each>
        </xsl:template>
</xsl:stylesheet>
xalan -xsl x.xsl -in pom.xml

Se o xsltproc estiver no seu sistema e provavelmente o libxslt estiver no RHEL4, você poderá usá-lo e a folha de estilo acima para gerar a tag, ou seja, xsltproc x.xsl prom.xsl.
precisa saber é o seguinte

2

se "Há muitas tags de versão no xml", é melhor você esquecer de fazê-lo com "ferramentas simples" e regexps, isso não serve.

tente este python (sem dependências):

from xml.dom.minidom import parse

dom = parse('pom.xml')
project = dom.getElementsByTagName('project')[0]
for node in project.childNodes:
    if node.nodeType == node.ELEMENT_NODE and node.tagName == 'version':
        print node.firstChild.nodeValue

O que exatamente esse script faz?
Simon Sheehan

ele carrega o XML como uma estrutura DOM usando a implementação de minidom do Python: docs.python.org/library/xml.dom.minidom.html a idéia é pegar a tag <project> que é única e, em seguida, iterar nos nós filhos (direta somente filhos) para encontrar a tag <versão> que estamos procurando e não outras com o mesmo nome em outros lugares.
Samus_

1

Aqui está um one-liner usando sed:

sed '/<dependencies>/,/<\/dependencies>/d;/<version>/!d;s/ *<\/\?version> *//g' pom.xml

1
Confia na ausência de parâmetros nos elementos e que <version>s extras podem estar apenas dentro de dependências.
Vi.

1

O awk funciona bem sem usar nenhuma ferramenta extra.
cat pod.xml

<project>
  <modelVersion>4.0.0</modelVersion>
  <groupId>com.networks.app</groupId>
  <artifactId>operation-platform</artifactId>
  <version>1.0.0</version>
  <packaging>tar.xz</packaging>
  <description>POM was created by Sonatype Nexus</description>
</project>

maneira simples e legível de obter o valor da <packaging>tag:

cat pod.xml | awk -F'[<>]' '/packaging/{print $3}'

1
Isso parece funcionar, mas cuidado: o que ele faz é definir o separador de campos (FS) para o conjunto de caracteres <e>; em seguida, encontra todas as linhas com a palavra "empacotamento" e fornece o terceiro campo.
SMerrill8

0
Return_text_val=$(xmllint --xpath "//*[local-name()='$TagElmnt']" $FILE )

Aqui, tente o seguinte:

$TagElmnt - TagName
$FILE - xml file to parse

0

Sei que sua pergunta diz Linux, mas se você precisar fazer isso no Windows sem a necessidade de ferramentas de terceiros para poder colocá-lo em um arquivo em lotes, o Powershell poderá extrair qualquer nó do seu arquivo pom.xml, dessa forma :

powershell -Command "& {select-xml //pom:project/pom:properties/pom:mypluginversion -path pom.xml -Namespace  @{pom='http://maven.apache.org/POM/4.0.0'} | foreach {$_.Node.Innerxml}}" > myPluginVersion.txt

O Powershell agora é de código aberto e é executado no Linux e outras plataformas. Nós o usamos para construir, de preferência ao bash, cygwin e ming64.
Charlweed 01/08/19

0
sed -n "/<name>project-parent/{n;s/.*>\(.*\)<.*/\1/p;q}" pom.xml

A -nopção evita a impressão de linhas não correspondentes; first match ( /.../) está na linha anterior àquela com o texto desejado; o ncomando pula para a próxima linha, onde sextrai informações relevantes por meio de um grupo de captura ( \(...\)) e uma referência anterior ( \1). pimprime, qsai.


2
Você pode expandir sua resposta para explicar isso? Obrigado.
fixer1234
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.