Como obter JSON da página da Web no script Python


193

Obtive o seguinte código em um dos meus scripts:

#
# url is defined above.
#
jsonurl = urlopen(url)

#
# While trying to debug, I put this in:
#
print jsonurl

#
# Was hoping text would contain the actual json crap from the URL, but seems not...
#
text = json.loads(jsonurl)
print text

O que eu quero fazer é obter as {{.....etc.....}}coisas que vejo na URL quando a carrego no Firefox no meu script para que eu possa analisar um valor. Eu pesquisei muito no Google, mas não encontrei uma boa resposta sobre como obter as {{...}}coisas de um URL que termina em .jsonum objeto em um script Python.

Respostas:


316

Obtenha dados da URL e ligue, json.loadspor exemplo,

Exemplo de Python3 :

import urllib.request, json 
with urllib.request.urlopen("http://maps.googleapis.com/maps/api/geocode/json?address=google") as url:
    data = json.loads(url.read().decode())
    print(data)

Exemplo de Python2 :

import urllib, json
url = "http://maps.googleapis.com/maps/api/geocode/json?address=google"
response = urllib.urlopen(url)
data = json.loads(response.read())
print data

A saída resultaria em algo como isto:

{
"results" : [
    {
    "address_components" : [
        {
            "long_name" : "Charleston and Huff",
            "short_name" : "Charleston and Huff",
            "types" : [ "establishment", "point_of_interest" ]
        },
        {
            "long_name" : "Mountain View",
            "short_name" : "Mountain View",
            "types" : [ "locality", "political" ]
        },
        {
...

30
Ao invés de usar json.loadso que consome um uso string (que é por isso que .read()é necessária, use json.load(response)em seu lugar.
awatts

Única PSL, concisa e eficiente
jlandercy

É urllib2preferível no Python2?
Jon-Eric

110

Suponho que você realmente deseja obter dados do URL:

jsonurl = urlopen(url)
text = json.loads(jsonurl.read()) # <-- read from it

Ou, confira o decodificador JSON na biblioteca de solicitações .

import requests
r = requests.get('someurl')
print r.json() # if response type was set to JSON, then you'll automatically have a JSON response here...

merece o distintivo verde para esta pergunta! obrigado!
Aziz Alto

27

Isso obtém um dicionário no formato JSON de uma página da Web com Python 2.X e Python 3.X:

#!/usr/bin/env python

try:
    # For Python 3.0 and later
    from urllib.request import urlopen
except ImportError:
    # Fall back to Python 2's urllib2
    from urllib2 import urlopen

import json


def get_jsonparsed_data(url):
    """
    Receive the content of ``url``, parse it as JSON and return the object.

    Parameters
    ----------
    url : str

    Returns
    -------
    dict
    """
    response = urlopen(url)
    data = response.read().decode("utf-8")
    return json.loads(data)


url = ("http://maps.googleapis.com/maps/api/geocode/json?"
       "address=googleplex&sensor=false")
print(get_jsonparsed_data(url))

Consulte também: Exemplo de leitura e gravação para JSON


24

Eu descobri que essa é a maneira mais fácil e eficiente de obter JSON de uma página da Web ao usar o Python 3:

import json,urllib.request
data = urllib.request.urlopen("https://api.github.com/users?since=100").read()
output = json.loads(data)
print (output)

4
Isso não funciona. Você precisa importar urlopen de urllib.request, ou sejafrom urllib.request import urlopen
Dawid Laszuk

5

Tudo o que a chamada urlopen()faz (de acordo com os documentos ) é retornar um objeto parecido com um arquivo. Depois de ter isso, é necessário chamar seu read()método para realmente puxar os dados JSON pela rede.

Algo como:

jsonurl = urlopen(url)

text = json.loads(jsonurl.read())
print text

5

No Python 2, o json.load () funcionará em vez do json.loads ()

import json
import urllib

url = 'https://api.github.com/users?since=100'
output = json.load(urllib.urlopen(url))
print(output)

Infelizmente, isso não funciona no Python 3. O json.load é apenas um invólucro do json.loads que chama read () para um objeto semelhante a um arquivo. O json.loads requer um objeto de cadeia e a saída de urllib.urlopen (url) .read () é um objeto de bytes. Portanto, é necessário obter a codificação do arquivo para fazê-lo funcionar no Python 3.

Neste exemplo, consultamos os cabeçalhos para a codificação e voltamos ao utf-8 se não obtivermos um. O objeto headers é diferente entre Python 2 e 3, portanto, isso deve ser feito de maneiras diferentes. O uso de solicitações evitaria tudo isso, mas às vezes você precisa se ater à biblioteca padrão.

import json
from six.moves.urllib.request import urlopen

DEFAULT_ENCODING = 'utf-8'
url = 'https://api.github.com/users?since=100'
urlResponse = urlopen(url)

if hasattr(urlResponse.headers, 'get_content_charset'):
    encoding = urlResponse.headers.get_content_charset(DEFAULT_ENCODING)
else:
    encoding = urlResponse.headers.getparam('charset') or DEFAULT_ENCODING

output = json.loads(urlResponse.read().decode(encoding))
print(output)

Sei que seis também não faz parte da biblioteca padrão, mas é mostrado aqui por conveniência. Sem ele, você precisaria de um bloco if / else ou try / except para determinar onde obter o urlopen ().
aviso 23/06


3

Resposta tardia, mas para python>=3.6você poder usar:

import dload
j = dload.json(url)

Instale dloadcom:

pip3 install dload

0

você precisa import requestse usa do método json ():

source = requests.get("url").json()
print(source)

Obviamente, este método também funciona:

import json,urllib.request
data = urllib.request.urlopen("url").read()
output = json.loads(data)
print (output)

-1

você pode usar json.dumps:

import json

# Hier comes you received data

data = json.dumps(response)

print(data)

para carregar o json e escrevê-lo no arquivo, o seguinte código é útil:

data = json.loads(json.dumps(Response, sort_keys=False, indent=4))
with open('data.json', 'w') as outfile:
json.dump(data, outfile, sort_keys=False, indent=4)
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.