Lendo dados brutos em geopandas


14

É possível ler dados brutos em a geopandas GeoDataFrame, a la a pandas DataFrame?

Por exemplo, o seguinte funciona:

import pandas as pd
import requests
data = requests.get("https://data.cityofnewyork.us/api/geospatial/arq3-7z49?method=export&format=GeoJSON")
pd.read_json(io.BytesIO(r.content))

O seguinte não:

import geopandas as gpd
import requests
data = requests.get("https://data.cityofnewyork.us/api/geospatial/arq3-7z49?method=export&format=GeoJSON")
gpd.read_file(io.BytesIO(r.content))

Em outras palavras, é possível ler dados geoespaciais que estão na memória sem salvar esses dados no disco primeiro?

Respostas:


16

Você pode passar o json diretamente para o construtor GeoDataFrame:

import geopandas as gpd
import requests
data = requests.get("https://data.cityofnewyork.us/api/geospatial/arq3-7z49?method=export&format=GeoJSON")
gdf = gpd.GeoDataFrame(data.json())
gdf.head()

Saídas:

                                            features               type
0  {'type': 'Feature', 'geometry': {'type': 'Poin...  FeatureCollection
1  {'type': 'Feature', 'geometry': {'type': 'Poin...  FeatureCollection
2  {'type': 'Feature', 'geometry': {'type': 'Poin...  FeatureCollection
3  {'type': 'Feature', 'geometry': {'type': 'Poin...  FeatureCollection
4  {'type': 'Feature', 'geometry': {'type': 'Poin...  FeatureCollection

Para formatos de arquivo único suportados ou shapefiles compactados, você pode usar fiona.BytesCollectione GeoDataFrame.from_features:

import requests
import fiona
import geopandas as gpd

url = 'http://www.geopackage.org/data/gdal_sample.gpkg'
request = requests.get(url)
b = bytes(request.content)
with fiona.BytesCollection(b) as f:
    crs = f.crs
    gdf = gpd.GeoDataFrame.from_features(f, crs=crs)
    print(gdf.head())
e para shapefiles compactados (suportado a partir da fiona 1.7.2 )
url = 'https://www2.census.gov/geo/tiger/TIGER2010/STATE/2010/tl_2010_31_state10.zip'
request = requests.get(url)
b = bytes(request.content)
with fiona.BytesCollection(b) as f:
    crs = f.crs
    gdf = gpd.GeoDataFrame.from_features(f, crs=crs)
    print(gdf.head())

Você pode descobrir quais formatos o Fiona suporta usando algo como:

import fiona
for name, access in fiona.supported_drivers.items():
    print('{}: {}'.format(name, access))

E uma solução alternativa hacky para ler dados compactados na memória no fiona 1.7.1 ou anterior:

import requests
import uuid
import fiona
import geopandas as gpd
from osgeo import gdal

request = requests.get('https://github.com/OSGeo/gdal/blob/trunk/autotest/ogr/data/poly.zip?raw=true')
vsiz = '/vsimem/{}.zip'.format(uuid.uuid4().hex) #gdal/ogr requires a .zip extension

gdal.FileFromMemBuffer(vsiz,bytes(request.content))
with fiona.Collection(vsiz, vsi='zip', layer ='poly') as f:
    gdf = gpd.GeoDataFrame.from_features(f, crs=f.crs)
    print(gdf.head())

Isso funciona para o GeoJSON, que responde à pergunta. Mas isso não funcionaria para outros formatos de arquivos geoespaciais, como shapefiles ou KML ou KMZ. Você conhece uma solução alternativa para esses casos?
precisa saber é o seguinte

Um pouco de esclarecimento está em ordem. GeoPandas e Fiona suportam shapefiles e KML, mas não podem suportar totalmente uma APIs como a da cidade de Nova York. Além disso, BytesCollectionfunciona totalmente, mas provavelmente será removido em uma versão futura em favor de uma das opções do github.com/Toblerity/Fiona/issues/409 .
precisa saber é o seguinte

Obrigado. @sgillies deve ser aberto como uma solicitação de recurso geopandasou seria melhor aguardar as alterações mencionadas aqui ?
Aleksey Bilogur

@sgillies você declara que a Fiona suporta KML no seu comentário acima, mas DriverError: unsupported driver: 'KML'é criada ao tentar abrir o KML, pois não está no supported_driversditado (usando o Fiona 1.7.1) e notei alguns problemas. falta de suporte KML (# 23 e # 97). Fiona suporta KML?
precisa saber é o seguinte

Obrigado por detectar o from_featuresmétodo. Salvou o meu dia!
jlandercy

3

Como fiona.BytesCollectionnão parece funcionar TopoJSONaqui, uma solução que funciona para todos sem a necessidade de gdal:

import fiona
import geopandas as gpd
import requests

# parse the topojson file into memory
request = requests.get('https://vega.github.io/vega-datasets/data/us-10m.json')
visz = fiona.ogrext.buffer_to_virtual_file(bytes(request.content))

# read the features from a fiona collection into a GeoDataFrame
with fiona.Collection(visz, driver='TopoJSON') as f:
    gdf = gpd.GeoDataFrame.from_features(f, crs=f.crs)

Com geopandas==0.4.0, Fiona==1.8.4e Python 3, recebo DriverError: unsupported driver: 'TopoJSON'.
edesz

Você está certo. Estava funcionando até, pelo menos, a versão 1.7.13deFiona
Mattijn

É lamentável que isso não funcione. Eu estava tentando seguir o seu exemplo no GitHub para gráficos de coroas de Altair, mas isso também gera exatamente o mesmo erro na linha gdf = gpd.read_file(counties, driver='TopoJSON'). Eu pensei que o uso with fiona.Collection...poderia funcionar, mas infelizmente não.
Edesz 20/01/19

@edesz isso foi um bug e será corrigido no Fiona 1.8.5, consulte: github.com/Toblerity/Fiona/issues/721
Mattijn


2

Ao usar o Fiona 1.8, isso pode (deve?) Ser feito usando o projeto MemoryFileouZipMemoryFile .

Por exemplo:

import fiona.io
import geopandas as gpd
import requests

response = requests.get('http://example.com/Some_shapefile.zip')
data_bytes = response.content

with fiona.io.ZipMemoryFile(data_bytes) as zip_memory_file:
    with zip_memory_file.open('Some_shapefile.shp') as collection:
      geodf = gpd.GeoDataFrame.from_features(collection, crs=collection.crs)

0

A maneira mais fácil é inserir a URL do GeoJSON diretamente em gpd.read (). Eu tentei extrair um shapefile de um zip antes disso usando o BytesIO & zipfile e tive problemas com o gpd (especificamente Fiona) aceitando objetos semelhantes a arquivos.

import geopandas as gpd
import David.SQL_pull_by_placename as sql
import os

os.environ['PROJ_LIB'] = r'C:\Users\littlexsparkee\Anaconda3\Library\share\proj'

geojson_url = f'https://github.com/loganpowell/census-geojson/blob/master/GeoJSON/500k/2018/{sql.state}/block-group.json?raw=true'
census_tracts_gdf = gpd.read_file(geojson_url)

0

Prefiro o resultado obtido usando o não documentado, em GeoDataFrame.from_features()vez de passar o GeoJSON para o construtor GDF diretamente:

import geopandas as gpd
import requests
data = requests.get("https://data.cityofnewyork.us/api/geospatial/arq3-7z49?method=export&format=GeoJSON")
gpd.GeoDataFrame().from_features(data.json())

Resultado

                       geometry                         name                                url           line objectid                                              notes
0    POINT (-73.99107 40.73005)                     Astor Pl  http://web.mta.info/nyct/service/  4-6-6 Express        1  4 nights, 6-all times, 6 Express-weekdays AM s...
1    POINT (-74.00019 40.71880)                     Canal St  http://web.mta.info/nyct/service/  4-6-6 Express        2  4 nights, 6-all times, 6 Express-weekdays AM s...
2    POINT (-73.98385 40.76173)                      50th St  http://web.mta.info/nyct/service/            1-2        3                              1-all times, 2-nights
3    POINT (-73.97500 40.68086)                    Bergen St  http://web.mta.info/nyct/service/          2-3-4        4           4-nights, 3-all other times, 2-all times
4    POINT (-73.89489 40.66471)             Pennsylvania Ave  http://web.mta.info/nyct/service/            3-4        5                        4-nights, 3-all other times

O GeoDataFrame resultante tem a coluna de geometria definida corretamente e todas as colunas como eu esperaria, sem a necessidade de desnaturar nenhuma FeatureCollections

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.