Resposta curta :
Use Delimiter='/'
. Isso evita fazer uma listagem recursiva do seu intervalo. Algumas respostas aqui sugerem erroneamente fazer uma lista completa e usar alguma manipulação de string para recuperar os nomes dos diretórios. Isso pode ser terrivelmente ineficiente. Lembre-se de que o S3 praticamente não tem limite para o número de objetos que um depósito pode conter. Então, imagine que, entre bar/
e foo/
, você tenha um trilhão de objetos: você esperaria muito tempo para obtê-lo ['bar/', 'foo/']
Use Paginators
. Pelo mesmo motivo (S3 é a aproximação do infinito de um engenheiro), você deve listar por meio de páginas e evitar armazenar toda a listagem na memória. Em vez disso, considere seu "lister" como um iterador e manipule o fluxo que ele produz.
Use boto3.client
, não boto3.resource
. A resource
versão não parece lidar bem com a Delimiter
opção. Se você tem um recurso, digamos que um bucket = boto3.resource('s3').Bucket(name)
, você pode obter o cliente correspondente com: bucket.meta.client
Resposta longa :
A seguir está um iterador que uso para baldes simples (sem manipulação de versão).
import boto3
from collections import namedtuple
from operator import attrgetter
S3Obj = namedtuple('S3Obj', ['key', 'mtime', 'size', 'ETag'])
def s3list(bucket, path, start=None, end=None, recursive=True, list_dirs=True,
list_objs=True, limit=None):
Iterator that lists a bucket's objects under path, (optionally) starting with
start and ending before end.
If recursive is False, then list only the "depth=0" items (dirs and objects).
If recursive is True, then list recursively all objects (no dirs).
a boto3.resource('s3').Bucket().
a directory in the bucket.
optional: start key, inclusive (may be a relative path under path, or
absolute in the bucket)
optional: stop key, exclusive (may be a relative path under path, or
absolute in the bucket)
optional, default True. If True, lists only objects. If False, lists
only depth 0 "directories" and objects.
optional, default True. Has no effect in recursive listing. On
non-recursive listing, if False, then directories are omitted.
optional, default True. If False, then directories are omitted.
optional. If specified, then lists at most this many items.
an iterator of S3Obj.
# set up
>>> s3 = boto3.resource('s3')
... bucket = s3.Bucket(name)
# iterate through all S3 objects under some dir
>>> for p in s3ls(bucket, 'some/dir'):
... print(p)
# iterate through up to 20 S3 objects under some dir, starting with foo_0010
>>> for p in s3ls(bucket, 'some/dir', limit=20, start='foo_0010'):
... print(p)
# non-recursive listing under some dir:
>>> for p in s3ls(bucket, 'some/dir', recursive=False):
... print(p)
# non-recursive listing under some dir, listing only dirs:
>>> for p in s3ls(bucket, 'some/dir', recursive=False, list_objs=False):
... print(p)
kwargs = dict()
if start is not None:
if not start.startswith(path):
start = os.path.join(path, start)
if end is not None:
if not end.startswith(path):
end = os.path.join(path, end)
if not recursive:
if not path.endswith('/'):
path += '/'
if limit is not None:
kwargs.update(PaginationConfig={'MaxItems': limit})
paginator = bucket.meta.client.get_paginator('list_objects')
for resp in paginator.paginate(, **kwargs):
q = []
if 'CommonPrefixes' in resp and list_dirs:
q = [S3Obj(f['Prefix'], None, None, None) for f in resp['CommonPrefixes']]
if 'Contents' in resp and list_objs:
q += [S3Obj(f['Key'], f['LastModified'], f['Size'], f['ETag']) for f in resp['Contents']]
q = sorted(q, key=attrgetter('key'))
if limit is not None:
q = q[:limit]
limit -= len(q)
for p in q:
if end is not None and p.key >= end:
yield p
def __prev_str(s):
if len(s) == 0:
return s
s, c = s[:-1], ord(s[-1])
if c > 0:
s += chr(c - 1)
s += ''.join(['\u7FFF' for _ in range(10)])
return s
Teste :
O seguinte é útil para testar o comportamento do paginator
e list_objects
. Ele cria vários diretórios e arquivos. Como as páginas têm até 1000 entradas, usamos um múltiplo disso para diretórios e arquivos. dirs
contém apenas diretórios (cada um com um objeto). mixed
contém uma mistura de dirs e objetos, com uma proporção de 2 objetos para cada dir (mais um objeto sob dir, é claro; o S3 armazena apenas objetos).
import concurrent
def genkeys(top='tmp/test', n=2000):
for k in range(n):
if k % 100 == 0:
for name in [
os.path.join(top, 'dirs', f'{k:04d}_dir', 'foo'),
os.path.join(top, 'mixed', f'{k:04d}_dir', 'foo'),
os.path.join(top, 'mixed', f'{k:04d}_foo_a'),
os.path.join(top, 'mixed', f'{k:04d}_foo_b'),
yield name
with concurrent.futures.ThreadPoolExecutor(max_workers=32) as executor: name: bucket.put_object(Key=name, Body='hi\n'.encode()), genkeys())
A estrutura resultante é:
Com um pouco de adulteração do código fornecido acima para s3list
inspecionar as respostas do paginator
, você pode observar alguns fatos interessantes:
O Marker
é realmente exclusivo. Dado Marker=topdir + 'mixed/0500_foo_a'
fará com que a listagem comece após essa chave (de acordo com a API AmazonS3 ), ou seja, com .../mixed/0500_foo_b
. Essa é a razão para __prev_str()
Usando Delimiter
, ao listar mixed/
, cada resposta de paginator
contém 666 chaves e 334 prefixos comuns. É muito bom em não construir respostas enormes.
Em contraste, ao listar dirs/
, cada resposta do paginator
contém 1000 prefixos comuns (e nenhuma chave).
Passar um limite na forma de PaginationConfig={'MaxItems': limit}
limites apenas o número de chaves, não os prefixos comuns. Lidamos com isso truncando ainda mais o fluxo de nosso iterador.