Pesquisa recursiva de subpasta e arquivos de retorno em uma lista python

117

Estou trabalhando em um script para percorrer recursivamente as subpastas em uma pasta principal e construir uma lista de um determinado tipo de arquivo. Estou tendo um problema com o script. Atualmente está definido como segue

for root, subFolder, files in os.walk(PATH):
    for item in files:
        if item.endswith(".txt") :
            fileNamePath = str(os.path.join(root,subFolder,item))

o problema é que a variável subFolder está obtendo uma lista de subpastas em vez da pasta em que o arquivo ITEM está localizado. Eu estava pensando em executar um loop for para a subpasta antes e juntar a primeira parte do caminho, mas achei que deveria verificar se alguém tem alguma sugestão antes disso. Obrigado pela ajuda!

— user2709514
fonte

155

Você deve usar o dirpathque você chama root. Eles dirnamessão fornecidos para que você possa podá-los se houver pastas nas quais não deseja os.walkrecurvar.

import os
result = [os.path.join(dp, f) for dp, dn, filenames in os.walk(PATH) for f in filenames if os.path.splitext(f)[1] == '.txt']

Editar:

Após o último downvote, ocorreu-me que globé uma ferramenta melhor para selecionar por extensão.

import os
from glob import glob
result = [y for x in os.walk(PATH) for y in glob(os.path.join(x[0], '*.txt'))]

Também uma versão de gerador

from itertools import chain
result = (chain.from_iterable(glob(os.path.join(x[0], '*.txt')) for x in os.walk('.')))

Edit2 para Python 3.4+

from pathlib import Path
result = list(Path(".").rglob("*.[tT][xX][tT]"))

— John La Rooy
fonte

1

'*. [Tt] [Xx] [Tt]' padrão glob tornará a pesquisa insensível a maiúsculas e minúsculas.

— SergiyKolesnikov

@SergiyKolesnikov, Obrigado, usei isso na edição na parte inferior. Observe que o rglobé insensível em plataformas Windows - mas não é insensível a portabilidade.

— John La Rooy

1

@JohnLaRooy Funciona com globtambém (Python 3.6 aqui):glob.iglob(os.path.join(real_source_path, '**', '*.[xX][mM][lL]')

— SergiyKolesnikov

@Sergiy: seu iglobnão funciona para arquivos em sub-subpastas ou abaixo. Você precisa adicionar recursive=True.

— user136036

1

@ user136036, "melhor" nem sempre significa mais rápido. Às vezes, a legibilidade e a manutenção também são importantes.

— John La Rooy

111

Alterado no Python 3.5 : Suporte para globs recursivos usando “**”.

glob.glob()tem um novo parâmetro recursivo .

Se você deseja obter todos os .txtarquivos sob my_path(recursivamente incluindo subdiretórios):

import glob

files = glob.glob(my_path + '/**/*.txt', recursive=True)

# my_path/     the dir
# **/       every file and dir under my_path
# *.txt     every file that ends with '.txt'

Se precisar de um iterador, você pode usar o iglob como alternativa:

for file in glob.iglob(my_path, recursive=False):
    # ...

— Rotareti
fonte

1

TypeError: glob () obteve um argumento de palavra-chave inesperado 'recursivo'

— CyberJacob

1

Deve estar funcionando. Certifique-se de usar uma versão> = 3.5. Eu adicionei um link para a documentação em minha resposta para mais detalhes.

— Rotareti

Seria por isso que estou em 2.7

— CyberJacob

1

Por que a compreensão da lista e não apenas files = glob.glob(PATH + '/*/**/*.txt', recursive=True)?

— tobltobs

Opa! :) É totalmente redundante. Não tenho ideia do que me fez escrever assim. Obrigado por mencionar isso! Eu resolvo isso.

— Rotareti

20

Vou traduzir a compreensão da lista de John La Rooy em for's aninhados, apenas no caso de alguém ter problemas para entendê-la.

result = [y for x in os.walk(PATH) for y in glob(os.path.join(x[0], '*.txt'))]

Deve ser equivalente a:

import glob

result = []

for x in os.walk(PATH):
    for y in glob.glob(os.path.join(x[0], '*.txt')):
        result.append(y)

Aqui está a documentação para compreensão de listas e as funções os.walk e glob.glob .

— Jefferson Lima
fonte

1

Essa resposta funcionou para mim no Python 3.7.3. glob.glob(..., recursive=True)e list(Path(dir).glob(...'))não o fez.

— miguelmorin

11

Esta parece ser a solução mais rápida que eu poderia vir acima com, e é mais rápido do que os.walke muito mais rápido do que qualquer globsolução .

Também fornecerá uma lista de todas as subpastas aninhadas basicamente sem custo.
Você pode pesquisar várias extensões diferentes.
Você também pode escolher retornar os caminhos completos ou apenas os nomes dos arquivos, alterando f.pathpara f.name(não altere para as subpastas!).

Args: dir: str, ext: list.
Função retorna duas listas: subfolders, files.

Veja abaixo uma análise detalhada da velocidade.

def run_fast_scandir(dir, ext):    # dir: str, ext: list
    subfolders, files = [], []

    for f in os.scandir(dir):
        if f.is_dir():
            subfolders.append(f.path)
        if f.is_file():
            if os.path.splitext(f.name)[1].lower() in ext:
                files.append(f.path)


    for dir in list(subfolders):
        sf, f = run_fast_scandir(dir, ext)
        subfolders.extend(sf)
        files.extend(f)
    return subfolders, files


subfolders, files = run_fast_scandir(folder, [".jpg"])

Análise rápida

para vários métodos de obter todos os arquivos com uma extensão de arquivo específica dentro de todas as subpastas e da pasta principal.

tl; dr:
- fast_scandirclaramente vence e é duas vezes mais rápido que todas as outras soluções, exceto os.walk.
- os.walké o segundo lugar ligeiramente mais lento.
- o uso globtornará o processo muito mais lento.
- Nenhum dos resultados usa classificação natural . Isso significa que os resultados serão classificados como: 1, 10, 2. Para obter uma classificação natural (1, 2, 10), dê uma olhada em https://stackoverflow.com/a/48030307/2441026

Resultados:

fast_scandir    took  499 ms. Found files: 16596. Found subfolders: 439
os.walk         took  589 ms. Found files: 16596
find_files      took  919 ms. Found files: 16596
glob.iglob      took  998 ms. Found files: 16596
glob.glob       took 1002 ms. Found files: 16596
pathlib.rglob   took 1041 ms. Found files: 16596
os.walk-glob    took 1043 ms. Found files: 16596

Os testes foram feitos com W7x64, Python 3.8.1, 20 execuções. 16.596 arquivos em 439 subpastas (parcialmente aninhadas).
find_filesvem de https://stackoverflow.com/a/45646357/2441026 e permite que você pesquise várias extensões.
fast_scandirfoi escrito por mim e também retornará uma lista de subpastas. Você pode fornecer uma lista de extensões para pesquisar (eu testei uma lista com uma entrada para uma simples if ... == ".jpg"e não houve diferença significativa).

# -*- coding: utf-8 -*-
# Python 3


import time
import os
from glob import glob, iglob
from pathlib import Path


directory = r"<folder>"
RUNS = 20


def run_os_walk():
    a = time.time_ns()
    for i in range(RUNS):
        fu = [os.path.join(dp, f) for dp, dn, filenames in os.walk(directory) for f in filenames if
                  os.path.splitext(f)[1].lower() == '.jpg']
    print(f"os.walk\t\t\ttook {(time.time_ns() - a) / 1000 / 1000 / RUNS:.0f} ms. Found files: {len(fu)}")


def run_os_walk_glob():
    a = time.time_ns()
    for i in range(RUNS):
        fu = [y for x in os.walk(directory) for y in glob(os.path.join(x[0], '*.jpg'))]
    print(f"os.walk-glob\ttook {(time.time_ns() - a) / 1000 / 1000 / RUNS:.0f} ms. Found files: {len(fu)}")


def run_glob():
    a = time.time_ns()
    for i in range(RUNS):
        fu = glob(os.path.join(directory, '**', '*.jpg'), recursive=True)
    print(f"glob.glob\t\ttook {(time.time_ns() - a) / 1000 / 1000 / RUNS:.0f} ms. Found files: {len(fu)}")


def run_iglob():
    a = time.time_ns()
    for i in range(RUNS):
        fu = list(iglob(os.path.join(directory, '**', '*.jpg'), recursive=True))
    print(f"glob.iglob\t\ttook {(time.time_ns() - a) / 1000 / 1000 / RUNS:.0f} ms. Found files: {len(fu)}")


def run_pathlib_rglob():
    a = time.time_ns()
    for i in range(RUNS):
        fu = list(Path(directory).rglob("*.jpg"))
    print(f"pathlib.rglob\ttook {(time.time_ns() - a) / 1000 / 1000 / RUNS:.0f} ms. Found files: {len(fu)}")


def find_files(files, dirs=[], extensions=[]):
    # https://stackoverflow.com/a/45646357/2441026

    new_dirs = []
    for d in dirs:
        try:
            new_dirs += [ os.path.join(d, f) for f in os.listdir(d) ]
        except OSError:
            if os.path.splitext(d)[1].lower() in extensions:
                files.append(d)

    if new_dirs:
        find_files(files, new_dirs, extensions )
    else:
        return


def run_fast_scandir(dir, ext):    # dir: str, ext: list
    # https://stackoverflow.com/a/59803793/2441026

    subfolders, files = [], []

    for f in os.scandir(dir):
        if f.is_dir():
            subfolders.append(f.path)
        if f.is_file():
            if os.path.splitext(f.name)[1].lower() in ext:
                files.append(f.path)


    for dir in list(subfolders):
        sf, f = run_fast_scandir(dir, ext)
        subfolders.extend(sf)
        files.extend(f)
    return subfolders, files



if __name__ == '__main__':
    run_os_walk()
    run_os_walk_glob()
    run_glob()
    run_iglob()
    run_pathlib_rglob()


    a = time.time_ns()
    for i in range(RUNS):
        files = []
        find_files(files, dirs=[directory], extensions=[".jpg"])
    print(f"find_files\t\ttook {(time.time_ns() - a) / 1000 / 1000 / RUNS:.0f} ms. Found files: {len(files)}")


    a = time.time_ns()
    for i in range(RUNS):
        subf, files = run_fast_scandir(directory, [".jpg"])
    print(f"fast_scandir\ttook {(time.time_ns() - a) / 1000 / 1000 / RUNS:.0f} ms. Found files: {len(files)}. Found subfolders: {len(subf)}")

— user136036
fonte

10

A nova pathlibbiblioteca simplifica isso para uma linha:

from pathlib import Path
result = list(Path(PATH).glob('**/*.txt'))

Você também pode usar a versão do gerador:

from pathlib import Path
for file in Path(PATH).glob('**/*.txt'):
    pass

Isso retorna Pathobjetos, que você pode usar para praticamente qualquer coisa, ou obter o nome do arquivo como uma string por file.name.

— Emre
fonte

6

Não é a resposta mais pitônica, mas vou colocá-la aqui para me divertir porque é uma boa lição de recursão

def find_files( files, dirs=[], extensions=[]):
    new_dirs = []
    for d in dirs:
        try:
            new_dirs += [ os.path.join(d, f) for f in os.listdir(d) ]
        except OSError:
            if os.path.splitext(d)[1] in extensions:
                files.append(d)

    if new_dirs:
        find_files(files, new_dirs, extensions )
    else:
        return

Na minha máquina, tenho duas pastas rooteroot2

mender@multivax ]ls -R root root2
root:
temp1 temp2

root/temp1:
temp1.1 temp1.2

root/temp1/temp1.1:
f1.mid

root/temp1/temp1.2:
f.mi  f.mid

root/temp2:
tmp.mid

root2:
dummie.txt temp3

root2/temp3:
song.mid

Digamos que eu queira encontrar todos .txtos .midarquivos em qualquer um desses diretórios, então posso apenas fazer

files = []
find_files( files, dirs=['root','root2'], extensions=['.mid','.txt'] )
print(files)

#['root2/dummie.txt',
# 'root/temp2/tmp.mid',
# 'root2/temp3/song.mid',
# 'root/temp1/temp1.1/f1.mid',
# 'root/temp1/temp1.2/f.mid']

— dermen
fonte

4

Recursivo é novo no Python 3.5, então não funcionará no Python 2.7. Aqui está o exemplo que usa rstrings, portanto, você só precisa fornecer o caminho como está em Win, Lin, ...

import glob

mypath=r"C:\Users\dj\Desktop\nba"

files = glob.glob(mypath + r'\**\*.py', recursive=True)
# print(files) # as list
for f in files:
    print(f) # nice looking single line per file

Observação: ele listará todos os arquivos, não importa a profundidade que deva ir.

— Prosti
fonte

3

Você pode fazer isso desta forma para retornar uma lista de arquivos de caminho absoluto.

def list_files_recursive(path):
    """
    Function that receives as a parameter a directory path
    :return list_: File List and Its Absolute Paths
    """

    import os

    files = []

    # r = root, d = directories, f = files
    for r, d, f in os.walk(path):
        for file in f:
            files.append(os.path.join(r, file))

    lst = [file for file in files]
    return lst


if __name__ == '__main__':

    result = list_files_recursive('/tmp')
    print(result)

— WilliamCanin
fonte

2

Se você não se importar em instalar uma biblioteca de luz adicional, pode fazer o seguinte:

pip install plazy

Uso:

import plazy

txt_filter = lambda x : True if x.endswith('.txt') else False
files = plazy.list_files(root='data', filter_func=txt_filter, is_include_root=True)

O resultado deve ser semelhante a este:

['data/a.txt', 'data/b.txt', 'data/sub_dir/c.txt']

Funciona tanto no Python 2.7 quanto no Python 3.

Github: https://github.com/kyzas/plazy#list-files

Isenção de responsabilidade: eu sou um autor de plazy.

— Minh Nguyen
fonte

1

Esta função irá colocar recursivamente apenas arquivos em uma lista. Espero que este seja você.

import os


def ls_files(dir):
    files = list()
    for item in os.listdir(dir):
        abspath = os.path.join(dir, item)
        try:
            if os.path.isdir(abspath):
                files = files + ls_files(abspath)
            else:
                files.append(abspath)
        except FileNotFoundError as err:
            print('invalid directory\n', 'Error: ', err)
    return files

— Yossarian42
fonte

0

Sua solução original estava quase correta, mas a variável "root" é atualizada dinamicamente à medida que se movimenta recursivamente. os.walk () é um gerador recursivo. Cada conjunto de tupla de (raiz, subpasta, arquivos) é para uma raiz específica da maneira como você a configurou.

ie

root = 'C:\\'
subFolder = ['Users', 'ProgramFiles', 'ProgramFiles (x86)', 'Windows', ...]
files = ['foo1.txt', 'foo2.txt', 'foo3.txt', ...]

root = 'C:\\Users\\'
subFolder = ['UserAccount1', 'UserAccount2', ...]
files = ['bar1.txt', 'bar2.txt', 'bar3.txt', ...]

...

Fiz um pequeno ajuste no seu código para imprimir uma lista completa.

import os
for root, subFolder, files in os.walk(PATH):
    for item in files:
        if item.endswith(".txt") :
            fileNamePath = str(os.path.join(root,item))
            print(fileNamePath)

Espero que isto ajude!

— LastTigerEyes
fonte