wget --content-disposition 'https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE48191&format=file'
O arquivo que você está baixando é um tar
archive (um arquivo binário), fornecido por um link dinâmico de um servidor da web. wget
normalmente salvaria o arquivo usando parte da URL que você está usando, mas, nesse caso, é apenas um ponto de extremidade da API REST (ou algo semelhante); portanto, o nome seria hostil de se trabalhar (ainda seria um nome válido e o o conteúdo do arquivo seria o mesmo).
No entanto, nesse caso, o servidor fornece um cabeçalho "Disposição de conteúdo" contendo o nome do arquivo real, que wget
poderá ser usado se você usar a --content-disposition
opção Esta opção está marcada como "experimental" no meu manual para wget
.
Você também precisa citar o URL para que o shell não interprete os caracteres &
e ?
nele.
O equivalente usando curl
:
curl -J -O 'https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE48191&format=file'
Ou, usando as opções longas equivalentes:
curl --remote-header-name --remote-name 'https://www.ncbi.nlm.nih.gov/geo/download/?acc=GSE48191&format=file'
Depois de baixar o arquivo, você precisa descompactá-lo:
tar -xvf GSE48191_RAW.tar
Devido à maneira como esse arquivo específico foi criado, isso descompactará os arquivos do diretório no diretório atual (portanto, criar um novo diretório, mover o arquivo para lá e descompactá-lo pode ser uma boa idéia). Os arquivos neste arquivo gzip
morto são CEL
arquivos compactados .