Eu tenho um arquivo fasta contendo sequências de genoma de vários vírus.
Exemplo:
>gi_138375030_Human_papillomavirus
GAAAGTTTCAATCATACTTTATTATATTGGGAGTAAAAAAAA...
>gi_94481944_Human_herpesvirus_3
GGCCCAGCCCTCTCGCGGCCCCCTCGAGAGAGAAAAAAA...
Quero extrair apenas as entradas do vírus do herpes, incluindo a sequência real, que é (neste arquivo) sempre a linha que segue a descrição.
O regex a seguir funciona:
>.*herpes.*\n.*\n
Ele seleciona a descrição e as linhas de sequência.
Encontrei perguntas semelhantes, mas todas fazem uso da função "linha de favoritos": exporte todas as correspondências de expressões regulares no Textpad ou Notepad ++ como uma lista
No entanto, isso marca apenas a primeira linha da saída regex, portanto, não consigo usar as soluções descritas. Se eu usar "encontrar tudo no documento atual", ele também listará apenas as primeiras linhas.
Tudo o que eu quero fazer é copiar a saída do regex para um novo arquivo. É especialmente frustrante, pois encontra pouco mais de cem entradas, um pouco acima da margem sob a qual eu estaria disposto a fazê-lo manualmente.
Eu preferiria uma solução no sistema operacional Windows.