Existe uma maneira de obter uma contagem de palavras de linguagem natural no Markdown (ou melhor, Pandoc Markdown), através da linha de comando? É possível apenas usar wc
para obter uma estimativa muito aproximada, mas wc
é ingênuo e conta qualquer coisa cercada de espaço em branco como uma palavra. Isso inclui coisas como formatação de cabeçalho, marcadores e URLs em links.
Qual seria o ideal seria remover todas as formatações de marcação, (incluindo citações do Pandoc, se possível), e então passar isso wc
, mas não consigo encontrar uma maneira de fazer isso, como o pandoc
formato de saída de texto sem formatação ainda inclui muito estilo de marcação.
wc
no arquivo resultante - algo como isto: stackoverflow.com/questions/761824/…