Corrigir o parágrafo


No espírito de Patch the Image , aqui está um desafio semelhante, mas com texto.


A podridão por bits afligiu seu texto precioso! Dado um parágrafo composto por caracteres ASCII, com um orifício retangular em algum lugar, seu programa deve tentar preenchê-lo com o texto apropriado, para que o parágrafo seja o melhor possível.

Definições adicionais

  • O furo sempre será retangular e poderá abranger várias linhas.
  • Só haverá um buraco.
  • Observe que o buraco não cai necessariamente nos limites das palavras (na verdade, geralmente não cai).
  • O furo terá no máximo 25% do parágrafo de entrada, mas poderá se sobrepor ou se estender além do "final" do texto "normal" (consulte os exemplos de Euclides ou Texugos abaixo).
  • Como encontrar o buraco não é o ponto principal desse desafio, ele será composto apenas por marcas de hash #para facilitar a identificação.
  • Nenhum outro local no parágrafo de entrada terá uma marca de hash.
  • Seu código não pode usar o texto "normal" nos exemplos abaixo - ele receberá e processará apenas o texto com o orifício nele.
  • A entrada pode ser como uma única string de várias linhas, como uma matriz de strings (um elemento por linha), como um arquivo etc. - sua escolha do que for mais conveniente para o seu idioma.
  • Se desejado, uma entrada adicional opcional detalhando as coordenadas do furo pode ser obtida (por exemplo, uma tupla de coordenadas ou similares).
  • Descreva seu algoritmo em seu envio.


Os eleitores são convidados a julgar as entradas com base em quão bem o algoritmo preenche o espaço do texto. Algumas sugestões incluem o seguinte:

  • A área preenchida corresponde à distribuição aproximada de espaços e pontuação como o restante do parágrafo?
  • A área preenchida apresenta uma sintaxe com defeito? (por exemplo, dois espaços seguidos, um período seguido de um ponto de interrogação, uma sequência incorreta como, , etc.)
  • Se você apertar os olhos (para não ler o texto), consegue ver onde ficava o buraco?
  • Se não houver palavras do CamelCase fora do buraco, ele contém alguma? Se não houver letras maiúsculas fora do buraco, o buraco contém alguma? Se houver muitas letras maiúsculas fora do furo, o furo contém uma quantidade proporcional?

Critério de validade

Para que uma submissão seja considerada válida, ela não deve alterar nenhum texto do parágrafo fora do furo (incluindo espaços finais). Uma única nova linha final no final é opcional.

Casos de teste

O formato é um parágrafo original em um bloco de código, seguido pelo mesmo parágrafo com um furo. Os parágrafos com o furo serão usados ​​para entrada.

1 (Corrigir a imagem)

In a popular image editing software there is a feature, that patches (The term
used in image processing is inpainting as @minxomat pointed out.) a selected
area of an image, based on the information outside of that patch. And it does a
quite good job, considering it is just a program. As a human, you can sometimes
see that something is wrong, but if you squeeze your eyes or just take a short
glance, the patch seems to fill in the gap quite well.

In a popular image editing software there is a feature, that patches (The term
used in image processing is inpainting as @minxomat pointed out.) a selected
area of an image, #############information outside of that patch. And it does a
quite good job, co#############is just a program. As a human, you can sometimes
see that something#############t if you squeeze your eyes or just take a short
glance, the patch seems to fill in the gap quite well.

2 (Endereço de Gettysburg)

But, in a larger sense, we can not dedicate, we can not consecrate, we can not
hallow this ground. The brave men, living and dead, who struggled here, have
consecrated it, far above our poor power to add or detract. The world will
little note, nor long remember what we say here, but it can never forget what
they did here. It is for us the living, rather, to be dedicated here to the
unfinished work which they who fought here have thus far so nobly advanced. It
is rather for us to be here dedicated to the great task remaining before us-
that from these honored dead we take increased devotion to that cause for which
they gave the last full measure of devotion-that we here highly resolve that
these dead shall not have died in vain-that this nation, under God, shall have
a new birth of freedom-and that government of the people, by the people, for
the people, shall not perish from the earth.

But, in a larger sense, we can not dedicate, we can not consecrate, we can not
hallow this ground. The brave men, living and dead, who struggled here, have
consecrated it, far above our poor power to add or detract. The world will
little note, nor long remember what we say here, but it can never forget what
they did here. It is for us the living, rather, to be dedicated here to the
unfinished work which they who fought here h######################advanced. It
is rather for us to be here dedicated to the######################before us-
that from these honored dead we take increas######################use for which
they gave the last full measure of devotion-######################solve that
these dead shall not have died in vain-that ######################, shall have
a new birth of freedom-and that government of the people, by the people, for
the people, shall not perish from the earth.

3 (Lorem Ipsum)

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do
eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim
ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut
aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit
in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur
sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt
mollit anim id est laborum.

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do
eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim
ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut
aliquip ex ea commodo conse################irure dolor in reprehenderit
in voluptate velit esse cil################giat nulla pariatur. Excepteur
sint occaecat cupidatat non################in culpa qui officia deserunt
mollit anim id est laborum.

4 (Jabberwocky)

'Twas brillig, and the slithy toves
Did gyre and gimble in the wabe;
All mimsy were the borogoves,
And the mome raths outgrabe.

'Twas brillig, and the slithy toves
Did gyre a######### in the wabe;
All mimsy #########borogoves,
And the mome raths outgrabe.

5 (Prova de Euclides do Teorema de Pitágoras)

1.Let ACB be a right-angled triangle with right angle CAB.
2.On each of the sides BC, AB, and CA, squares are drawn,
CBDE, BAGF, and ACIH, in that order. The construction of
squares requires the immediately preceding theorems in Euclid,
and depends upon the parallel postulate. [footnote 14]
3.From A, draw a line parallel to BD and CE. It will
perpendicularly intersect BC and DE at K and L, respectively.
4.Join CF and AD, to form the triangles BCF and BDA.
5.Angles CAB and BAG are both right angles; therefore C, A,
and G are collinear. Similarly for B, A, and H.
6.Angles CBD and FBA are both right angles; therefore angle ABD
equals angle FBC, since both are the sum of a right angle and angle ABC.
7.Since AB is equal to FB and BD is equal to BC, triangle ABD
must be congruent to triangle FBC.
8.Since A-K-L is a straight line, parallel to BD, then rectangle
BDLK has twice the area of triangle ABD because they share the base
BD and have the same altitude BK, i.e., a line normal to their common
base, connecting the parallel lines BD and AL. (lemma 2)
9.Since C is collinear with A and G, square BAGF must be twice in area
to triangle FBC.
10.Therefore, rectangle BDLK must have the same area as square BAGF = AB^2.
11.Similarly, it can be shown that rectangle CKLE must have the same
area as square ACIH = AC^2.
12.Adding these two results, AB^2 + AC^2 = BD × BK + KL × KC
13.Since BD = KL, BD × BK + KL × KC = BD(BK + KC) = BD × BC
14.Therefore, AB^2 + AC^2 = BC^2, since CBDE is a square.

1.Let ACB be a right-angled triangle with right angle CAB.
2.On each of the sides BC, AB, and CA, squares are drawn,
CBDE, BAGF, and ACIH, in that order. The construction of
squares requires the immediately preceding theorems in Euclid,
and depends upon the parallel postulate. [footnote 14]
3.From A, draw a line parallel to BD and CE. It will
perpendicularly intersect BC and DE at K and L, respectively.
4.Join CF and AD, to form the triangles BCF and BDA.
5.Angles CAB and BAG are both right angles; therefore C, A,
and G are #############milarly for B, A, and H.
6.Angles C#############e both right angles; therefore angle ABD
equals ang############# both are the sum of a right angle and angle ABC.
7.Since AB#############FB and BD is equal to BC, triangle ABD
must be co#############iangle FBC.
8.Since A-#############ight line, parallel to BD, then rectangle
BDLK has t############# of triangle ABD because they share the base
BD and hav#############titude BK, i.e., a line normal to their common
base, conn#############rallel lines BD and AL. (lemma 2)
9.Since C #############with A and G, square BAGF must be twice in area
to triangl#############
10.Therefo############# BDLK must have the same area as square BAGF = AB^2.
11.Similar############# shown that rectangle CKLE must have the same
area as square ACIH = AC^2.
12.Adding these two results, AB^2 + AC^2 = BD × BK + KL × KC
13.Since BD = KL, BD × BK + KL × KC = BD(BK + KC) = BD × BC
14.Therefore, AB^2 + AC^2 = BC^2, since CBDE is a square.

6 (Texugo, Texugo, Texugo por weebl)

Badger, badger, badger, badger, badger,
badger, badger, badger, badger, badger
Mushroom, mushroom, a-
Badger, badger, badger, badger, badger,
badger, badger, badger, badger, badger
Mushroom, mushroom, a-
Badger, badger, badger, badger, badger,
badger, badger, badger, badger, badger
Mush-mushroom, a
Badger, badger, badger, badger, badger,
badger, badger, badger, badger, badger
Argh! Snake, a snake!
Snaaake! A snaaaake, oooh its a snake!

Badger, badger, badger, badger, badger,
badger, badger, badger, badger, badger
Mushroom, mushroom, a-
Badger##################badger, badger,
badger##################badger, badger
Badger##################badger, badger,
badger##################badger, badger
Mush-mushroom, a
Badger, badger, badger, badger, badger,
badger, badger, badger, badger, badger
Argh! Snake, a snake!
Snaaake! A snaaaake, oooh its a snake!

posso assumir o buraco é pelo menos três caracteres de largura
Rohan Jhunjhunwala

@RohanJhunjhunwala Sure. Dados os tamanhos do texto, essa é uma suposição bastante segura.

O exemplo de gettysburg aparentemente contém traços, que não são ascii simples. Basta apontar isso desde que você disse em seus comentários em uma das respostas que você usaria casos de teste simples ascii.

@ SuperJedi224 Obrigado - corrigido.



Python 2

Eu sei que o @atlasologist já postou uma solução em Python 2, mas a maneira como meu trabalho é um pouco diferente. Isso funciona percorrendo todos os buracos, de cima para baixo, da esquerda para a direita, olhando 5 caracteres para trás e para o personagem acima, e encontrando um personagem onde eles correspondam. Se vários caracteres forem encontrados, ele escolherá o mais comum. Caso não sejam encontrados caracteres, ele remove a restrição de caracteres acima. Se ainda não houver caracteres encontrados, isso diminuirá a quantidade de caracteres visualizados e será repetido.

def fix(paragraph, holeChar = "#"):
    lines = paragraph.split("\n")
    maxLineWidth = max(map(len, lines))
    lines = [list(line + " " * (maxLineWidth - len(line))) for line in lines]
    holes = filter(lambda pos: lines[pos[0]][pos[1]] == holeChar, [[y, x] for x in range(maxLineWidth) for y in range(len(lines))])

    n = 0
    for hole in holes:
        for i in range(min(hole[1], 5), 0, -1):
            currCh = lines[hole[0]][hole[1]]
            over = lines[hole[0] - 1][hole[1]]
            left = lines[hole[0]][hole[1] - i : hole[1]]

            same = []
            almost = []
            for y, line in enumerate(lines):
                for x, ch in enumerate(line):
                    if ch == holeChar:
                    if ch == left[-1] == " ":
                    chOver = lines[y - 1][x]
                    chLeft = lines[y][x - i : x]
                    if chOver == over and chLeft == left:
                    if chLeft == left:
            sortFunc = lambda x, lst: lst.count(x) / (paragraph.count(x) + 10) + lst.count(x)
            if same:
                newCh = sorted(same, key=lambda x: sortFunc(x, same))[-1]
            elif almost:
                newCh = sorted(almost, key=lambda x: sortFunc(x, almost))[-1]
            lines[hole[0]][hole[1]] = newCh

    return "\n".join(map("".join, lines))

Aqui está o resultado de Texugo, Texugo, Texugo:

Badger, badger, badger, badger, badger,
badger, badger, badger, badger, badger 
Mushroom, mushroom, a-                 
Badger, badger, badger, badger, badger,
badger, badger, badger, badger, badger 
Mushroom, mushroom, a- b               
Badger, badger, badger, badger, badger,
badger, badger, badger, badger, badger 
Mush-mushroom, a                       
Badger, badger, badger, badger, badger,
badger, badger, badger, badger, badger 
Argh! Snake, a snake!                  
Snaaake! A snaaaake, oooh its a snake! 

Aqui está o resultado da prova:

1.Let ACB be a right-angled triangle with right angle CAB.                 
2.On each of the sides BC, AB, and CA, squares are drawn,                  
CBDE, BAGF, and ACIH, in that order. The construction of                   
squares requires the immediately preceding theorems in Euclid,             
and depends upon the parallel postulate. [footnote 14]                     
3.From A, draw a line parallel to BD and CE. It will                       
perpendicularly intersect BC and DE at K and L, respectively.              
4.Join CF and AD, to form the triangles BCF and BDA.                       
5.Angles CAB and BAG are both right angles; therefore C, A,                
and G are the same areamilarly for B, A, and H.                            
6.Angles CAB and CA, sqe both right angles; therefore angle ABD            
equals angle ABD becaus both are the sum of a right angle and angle ABC.   
7.Since ABD because theFB and BD is equal to BC, triangle ABD              
must be construction ofiangle FBC.                                         
8.Since A-angle ABD becight line, parallel to BD, then rectangle           
BDLK has the same area  of triangle ABD because they share the base        
BD and have the base thtitude BK, i.e., a line normal to their common      
base, conngle and G, sqrallel lines BD and AL. (lemma 2)                   
9.Since C = BD × BK + with A and G, square BAGF must be twice in area     
to triangle FBC. (lemma                                                    
10.Therefore angle and  BDLK must have the same area as square BAGF = AB^2.
11.Similarly for B, A,  shown that rectangle CKLE must have the same       
area as square ACIH = AC^2.                                                
12.Adding these two results, AB^2 + AC^2 = BD × BK + KL × KC             
13.Since BD = KL, BD × BK + KL × KC = BD(BK + KC) = BD × BC             
14.Therefore, AB^2 + AC^2 = BC^2, since CBDE is a square.

E o resultado de Jabberwocky:

'Twas brillig, and the slithy toves
Did gyre and the mo in the wabe;   
All mimsy toves, anborogoves,      
And the mome raths outgrabe.       

Esse Texugo é bastante impressionante, e Jabberwocky parece que poderia ser o poema legítimo. Bom trabalho.
AdmBorkBork 29/07


Python 2

Esta é uma solução bastante direta. Ele cria uma sequência de amostra composta por palavras que estão entre o comprimento médio das palavras A- ( A/ 2) e A+ (A / 2) e, em seguida, aplica pedaços aparados no espaço inicial e final da amostra para a área de amostra. Ele não lida com letras maiúsculas e minúsculas, e tenho certeza de que existe um caso de teste de curva curva que o quebraria, mas funciona bem nos exemplos. Veja o link abaixo para executar todos os testes.

Também coloquei um patch no código para uma boa medida.

def patch(paragraph):
    sample = [x.split() for x in paragraph if x.count('#') < 1]
    length = max([x.count('#') for x in paragraph if x.find('#')])
    s = sum(####################
    ])      ####################
    len(w)  ####################
    for w in####################
    avg_range = range(avg-(avg//2),avg+(avg//2))
    sample = filter(lambda x:len(x) in avg_range, s)
    for line in paragraph:
        if line.find('#'):height+=1
        print line.replace('#'*length,' '.join(sample)[(height-1)*length:height*length].strip())
    print '\n'

Lorem Ipsum, original então remendado:

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do
eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim
ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut
aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit
in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur
sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt
mollit anim id est laborum.

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do
eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim
ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut
aliquip ex ea commodo conseore dolore magnairure dolor in reprehenderit
in voluptate velit esse cilenim minim quisgiat nulla pariatur. Excepteur
sint occaecat cupidatat nonnisi mollit aniin culpa qui officia deserunt
mollit anim id est laborum.


Hehe mushroger...
AdmBorkBork 29/07

Bem, ele não corrige seu código de uma maneira interessante.

@ mbomb007 é por causa dos outros #caracteres no código.

@ atlasologist Mesmo que você os mude para outra coisa @, nada de interessante.


Java Shakespeare

Quem precisa de uma compreensão das convenções padrão em inglês? Apenas faça o seu! Assim como o bardo foi autorizado a inventar suas próprias palavras. Este bot não se preocupa muito em corrigir as palavras cortadas, ele realmente apenas insere palavras aleatórias. O resultado é uma bela poesia. Como um recurso de bônus, o bardo é de um calibre mais alto e pode lidar com vários orifícios, desde que sejam do mesmo tamanho!

Entrada de amostra

 Das criaturas mais justas, desejamos aumentar,
  Que assim a rosa da beleza pode nunca morrer,
  Mas como o matador deveria, com o tempo, desaparecer,
  Sua proposta ############ guarda sua memória:
  Mas tu c ############ teus próprios olhos brilhantes,
  Alimente ############ com combustível auto-substancial,
  Fazendo uma fome onde há abundância,
  Tu mesmo, teu inimigo, para o teu doce eu é muito cruel:
  Tu que agora és o novo ornamento do mundo,
  E apenas anunciar a primavera berrante,
  Dentro do teu próprio botão enterrar teu conteúdo,
  E o concurso churl mak'st foi ############ ding:
    Tenha pena do mundo, ou então t ############# seja,
    Para comer o que é devido no mundo, b e ti.

  Quando quarenta invernos cercarem tua testa,
  E cavar trincheiras profundas no campo da tua beleza,
  A libré orgulhosa da tua juventude, agora contemplada,
  Será uma erva esfarrapada de pequeno valor realizada:  
  Então, sendo perguntado, onde está toda a tua beleza,
  Onde todo o tesouro dos teus dias luxuriantes;
  Para dizer dentro dos teus próprios olhos fundos e profundos,
  Era uma vergonha que tudo comia, e elogios sem piedade.
  Quanto mais elogios mereciam o uso da tua beleza,
  Se você pudesse responder 'Este meu belo filho
  Vou somar minha conta e dar minha velha desculpa
  Provando sua beleza por sucessão tua.
    Isso deveria ser feito de novo quando você for velho,
    E veja seu sangue quente quando sentir frio.

  Olhe em seu copo e diga o rosto que vê,
  Agora é a hora em que o rosto deve formar outro,
  Cujo reparo renovado, se agora não renovares,
  Engana o mundo, abençõe alguma mãe.
  Pois onde ela é tão bela, cujo útero não solto
  Desdenha a lavoura de tua criação?
  Ou quem ele gosta tanto será o túmulo,
  De seu amor próprio para parar a posteridade?  
  Tu és o copo de tua mãe e ela em ti
  Lembra de volta o adorável abril de sua prima,
  Então tu através das janelas da tua era verás,
  Apesar de ############ s teu tempo de ouro.
    Mas se o ############ mbered não ser,
    A única imagem ############ morre com você.

Saída bonita

 Das criaturas mais justas, desejamos aumentar,
  Que assim a rosa da beleza pode nunca morrer,
  Mas como o matador deveria, com o tempo, desaparecer,
  Sua proposta deve guardar sua memória:
  Mas tu cravaste todos os teus olhos brilhantes,
  Alimente a prova ou combustível com combustível substancial
  Fazendo uma fome onde há abundância,
  Tu mesmo, teu inimigo, para o teu doce eu é muito cruel:
  Tu que agora és o novo ornamento do mundo,
  E apenas anunciar a primavera berrante,
  Dentro do teu próprio botão enterrar teu conteúdo,
  E a ternura de quem você é, meu amigo:
    Tenha pena do mundo, ou então t Então seja o que for,
    Para comer o que é devido no mundo, entre você e você.

  Quando quarenta invernos cercarem tua testa,
  E cavar trincheiras profundas no campo da tua beleza,
  A libré orgulhosa da tua juventude, agora contemplada,
  Será uma erva esfarrapada de pequeno valor realizada:  
  Então, sendo perguntado, onde está toda a tua beleza,
  Onde todo o tesouro dos teus dias luxuriantes;
  Para dizer dentro dos teus próprios olhos fundos e profundos,
  Era uma vergonha que tudo comia, e elogios sem piedade.
  Quanto mais elogios mereciam o uso da tua beleza,
  Se você pudesse responder 'Este meu belo filho
  Vou somar minha conta e dar minha velha desculpa
  Provando sua beleza por sucessão tua.
    Isso deveria ser feito de novo quando você for velho,
    E veja seu sangue quente quando sentir frio.

  Olhe em seu copo e diga o rosto que vê,
  Agora é a hora em que o rosto deve formar outro,
  Cujo reparo renovado, se agora não renovares,
  Engana o mundo, abençõe alguma mãe.
  Pois onde ela é tão bela, cujo útero não solto
  Desdenha a lavoura de tua criação?
  Ou quem ele gosta tanto será o túmulo,
  De seu amor próprio para parar a posteridade?  
  Tu és o copo de tua mãe e ela em ti
  Lembra de volta o adorável abril de sua prima,
  Então tu através das janelas da tua era verás,
  Apesar de Look, olhou para o teu tempo de ouro.
    Mas se th Quando for, mbered para não ser,
    O único reparo a imagem morre contigo.

As duas últimas linhas são profundamente poéticas, se é que digo. Ele tem um desempenho surpreendentemente bom no endereço de gettysburg também.

But, in a larger sense, we can not dedicate, we can not consecrate, we can not
hallow this ground. The brave men, living and dead, who struggled here, have
consecrated it, far above our poor power to add or detract. The world will
little note, nor long remember what we say here, but it can never forget what
they did here. It is for us the living, rather, to be dedicated here to the
unfinished work which they who fought here h to of rather us of advanced. It
is rather for us to be here dedicated to the who be it, vain who before us 
that from these honored dead we take increas be dead the the what use for which
they gave the last full measure of devotion  dead government The solve that
these dead shall not have died in vain that  the take nor world , shall have
a new birth of freedom and that government of the people, by the people, for
the people, shall not perish from the earth.

Vamos ver o que faz Shakespeare funcionar. Aqui está o código. Essencialmente, ele se esforça para construir uma base de vocabulário a partir da entrada. Ele então usa essas palavras e as coloca aleatoriamente no buraco (garantindo que elas se encaixem bem). Ele é determinístico, pois usa uma semente fixa para a aleatoriedade.

package stuff;

import java.util.ArrayList;
import java.util.Arrays;
import java.util.Iterator;
import java.util.Random;
import java.util.Scanner;
import java.util.Stack;

 * @author rohan
public class PatchTheParagraph {

     * @param args the command line arguments
    public static void main(String[] args) {
Scanner in = new Scanner(;
System.out.println("File Name :");
        String[] text = getWordsFromFile(in.nextLine());
        for(String s:text){
                    int lengthOfHole= 0;
        int rows = 0;
            for(String s: text){
                s = s.replaceAll("[^#]", "");

//      System.out.println(s);
                    lengthOfHole = s.length();
            ArrayList<String> words = new ArrayList<>();
            for(String s:text){
                String[] w = s.replaceAll("#", " ").split(" ");
for(String a :w){

                        Iterator<String> j = words.iterator();
                String o;
                if((o ="")){
            Stack<String> out = new Stack<>();
            String hashRow = "";
            for(int i = 0;i<lengthOfHole;i++){

        for(int i = 0;i<rows;i++){
            int length = lengthOfHole-1; 
            String outPut = " ";
String wordAttempt = words.get(getRandom(words.size()-1));
 wordAttempt = words.get(getRandom(words.size()-1));
length -= wordAttempt.length()+1;
                outPut+=" ";
        for(String s : text){
public static final Random r = new Random(42);
    public static int getRandom(int max){
    return (int) (max*r.nextDouble());
     * @param fileName is the path to the file or just the name if it is local
     * @return the number of lines in fileName
    public static int getLengthOfFile(String fileName) {
        int length = 0;
        try {
            File textFile = new File(fileName);
            Scanner sc = new Scanner(textFile);
            while (sc.hasNextLine()) {
        } catch (Exception e) {
        return length;

     * @param fileName is the path to the file or just the name if it is local
     * @return an array of Strings where each string is one line from the file
     * fileName.
    public static String[] getWordsFromFile(String fileName) {
        int lengthOfFile = getLengthOfFile(fileName);
        String[] wordBank = new String[lengthOfFile];
        int i = 0;
        try {
            File textFile = new File(fileName);
            Scanner sc = new Scanner(textFile);
            for (i = 0; i < lengthOfFile; i++) {
                wordBank[i] = sc.nextLine();
            return wordBank;
        } catch (Exception e) {
        return null;

A maior parte da poesia de Shakespeare é de domínio público.

Comentários não são para discussão prolongada; esta conversa foi movida para o bate-papo .


Python 2.7

Outra solução Python com uma abordagem diferente. Meu programa vê o texto como uma cadeia de Markov , onde cada letra é seguida por outra com uma certa probabilidade. Portanto, o primeiro passo é construir a tabela de probabilidades. O próximo passo é aplicar essas probabilidades ao patch.

O código completo, incluindo um texto de exemplo, está abaixo. Como um exemplo usou caracteres unicode, incluí uma página de códigos explícita (utf-8) para compatibilidade com esse exemplo.

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from collections import defaultdict
import numpy

texts = [
"""'Twas brillig, and the slithy toves
Did gyre a######### in the wabe;
All mimsy #########borogoves,
And the mome raths outgrabe."""

class Patcher:
    def __init__(self):
        self.mapper = defaultdict(lambda: defaultdict(int))

    def add_mapping(self, from_value, to_value):
        self.mapper[from_value][to_value] += 1

    def get_patch(self, from_value):
        if from_value in self.mapper:
            sum_freq = sum(self.mapper[from_value].values())
            return numpy.random.choice(
                p = numpy.array(
                    self.mapper[from_value].values(),dtype=numpy.float64) / sum_freq)
            return None

def add_text_mappings(text_string, patcher = Patcher(), ignore_characters = ''):
    previous_letter = text_string[0]
    for letter in text_string[1:]:
        if not letter in ignore_characters:
            patcher.add_mapping(previous_letter, letter)
            previous_letter = letter
    patcher.add_mapping(text_string[-1], '\n')

def patch_text(text_string, patcher, patch_characters = '#'):
    result = previous_letter = text_string[0]
    for letter in text_string[1:]:
        if letter in patch_characters:
            result += patcher.get_patch(previous_letter)
            result += letter
        previous_letter = result[-1]
    return result

def main():
    for text in texts:
        patcher = Patcher()
        add_text_mappings(text, patcher, '#')
        print patch_text(text, patcher, '#')
        print "\n"

if __name__ == '__main__':

Exemplo de saída para o Lorem Ipsum:

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do
eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim
ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut
aliquip ex ea commodo conse Exe eut ccadamairure dolor in reprehenderit
in voluptate velit esse cilore indipserexepgiat nulla pariatur. Excepteur
sint occaecat cupidatat non upir alostat adin culpa qui officia deserunt
mollit anim id est laborum.

Uma linha poética extra no Jabberwocky:

'Twas brillig, and the slithy toves
Did gyre and me the in the wabe;
All mimsy was
An inborogoves,
And the mome raths outgrabe.

Qual texto de exemplo possui Unicode? Todos devem ser ASCII diretos. Informe-me e eu o corrigirei.

O Python reclama do mınxomaτ no primeiro texto, referindo-se ao PEP 263 .

Ah - nem percebi. Eu editei isso para ser ASCII direto. Obrigado por me avisar!


C # 5 maciço como sempre

Eu joguei isso juntos, é um pouco confuso, mas produz alguns resultados positivos algumas vezes. É um algoritmo principalmente determinístico, mas com alguma aleatoriedade (semente fixa) adicionada para evitar que produza a mesma sequência para lacunas semelhantes. É necessário algum esforço para tentar evitar apenas colunas de espaços em ambos os lados das lacunas.

Ele funciona tokenizando a entrada em palavras e pontuação (a pontuação vem de uma lista inserida manualmente, porque não posso me incomodar em descobrir se o Unicode pode fazer isso por mim), para que possa colocar espaços antes das palavras, e não antes pontuação, porque isso é bastante típico. Divide-se no espaço em branco típico. Na veia das cadeias de markov (acho), conta quantas vezes cada token segue um ao outro e, em seguida, não calcula probabilidades para isso (acho que, como os documentos são muito pequenos, faríamos melhor em favorecer as coisas vemos muito onde podemos). Em seguida, realizamos uma pesquisa abrangente, preenchendo o espaço deixado pelos hashes e pelas palavras 'parciais' de ambos os lados, com o custo sendo computado como -fabness(last, cur) * len(cur_with_space), ondefabness retorna o número de vezes que curse seguiulastpara cada token anexado na cadeia gerada. Naturalmente, tentamos minimizar o custo. Como nem sempre podemos preencher a lacuna com palavras e pontuação encontradas no documento, ele também considera um número de tokens 'especiais' de certos estados, incluindo as seqüências parciais de ambos os lados, contra as quais fazemos viés com custos arbitrariamente aumentados.

Se o BFS não conseguir encontrar uma solução, tentamos ingenuamente escolher um advérbio aleatório ou apenas inserir espaços para preencher o espaço.


Todos os 6 podem ser encontrados aqui:

O caso de teste de Euclides não correu muito bem ...

Corrigir a imagem

In a popular image editing software there is a feature, that patches (The term
used in image processing is inpainting as @minxomat pointed out.) a selected
area of an image, that patches information outside of that patch. And it does a
quite good job, co the patch a is just a program. As a human, you can sometimes
see that something In a short it if you squeeze your eyes or just take a short
glance, the patch seems to fill in the gap quite well.


'Twas brillig, and the slithy toves
Did gyre and the in in the wabe;
All mimsy the mome borogoves,
And the mome raths outgrabe.


Badger, badger, badger, badger, badger,
badger, badger, badger, badger, badger
Mushroom, mushroom, a-
Badger, badger, badger, badger, badger,
badger, badger, badger, badger, badger
Mushroom, badger, badger
Badger, badger, badger, badger, badger,
badger, badger, badger, badger, badger
Mush-mushroom, a
Badger, badger, badger, badger, badger,
badger, badger, badger, badger, badger
Argh! Snake, a snake!
Snaaake! A snaaaake, oooh its a snake!

_Estou feliz com a forma como esta acabou ... é feliz que "texugo, texugo" se encaixa, ou esse não teria se saído tão bem


Execute-o com

csc ParaPatch.cs
ParaPatch.exe infile outfile

Existe bastante disso. A única parte remotamente interessante é o Fillmétodo. Incluo a implementação da pilha, porque o .NET não possui uma (POR QUE MS POR QUE ?!).

using System;
using System.Collections.Generic;
using System.Linq;

namespace ParaPatch
    class Program
        private static string[] Filler = new string[] { "may", "will", "maybe", "rather", "perhaps", "reliably", "nineword?", "definitely", "elevenword?", "inexplicably" }; // adverbs
        private static char[] Breaking = new char[] { ' ', '\n', '\r', '\t' };
        private static char[] Punctuation = new char[] { ',', '.', '{', '}', '(', ')', '/', '?', ':', ';', '\'', '\\', '"', ',', '!', '-', '+', '[', ']', '£', '$', '%', '^', '—' };

        private static IEnumerable<string> TokenizeStream(System.IO.StreamReader reader)
            System.Text.StringBuilder sb = new System.Text.StringBuilder();

            HashSet<char> breaking = new HashSet<char>(Breaking);
            HashSet<char> punctuation = new HashSet<char>(Punctuation);

            while (!reader.EndOfStream)
                int ci = reader.Read();
                if (ci == -1) // sanity

                char c = (char)ci;

                if (breaking.Contains(c))
                    if (sb.Length > 0)
                        yield return sb.ToString();
                else if (punctuation.Contains(c))
                    if (sb.Length > 0)
                        yield return sb.ToString();
                    yield return ""+c;


            if (sb.Length > 0)
                yield return sb.ToString();

        private enum DocTokenTypes

        private class DocToken
            public DocTokenTypes TokenType { get; private set; }
            public string StringPart { get; private set; }
            public int Length { get; private set; }

            public DocToken(DocTokenTypes tokenType, string stringPart, int length)
                TokenType = tokenType;
                StringPart = stringPart;
                Length = length;

        private static IEnumerable<DocToken> DocumentTokens(IEnumerable<string> tokens)
            foreach (string token in tokens)
                if (token.Contains("#"))
                    int l = token.IndexOf("#");
                    int r = token.LastIndexOf("#");

                    if (l > 0)
                        yield return new DocToken(DocTokenTypes.LeftPartial, token.Substring(0, l), l);

                    yield return new DocToken(DocTokenTypes.Unknown, null, r - l + 1);

                    if (r < token.Length - 1)
                        yield return new DocToken(DocTokenTypes.RightPartial, token.Substring(r + 1), token.Length - r - 1);
                    yield return new DocToken(DocTokenTypes.Known, token, token.Length);

        private class State : IComparable<State>
            // missing readonly params already... maybe C#6 isn't so bad
            public int Remaining { get; private set; }
            public int Position { get; private set; }
            public State Prev { get; private set; }
            public string Token { get; private set; }
            public double H { get; private set; }
            public double Fabness { get; private set; }
            public string FullFilling { get; private set; }

            public State(int remaining, int position, Program.State prev, double fabness, double h, string token, string toAdd)
                Remaining = remaining;
                Position = position;
                Prev = prev;
                H = h;
                Fabness = fabness;
                Token = token;

                FullFilling = prev != null ? prev.FullFilling + toAdd : toAdd;

            public int CompareTo(State other)
                return H.CompareTo(other.H);

        public static void Main(string[] args)
            if (args.Length < 2)
                args = new string[] { "test.txt", "testout.txt" };

            List<DocToken> document;
            using (System.IO.StreamReader reader = new System.IO.StreamReader(args[0], System.Text.Encoding.UTF8))
                document = DocumentTokens(TokenizeStream(reader)).ToList();

            foreach (DocToken cur in document)
                Console.WriteLine(cur.StringPart + " " + cur.TokenType);

            // these are small docs, don't bother with more than 1 ply
            Dictionary<string, Dictionary<string, int>> FollowCounts = new Dictionary<string, Dictionary<string, int>>();
            Dictionary<string, Dictionary<string, int>> PreceedCounts = new Dictionary<string, Dictionary<string, int>>(); // mirror (might be useful)

            HashSet<string> knowns = new HashSet<string>(); // useful to have lying around

            // build counts
            DocToken last = null;
            foreach (DocToken cur in document)
                if (cur.TokenType == DocTokenTypes.Known)

                if (last != null && last.TokenType == DocTokenTypes.Known && cur.TokenType == DocTokenTypes.Known)
                        Dictionary<string, int> ltable;
                        if (!FollowCounts.TryGetValue(last.StringPart, out ltable))
                            FollowCounts.Add(last.StringPart, ltable = new Dictionary<string, int>());

                        int count;
                        if (!ltable.TryGetValue(cur.StringPart, out count))
                            count = 0;
                        ltable[cur.StringPart] = count + 1;

                        Dictionary<string, int> ctable;
                        if (!PreceedCounts.TryGetValue(cur.StringPart, out ctable))
                            PreceedCounts.Add(cur.StringPart, ctable = new Dictionary<string, int>());

                        int count;
                        if (!ctable.TryGetValue(last.StringPart, out count))
                            count = 0;
                        ctable[last.StringPart] = count + 1;

                last = cur;

            // build probability grid (none of this efficient table filling dynamic programming nonsense, A* all the way!)
            // hmm... can't be bothered
            Dictionary<string, Dictionary<string, double>> fabTable = new Dictionary<string, Dictionary<string, double>>();
            foreach (var k in FollowCounts)
                Dictionary<string, double> t = new Dictionary<string, double>();

                // very naive
                foreach (var k2 in k.Value)
                    t.Add(k2.Key, (double)k2.Value);

                fabTable.Add(k.Key, t);

            string[] knarr = knowns.ToArray();
            Random rnd = new Random("ParaPatch".GetHashCode());

            List<string> fillings = new List<string>();
            for (int i = 0; i < document.Count; i++)
                if (document[i].TokenType == DocTokenTypes.Unknown)
                    // shuffle knarr
                    for (int j = 0; j < knarr.Length; j++)
                        string t = knarr[j];
                        int o = rnd.Next(knarr.Length);
                        knarr[j] = knarr[o];
                        knarr[o] = t;

                    fillings.Add(Fill(document, fabTable, knarr, i));

            string filling = string.Join("", fillings);

            int fi = 0;

            using (System.IO.StreamWriter writer = new System.IO.StreamWriter(args[1]))
            using (System.IO.StreamReader reader = new System.IO.StreamReader(args[0]))
                while (!reader.EndOfStream)
                    int ci = reader.Read();
                    if (ci == -1)

                    char c = (char)ci;
                    c = c == '#' ? filling[fi++] : c;


//            using (System.IO.StreamWriter writer = new System.IO.StreamWriter(args[1], false, System.Text.Encoding.UTF8))
//            using (System.IO.StreamReader reader = new System.IO.StreamReader(args[0]))
//            {
//                foreach (char cc in reader.ReadToEnd())
//                {
//                    char c = cc;
//                    c = c == '#' ? filling[fi++] : c;
//                    writer.Write(c);
//                    Console.Write(c);
//                }
//            }

            if (args[0] == "test.txt")

        private static string Fill(List<DocToken> document, Dictionary<string, Dictionary<string, double>> fabTable, string[] knowns, int unknownIndex)
            HashSet<char> breaking = new HashSet<char>(Breaking);
            HashSet<char> punctuation = new HashSet<char>(Punctuation);

            Heap<State> due = new Heap<Program.State>(knowns.Length);

            Func<string, string, double> fabness = (prev, next) =>
                Dictionary<string, double> table;
                if (!fabTable.TryGetValue(prev, out table))
                    return 0; // not fab
                double fab;
                if (!table.TryGetValue(next, out fab))
                    return 0; // not fab
                return fab; // yes fab

            DocToken mostLeft = unknownIndex > 2 ? document[unknownIndex - 2] : null;
            DocToken left = unknownIndex > 1 ? document[unknownIndex - 1] : null;
            DocToken unknown = document[unknownIndex];
            DocToken right = unknownIndex < document.Count - 2 ? document[unknownIndex + 1] : null;
            DocToken mostRight = unknownIndex < document.Count - 3 ? document[unknownIndex + 2] : null;

            // sum of empty space and partials' lengths
            int spaceSize = document[unknownIndex].Length
                + (left != null && left.TokenType == DocTokenTypes.LeftPartial ? left.Length : 0)
                + (right != null && right.TokenType == DocTokenTypes.RightPartial ? right.Length : 0);

            int l = left != null && left.TokenType == DocTokenTypes.LeftPartial ? left.Length : 0;
            int r = l + unknown.Length;

            string defaultPrev =
                left != null && left.TokenType == DocTokenTypes.Known ? left.StringPart :
                mostLeft != null && mostLeft.TokenType == DocTokenTypes.Known ? mostLeft.StringPart :

            string defaultLast =
                right != null && right.TokenType == DocTokenTypes.Known ? right.StringPart :
                mostRight != null && mostRight.TokenType == DocTokenTypes.Known ? mostRight.StringPart :

            Func<string, string> topAndTail = str =>
                return str.Substring(l, r - l);

            Func<State, string, double, bool> tryMove = (State prev, string token, double specialFabness) => 
                bool isPunctionuation = token.Length == 1 && punctuation.Contains(token[0]);
                string addStr = isPunctionuation || prev == null ? token : " " + token;
                int addLen = addStr.Length;

                int newRemaining = prev != null ? prev.Remaining - addLen : spaceSize - addLen;
                int oldPosition = prev != null ? prev.Position : 0;
                int newPosition = oldPosition + addLen;

                // check length
                if (newRemaining < 0)
                    return false;

                // check start
                if (oldPosition < l) // implies left is LeftPartial
                    int s = oldPosition;
                    int e = newPosition > l ? l : newPosition;
                    int len = e - s;
                    if (addStr.Substring(0, len) != left.StringPart.Substring(s, len))
                        return false; // doesn't match LeftPartial

                // check end
                if (newPosition > r) // implies right is RightPartial
                    int s = oldPosition > r ? oldPosition : r;
                    int e = newPosition;
                    int len = e - s;
                    if (addStr.Substring(s - oldPosition, len) != right.StringPart.Substring(s - r, len))
                        return false; // doesn't match RightPartial

                if (newRemaining == 0)
                    // could try to do something here (need to change H)

                string prevToken = prev != null ? prev.Token : defaultPrev;
                bool isLastunctionuation = prevToken.Length == 1 && punctuation.Contains(prevToken[0]);

                if (isLastunctionuation && isPunctionuation) // I hate this check, it's too aggresive to be realistic
                    specialFabness -= 50;

                double fab = fabness(prevToken, token);

                if (fab < 1 && (token == prevToken))
                    fab = -1; // bias against unrecognised repeats

                double newFabness = (prev != null ? prev.Fabness : 0.0)
                    - specialFabness // ... whatever this is
                    - fab * addLen; // how probabilistic

                double h = newFabness; // no h for now

                State newState = new Program.State(newRemaining, newPosition, prev, newFabness, h, token, addStr);

//                Console.WriteLine((prev != null ? prev.Fabness : 0) + "\t" + specialFabness);
//                Console.WriteLine(newFabness + "\t" + h + "\t" + due.Count + "\t" + fab + "*" + addLen + "\t" + newState.FullFilling);

                return true;

            // just try everything everything
            foreach (string t in knowns)
                tryMove(null, t, 0);

            if (left != null && left.TokenType == DocTokenTypes.LeftPartial)
                tryMove(null, left.StringPart, -1);

            while (!due.Empty)
                State next = due.RemoveMin();

                if (next.Remaining == 0)
                    // we have a winner!!
                    return topAndTail(next.FullFilling);

                // just try everything
                foreach (string t in knowns)
                    tryMove(next, t, 0);
                if (right != null && right.TokenType == DocTokenTypes.RightPartial)
                    tryMove(next, right.StringPart, -5); // big bias

            // make this a tad less stupid, non?
            return Filler.FirstOrDefault(f => f.Length == unknown.Length) ?? new String(' ', unknown.Length); // oh dear...

    // Ultilities

    public class Heap<T> : System.Collections.IEnumerable where T : IComparable<T>
        // arr is treated as offset by 1, all idxes stored need to be -1'd to get index in arr
        private T[] arr;
        private int end = 0;

        private void s(int idx, T val)
            arr[idx - 1] = val;

        private T g(int idx)
            return arr[idx - 1];

        public Heap(int isize)
            if (isize < 1)
                throw new ArgumentException("Cannot be less than 1", "isize");

            arr = new T[isize];

        private int up(int idx)
            return idx / 2;

        private int downLeft(int idx)
            return idx * 2;

        private int downRight(int idx)
            return idx * 2 + 1;

        private void swap(int a, int b)
            T t = g(a);
            s(a, g(b));
            s(b, t);

        private void moveUp(int idx, T t)
            if (idx == 1)
                s(1, t);
                return; // at end

            int nextUp = up(idx);
            T n = g(nextUp);
            if (n.CompareTo(t) > 0)
                s(idx, n);
                idx = nextUp;
                goto again;
                s(idx, t);

        private void moveDown(int idx, T t)
            int nextLeft = downLeft(idx);
            int nextRight = downRight(idx);

            if (nextLeft > end)
                s(idx, t);
                return; // at end
            else if (nextLeft == end)
            { // only need to check left
                T l = g(nextLeft);

                if (l.CompareTo(t) < 0)
                    s(idx, l);
                    idx = nextLeft;
                    goto again;
                    s(idx, t);
            { // check both
                T l = g(nextLeft);
                T r = g(nextRight);

                if (l.CompareTo(r) < 0)
                { // left smaller (favour going right if we can)
                    if (l.CompareTo(t) < 0)
                        s(idx, l);
                        idx = nextLeft;
                        goto again;
                        s(idx, t);
                { // right smaller or same
                    if (r.CompareTo(t) < 0)
                        s(idx, r);
                        idx = nextRight;
                        goto again;
                        s(idx, t);

        public void Clear()
            end = 0;

        public void Trim()
            if (end == 0)
                arr = new T[1]; // don't /ever/ make arr len 0
                T[] narr = new T[end];
                for (int i = 0; i < end; i++)
                    narr[i] = arr[i];
                arr = narr;

        private void doubleSize()
            T[] narr = new T[arr.Length * 2];
            for (int i = 0; i < end; i++)
                narr[i] = arr[i];
            arr = narr;

        public void Add(T item)
            if (end == arr.Length)
                // resize

            moveUp(end, item);

        public T RemoveMin()
            if (end < 1)
                throw new Exception("No items, mate.");

            T min = g(1);

            if (end > 0)
                moveDown(1, g(end + 1));

            return min;

        public bool Empty
                return end == 0;

        public int Count
                return end;

        System.Collections.IEnumerator System.Collections.IEnumerable.GetEnumerator()
            return GetEnumerator();

        public IEnumerator<T> GetEnumerator()
            return (IEnumerator<T>)arr.GetEnumerator();
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.