K & R C - 188 196 199 229 caracteres
Com a especificação alterada para especificar uma função, posso obter grande parte da sobrecarga c da contagem. Também mudando para usar a contagem de sílabas dos Strigoides, que é melhor do que minha fórmula, ajustada e estendida para lidar com a contagem excessiva de palavras.
Depois que encontrei uma maneira mais curta de fazer a detecção de vogais, que infelizmente era baseada stdchr
, tive o incentivo de extrair um pouco mais da abominação que eu estava usando para não precisar ser chata.
d,a,v,s,t,w;float R(char*c){for(;*c;++c){s+=*c=='.';if(isalpha(*c)){
w+=!a++;d=(*c&30)>>1;if(*c&1&(d==7|((!(d&1))&(d<6|d>8)))){t+=!v++;}
else v=0;}else v=a=0;}return 206.835-1.*w/s-82.*t/w;}
A lógica aqui é uma máquina de estado simples. Conta frases por períodos apenas, palavras por sequências de caracteres alfabéticos e sílabas como sequências de vogais (incluindo y).
Eu tive que separar um pouco as constantes para que saíssem com os números certos, mas peguei emprestado o truque dos Strigoides de apenas subestimar as sílabas por uma fração fixa.
Sem golfe , com comentários e algumas ferramentas de depuração:
#include <stdlib.h>
#include <stdio.h>
d,a,/*last character was alphabetic */
v,/*lastcharacter was a vowel */
s, /* sentences counted by periods */
t, /* syllables counted by non-consequtive vowels */
w; /* words counted by non-letters after letters */
float R/*eadability*/(char*c){
for(;*c;++c){
s+=*c=='.';
if(isalpha(*c)){ /* a letter might mark the start of a word or a
vowel string */
w+=!a++; /* It is only the start of a word if the last character
wasn't a letter */
/* Extract the four bits of the character that matter in determining
* vowelness because a vowel might mark a syllable */
d=(*c&30)>>1;
if( *c&1 & ( d==7 | ( (!(d&1)) & (d<6|d>8) ) )
) { /* These bits 7 or even and not 6, 8 make for a
vowel */
printf("Vowel: '%c' (mangled as %d [0x%x]) counts:%d\n",*c,d,d,!v);
t+=!v++;
} else v=0; /* Not a vowel so set the vowel flag to zero */
}else v=a=0; /* this input not alphabetic, so set both the
alphabet and vowel flags to zero... */
}
printf("Syllables: %3i\n",t);
printf("Words: %3i (t/w) = %f\n",w,(1.0*t/w));
printf("Sentences: %3i (w/s) = %f\n",s,(1.0*w/s));
/* Constants tweaked here due to bad counting behavior ...
* were: 1.015 84.6 */
return 206.835-1. *w/s-82. *t/w;
}
main(c){
int i=0,n=100;
char*buf=malloc(n);
/* Suck in the whole input at once, using a dynamic array for staorage */
while((c=getc(stdin))!=-1){
if(i==n-1){ /* Leave room for the termination */
n*=1.4;
buf=realloc(buf,n);
printf("Reallocated to %d\n",n);
}
buf[i++]=c;
printf("%c %c\n",c,buf[i-1]);
}
/* Be sure the string is terminated */
buf[i]=0;
printf("'%s'\n",buf);
printf("%f\n",R/*eadability*/(buf));
}
Saída: (usando o andaime da versão longa, mas a função de golfe).
$ gcc readability_golf.c
readability_golf.c:1: warning: data definition has no type or storage class
$ ./a.out < readability1.txt
'I would not, could not, in the rain.
Not in the dark, not on a train.
Not in a car, not in a tree.
I do not like them, Sam, you see.
Not in a house, not in a box.
Not with a mouse, not with a fox.
I will not eat them here or there.
I do not like them anywhere!
'
104.074631
$ ./a.out < readability2.txt
'It was a bright cold day in April, and the clocks were striking thirteen.
Winston Smith, his chin nuzzled into his breast in an effort to escape
the vile wind, slipped quickly through the glass doors of Victory Mansions,
though not quickly enough to prevent a swirl of gritty dust from entering
along with him.
'
63.044090
$ ./a.out < readability3.txt
'When in the Course of human events, it becomes necessary for one people to
dissolve the political bands which have connected them with another, and to
assume among the powers of the earth, the separate and equal station to
which the Laws of Nature and of Nature's God entitle them, a decent respect
to the opinions of mankind requires that they should declare the causes
which impel them to the separation.
'
-1.831667
Deficiências:
- A lógica da contagem de sentenças está errada, mas eu me livrei disso porque apenas uma das entradas possui a
!
ou a ?
.
- A lógica de contagem de palavras tratará as contrações como duas palavras.
- A lógica de contagem de sílabas tratará essas mesmas contrações que uma sílaba. Mas provavelmente superconta em média (por exemplo,
there
é contada como duas e muitas palavras terminadas eme
serão contadas demais), então apliquei um fator constante de correção de 96,9%.
- Assume um conjunto de caracteres ASCII.
- Acredito que a detecção de vogal irá admitir
[
e {
, o que claramente não está certo.
- Muita confiança na semântica da K&R torna isso feio, mas ei, é código de golfe.
Coisas para olhar:
Estou (momentaneamente) à frente da solução python aqui, mesmo se estiver rastreando o perl.
Veja a coisa horrível que fiz para detectar vogais. Faz algum sentido se você escrever as representações ASCII em binário e ler o comentário na versão longa.