função de código de máquina x86 de 32 bits, 21 bytes
função de código de máquina x86-64, 22 bytes
A economia de 1B no modo de 32 bits requer o uso de separator = filler-1, por exemplo, fill=0
e sep=/
. A versão de 22 bytes pode usar uma escolha arbitrária de separador e preenchedor.
Esta é a versão de 21 bytes, com separador de entrada = \n
(0xa), preenchedor de 0
saída = , separador de saída = /
= preenchedor-1. Essas constantes podem ser facilmente alteradas.
; see the source for more comments
; RDI points to the output buffer, RSI points to the src string
; EDX holds the base
; This is the 32-bit version.
; The 64-bit version is the same, but the DEC is one byte longer (or we can just mov al,output_separator)
08048080 <str_exp>:
8048080: 6a 01 push 0x1
8048082: 59 pop ecx ; ecx = 1 = base**0
8048083: ac lods al,BYTE PTR ds:[esi] ; skip the first char so we don't do too many multiplies
; read an input row and accumulate base**n as we go.
08048084 <str_exp.read_bar>:
8048084: 0f af ca imul ecx,edx ; accumulate the exponential
8048087: ac lods al,BYTE PTR ds:[esi]
8048088: 3c 0a cmp al,0xa ; input_separator = newline
804808a: 77 f8 ja 8048084 <str_exp.read_bar>
; AL = separator or terminator
; flags = below (CF=1) or equal (ZF=1). Equal also implies CF=0 in this case.
; store the output row
804808c: b0 30 mov al,0x30 ; output_filler
804808e: f3 aa rep stos BYTE PTR es:[edi],al ; ecx bytes of filler
8048090: 48 dec eax ; mov al,output_separator
8048091: aa stos BYTE PTR es:[edi],al ;append delim
; CF still set from the inner loop, even after DEC clobbers the other flags
8048092: 73 ec jnc 8048080 <str_exp> ; new row if this is a separator, not terminator
8048094: c3 ret
08048095 <end_of_function>
; 0x95 - 0x80 = 0x15 = 21 bytes
A versão de 64 bits é 1 byte mais longa, usando um DEC de 2 bytes ou a mov al, output_separator
. Fora isso, o código da máquina é o mesmo para as duas versões, mas alguns nomes de registros são alterados (por exemplo, em rcx
vez de ecx
nopop
).
Exemplo de saída da execução do programa de teste (base 3):
$ ./string-exponential $'.\n..\n...\n....' $(seq 3);echo
000/000000000/000000000000000000000000000/000000000000000000000000000000000000000000000000000000000000000000000000000000000/
Algoritmo :
Faça um loop sobre a entrada, fazendo exp *= base
para cada caractere de preenchimento. Nos delimitadores e no byte zero final, acrescente exp
bytes de preenchimento e, em seguida, um separador à sequência de saída e redefina para exp=1
. É muito conveniente garantir que a entrada não termine com uma nova linha e um terminador.
Na entrada, qualquer valor de byte acima do separador (comparação não assinada) é tratado como preenchedor e qualquer valor de byte abaixo do separador é tratado como um marcador de fim de cadeia. (A verificação explícita de um byte zero levaria um tempo extra test al,al
vs. ramificação nos sinalizadores definidos pelo loop interno).
As regras permitem apenas um separador à direita quando é uma nova linha à direita. Minha implementação sempre anexa o separador. Para obter o salvamento de 1B no modo de 32 bits, essa regra requer separador = 0xa ( '\n'
ASCII LF = avanço de linha), preenchedor = 0xb ( '\v'
ASCII VT = guia vertical). Isso não é muito amigável ao ser humano, mas satisfaz a letra da lei. (Você pode fazer o hexdump ou
tr $'\v' x
a saída para verificar se funciona ou alterar a constante para que o separador e o preenchedor de saída sejam imprimíveis. Notei também que as regras parecem exigir que ele aceite entradas com o mesmo preenchimento / sep usado para saída , mas não vejo nada a ganhar por violar essa regra.).
Fonte NASM / YASM. Crie como código de 32 ou 64 bits, usando o %if
material incluído no programa de teste ou apenas altere rcx para ecx.
input_separator equ 0xa ; `\n` in NASM syntax, but YASM doesn't do C-style escapes
output_filler equ '0' ; For strict rules-compliance, needs to be input_separator+1
output_separator equ output_filler-1 ; saves 1B in 32-bit vs. an arbitrary choice
;; Using output_filler+1 is also possible, but isn't compatible with using the same filler and separator for input and output.
global str_exp
str_exp: ; void str_exp(char *out /*rdi*/, const char *src /*rsi*/,
; unsigned base /*edx*/);
.new_row:
push 1
pop rcx ; ecx=1 = base**0
lodsb ; Skip the first char, since we multiply for the separator
.read_bar:
imul ecx, edx ; accumulate the exponential
lodsb
cmp al, input_separator
ja .read_bar ; anything > separator is treated as filler
; AL = separator or terminator
; flags = below (CF=1) or equal (ZF=1). Equal also implies CF=0, since x-x doesn't produce carry.
mov al, output_filler
rep stosb ; append ecx bytes of filler to the output string
%if output_separator == output_filler-1
dec eax ; saves 1B in the 32-bit version. Use dec even in 64-bit for easier testing
%else
mov al, output_separator
%endif
stosb ; append the delimiter
; CF is still set from the .read_bar loop, even if DEC clobbered the other flags
; JNC/JNB here is equivalent to JE on the original flags, because we can only be here if the char was below-or-equal the separator
jnc .new_row ; separator means more rows, else it's a terminator
; (f+s)+f+ full-match guarantees that the input doesn't end with separator + terminator
ret
A função segue a ABI do x86-64 SystemV, com assinatura.
void str_exp(char *out /*rdi*/, const char *src /*rsi*/, unsigned base /*edx*/);
Ele informa o chamador apenas do comprimento da sequência de saída, deixando um ponteiro de um passado para o final para que rdi
você possa considerar esse valor de retorno em um valor não convenção de chamada padrão.
xchg eax,edi
Custaria 1 ou 2 bytes ( ) para retornar o ponteiro final em eax ou rax. (Se você estiver usando a ABI x32, é garantido que os ponteiros têm apenas 32 bits, caso contrário, temos que usá xchg rax,rdi
-lo caso o chamador passe um ponteiro para um buffer fora dos baixos 32 bits.) Eu não o incluí na versão em que estou postagem porque existem soluções alternativas que o chamador pode usar sem obter o valor rdi
, portanto, você pode chamar isso de C sem invólucro.
Nós nem terminamos nulos a string de saída ou algo assim, portanto, é apenas terminada em nova linha. Seria necessário 2 bytes para corrigir isso: xchg eax,ecx / stosb
(rcx é zero de rep stosb
.)
As maneiras de descobrir o comprimento da string de saída são:
- rdi aponta para um ponto após o final da string no retorno (para que o chamador possa fazer len = end-start)
- o chamador pode apenas saber quantas linhas estavam na entrada e contar novas linhas
- o chamador pode usar um buffer zerado grande e
strlen()
depois.
Eles não são bonitos ou eficientes (exceto para usar o valor de retorno RDI de um chamador asm), mas se você desejar, não chame as funções golfadas de asm de C.: P
Limitações de tamanho / faixa
O tamanho máximo da sequência de saída é limitado apenas pelas limitações de espaço de endereço da memória virtual. (Principalmente, o hardware atual x86-64 suporta apenas 48 bits significativos em endereços virtuais, divididos ao meio porque eles estendem o sinal em vez do zero. Veja o diagrama na resposta vinculada .)
Cada linha pode ter no máximo 2 ** 32-1 bytes de preenchimento, pois acumulo o exponencial em um registro de 32 bits.
A função funciona corretamente para bases de 0 a 2 ** 32 - 1. (Correta para a base 0 é 0 ^ x = 0, ou seja, apenas linhas em branco sem bytes de preenchimento. Correta para a base 1 é 1 ^ x = 1, portanto, sempre 1 preenchimento por linha.)
Também é incrivelmente rápido no Intel IvyBridge e posterior, especialmente para grandes linhas sendo gravadas na memória alinhada. rep stosb
é uma implementação ideal memset()
para contagens grandes com ponteiros alinhados em CPUs com o recurso ERMSB . por exemplo, 180 ** 4 tem 0,97 GB e leva 0,27 segundos no meu Skylake i7-6700k (com ~ 256k falhas de página suaves) para gravar em / dev / null. (No Linux, o driver de dispositivo para / dev / null não copia os dados em lugar algum, apenas retorna. Portanto, o tempo todo ocorre nas rep stosb
falhas de página e soft que são acionadas ao tocar na memória pela primeira vez. infelizmente, não usando grandes páginas transparentes para a matriz no BSS.madvise()
chamada do sistema aceleraria isso.)
Programa de teste :
Crie um binário estático e execute como ./string-exponential $'#\n##\n###' $(seq 2)
na base 2. Para evitar a implementação de um atoi
, ele usa base = argc-2
. (Os limites de comprimento da linha de comando impedem o teste de bases ridiculamente grandes.)
Esse wrapper funciona para cadeias de saída de até 1 GB. (Ele faz apenas uma chamada do sistema write () mesmo para strings gigantes, mas o Linux suporta isso mesmo para gravação em pipes). Para contar caracteres, canalize wc -c
ou use strace ./foo ... > /dev/null
para ver o argumento no syscall de gravação.
Isso aproveita o valor de retorno da RDI para calcular o comprimento da sequência como argumento write()
.
;;; Test program that calls it
;;; Assembles correctly for either x86-64 or i386, using the following %if stuff.
;;; This block of macro-stuff also lets us build the function itself as 32 or 64-bit with no source changes.
%ifidn __OUTPUT_FORMAT__, elf64
%define CPUMODE 64
%define STACKWIDTH 8 ; push / pop 8 bytes
%define PTRWIDTH 8
%elifidn __OUTPUT_FORMAT__, elfx32
%define CPUMODE 64
%define STACKWIDTH 8 ; push / pop 8 bytes
%define PTRWIDTH 4
%else
%define CPUMODE 32
%define STACKWIDTH 4 ; push / pop 4 bytes
%define PTRWIDTH 4
%define rcx ecx ; Use the 32-bit names everywhere, even in addressing modes and push/pop, for 32-bit code
%define rsi esi
%define rdi edi
%define rsp esp
%endif
global _start
_start:
mov rsi, [rsp+PTRWIDTH + PTRWIDTH*1] ; rsi = argv[1]
mov edx, [rsp] ; base = argc
sub edx, 2 ; base = argc-2 (so it's possible to test base=0 and base=1, and so ./foo $'xxx\nxx\nx' $(seq 2) has the actual base in the arg to seq)
mov edi, outbuf ; output buffer. static data is in the low 2G of address space, so 32-bit mov is fine. This part isn't golfed, though
call str_exp ; str_exp(outbuf, argv[1], argc-2)
; leaves RDI pointing to one-past-the-end of the string
mov esi, outbuf
mov edx, edi
sub edx, esi ; length = end - start
%if CPUMODE == 64 ; use the x86-64 ABI
mov edi, 1 ; fd=1 (stdout)
mov eax, 1 ; SYS_write (Linux x86-64 ABI, from /usr/include/asm/unistd_64.h)
syscall ; write(1, outbuf, length);
xor edi,edi
mov eax,231 ; exit_group(0)
syscall
%else ; Use the i386 32-bit ABI (with legacy int 0x80 instead of sysenter for convenience)
mov ebx, 1
mov eax, 4 ; SYS_write (Linux i386 ABI, from /usr/include/asm/unistd_32.h)
mov ecx, esi ; outbuf
; 3rd arg goes in edx for both ABIs, conveniently enough
int 0x80 ; write(1, outbuf, length)
xor ebx,ebx
mov eax, 1
int 0x80 ; 32-bit ABI _exit(0)
%endif
section .bss
align 2*1024*1024 ; hugepage alignment (32-bit uses 4M hugepages, but whatever)
outbuf: resb 1024*1024*1024 * 1
; 2GB of code+data is the limit for the default 64-bit code model.
; But with -m32, a 2GB bss doesn't get mapped, so we segfault. 1GB is plenty anyway.
Este foi um desafio divertido que se prestou muito bem ao asm, especialmente às operações de sequência x86 . As regras foram bem projetadas para evitar a necessidade de lidar com uma nova linha e, em seguida, com um terminador no final da string de entrada.
Um exponencial com multiplicação repetida é como multiplicar com adição repetida, e eu precisava fazer um loop para contar caracteres em cada linha de entrada de qualquer maneira.
Eu considerei usar um operando mul
ou em imul
vez de mais imul r,r
, mas seu uso implícito do EAX entraria em conflito com o LODSB.
Também tentei o SCASB em vez de carregar e comparar , mas eu precisava xchg esi,edi
antes e depois do loop interno, porque o SCASB e o STOSB usam EDI. (Portanto, a versão de 64 bits precisa usar a ABI x32 para evitar truncar ponteiros de 64 bits).
Evitar o STOSB não é uma opção; nada mais é tão curto. E metade do benefício de usar o SCASB é que AL = filler depois de sair do loop interno, portanto, não precisamos de nenhuma configuração para o REP STOSB.
O SCASB se compara na outra direção do que eu estava fazendo, então eu precisava reverter as comparações.
Minha melhor tentativa com xchg e scasb. Funciona, mas não é mais curto. ( Código de 32 bits, usando o truque inc
/ dec
para alterar o preenchimento em separador ).
; SCASB version, 24 bytes. Also experimenting with a different loop structure for the inner loop, but all these ideas are break-even at best
; Using separator = filler+1 instead of filler-1 was necessary to distinguish separator from terminator from just CF.
input_filler equ '.' ; bytes below this -> terminator. Bytes above this -> separator
output_filler equ input_filler ; implicit
output_separator equ input_filler+1 ; ('/') implicit
8048080: 89 d1 mov ecx,edx ; ecx=base**1
8048082: b0 2e mov al,0x2e ; input_filler= .
8048084: 87 fe xchg esi,edi
8048086: ae scas al,BYTE PTR es:[edi]
08048087 <str_exp.read_bar>:
8048087: ae scas al,BYTE PTR es:[edi]
8048088: 75 05 jne 804808f <str_exp.bar_end>
804808a: 0f af ca imul ecx,edx ; exit the loop before multiplying for non-filler
804808d: eb f8 jmp 8048087 <str_exp.read_bar> ; The other loop structure (ending with the conditional) would work with SCASB, too. Just showing this for variety.
0804808f <str_exp.bar_end>:
; flags = below if CF=1 (filler<separator), above if CF=0 (filler<terminator)
; (CF=0 is the AE condition, but we can't be here on equal)
; So CF is enough info to distinguish separator from terminator if we clobber ZF with INC
; AL = input_filler = output_filler
804808f: 87 fe xchg esi,edi
8048091: f3 aa rep stos BYTE PTR es:[edi],al
8048093: 40 inc eax ; output_separator
8048094: aa stos BYTE PTR es:[edi],al
8048095: 72 e9 jc 8048080 <str_exp> ; CF is still set from the inner loop
8048097: c3 ret
Para uma entrada de ../.../.
, produz ..../......../../
. Não vou me incomodar em mostrar um hexdump da versão com separator = newline.
"" <> "#"~Table~#
é 3 bytes mais curto que"#"~StringRepeat~#
, provavelmente também mais jogável.