Aceite ou largue II: um game show para computadores


20

Este é o segundo de uma série de quebra-cabeças que vou postar toda segunda-feira no Midnight PST. O primeiro quebra-cabeça está localizado aqui .

Contexto:

Um bilionário recluso criou um game show para atrair os melhores e mais brilhantes programadores do mundo. Às segundas-feiras, à meia-noite, ele escolhe uma pessoa de um grupo de candidatos para ser o competidor da semana e oferece a eles um jogo. Você é o sortudo participante desta semana!

O jogo desta semana:

O host fornece acesso à API para uma pilha de 10.000 envelopes digitais. Esses envelopes são classificados aleatoriamente e contêm um valor em dólar entre US $ 1 e US $ 10.000 (dois envelopes não contêm o mesmo valor em dólar).

Você tem 4 comandos à sua disposição:

  1. Read (): Leia a figura do dólar no envelope na parte superior da pilha.

  2. Pegue (): adicione a figura do dólar no envelope à sua carteira de game show e tire o envelope da pilha.

  3. Pass (): Retire o envelope na parte superior da pilha.

  4. Oracle (M): retorna o valor médio dos próximos envelopes M na pilha, sem incluir o que você pode ler atualmente ().

As regras:

  1. Se você usar Pass () em um envelope, o dinheiro dentro será perdido para sempre.

  2. Se você usar Take () em um envelope contendo $ X, a partir desse momento, nunca poderá usar Take () em um envelope contendo <$ X. Take () em um desses envelopes adicionará US $ 0 à sua carteira.

  3. Se você usar Oracle (M) no turn T, os envelopes T + 1 a T + M serão retornados. O Oracle () fica desativado até o turn T + M.

Escreva um algoritmo que termine o jogo com a quantidade máxima de dinheiro.

Se você estiver escrevendo seu algoritmo em Python, sinta-se à vontade para usar este controlador fornecido por @Maltysen: https://gist.github.com/livinginformation/70ae3f2a57ecba4387b5

Notas 1: "Máximo", neste caso, significa o valor médio em sua carteira após N> = 1000 execuções. Espero, apesar de gostar de provar que estou errado, que o valor mediano de um determinado algoritmo converja à medida que N aumenta para o infinito. Sinta-se à vontade para tentar maximizar a média, mas tenho a sensação de que é mais provável que a média seja descartada por um N pequeno do que a mediana.

Nota 2: como todas as soluções para a parte anterior deste quebra-cabeça são válidas aqui, a reposição delas tem pouco valor. Apenas melhorias algorítmicas de quebra-cabeças anteriores serão consideradas na parte II.

Edit: A condição do prêmio foi removida, à luz desta postagem na meta.


Uau, eu não acredito que dormi demais: O
Beta Decay

@Beta Decay relógio está correndo! :)
LivingInformation

Qual é o sentido do rracle? Você pode construir seu próprio oráculo livre, apenas registrando todos os envelopes lidos anteriormente. O que estou errado?
Luis Mendo

1
@LuisMendo Com seu próprio registro, você só pode saber a média de todos os valores restantes. Com o oráculo, você pode obter a média dos próximos Mvalores, onde poderá escolher M.
Reto Koradi

1
Como todas as soluções para o seu desafio anterior também são soluções válidas para esse desafio, podemos considerá-las enviadas implicitamente?
Reto Koradi

Respostas:


9

Groovy $ 713337 $ 817,829 mil $ 818227

Código de inicialização:

class Instance {
    List values = new ArrayList(1..10000); {
        Collections.shuffle(values)
    }
    int i = 0
    int value = 0
    int max = 0
    int nextOracle = 0

    def pass() {
        if (i >= 10000)
            throw new NoSuchElementException()
        i++
    }

    def take() {
        if (i >= 10000)
            throw new NoSuchElementException()
        int v = values[i]
        if (v > max) {
            max = v
            value += v
        }
        i++
    }

    double oracle(int m) {
        if (m <= 0 || i < nextOracle || i + m >= 10000)
            throw new NoSuchElementException()

        nextOracle = i + m
        values.subList(i + 1, i + m + 1).stream().reduce { l, r -> r+l }.get() / m
    }

    int read() {
        if (i >= 10000)
            throw new NoSuchElementException()
        values[i]
    }
}

Algoritmo

double square(double v) { v * v }
final double factor = Math.pow(1.5, 1.1)
int attempts = 5000
(1..attempts).stream().parallel().mapToLong {
    def puzzle = new Instance()

    int[] memory = 1..10000 // We will remember every envelope
    int memStart = 0

    while (memStart < 10000 - 3) {
        int value = puzzle.read()
        int i = Arrays.binarySearch(memory, memStart, 10000, value) - memStart
        if (i < 0) { // We can't use the money
            puzzle.pass()
            continue
        }
        if (i == 0) { // Of course we take the lowest
            puzzle.take()
            memStart++
            continue
        }
        int remaining = Arrays.stream(memory, i + 1 + memStart, 10000).sum() // Money we could win if taken
        int losing = Arrays.stream(memory, memStart, memStart + i).sum() // Money we cna't win if taken
        if (value > losing) { // If we pass, we lose money automatically
            puzzle.take()
            memStart += i + 1
        } else if ((losing - value * 16 / 7) * square(Math.log(i)) > remaining / factor) {
            System.arraycopy(memory, memStart, memory, ++memStart, i)
            puzzle.pass()
        } else {
            puzzle.take()
            memStart += i + 1
        }
    }

    // It's broken down to last three elements
    List values = Arrays.copyOfRange(memory, 10000 - 3, 10000)
    while (!values.contains(puzzle.read())) // Skip values we can't use
        puzzle.pass()
    int value1 = puzzle.read()
    int value2 = puzzle.oracle(1)
    if (value1 == values.max() && (
            values.contains(value2)
            ? (value1 * 2 < values.sum() && values.min() == value2)
            : (value1 < values.min() / 2 + (values - [value1]).max())
            )) {
        puzzle.pass()
    }

    // Finish it
    while (puzzle.i < puzzle.values.size()) {
        puzzle.take()
    }

    puzzle.value as Long
}.sum() / attempts // Sum runs and average

Eu comparo os valores restantes com os possíveis. Este script não é rápido (leva 1 minuto por simulações de 1000x) ... mas realiza as simulações simultaneamente.

Não tenho idéia do por que meu algoritmo funciona, mas foi apenas tentativa e erro: agrupar operações matemáticas e manipular as constantes. Executei 5000x para a pontuação atual, na tentativa de reduzir as flutuações da pontuação (é +/- $ 4000 dependendo da contagem de iterações).

Mesmo sem o oráculo no final, ele ainda deve estar (mal) superando a solução da @ orlp para o quebra-cabeça anterior.


7

C # - $ 803,603 agora -> $ 804,760 (com oracle)

Código de Bootstrap

public static class ShuffleExtension
{
    private static Random rng = new Random();  

    public static void Shuffle<T>(this IList<T> list)  
    {  
        int n = list.Count;
        while (n > 1) {  
            n--;  
            int k = rng.Next(n + 1);  
            T value = list[k];  
            list[k] = list[n];  
            list[n] = value;  
        }  
    }
}

public class Puzzle
{
    public List<int> Values = new List<int>(10000);

    public Puzzle()
    {
        for ( int i = 1; i <= 10000; i++ )
        {
            Values.Add(i);
        }
        Values.Shuffle();
    }

    public int i = 0;
    public int value = 0;
    public int max = 0;
    public int nextOracle = 0;

    public void Pass() {
        if ( i >= Values.Count )
            throw new IndexOutOfRangeException();
        i++;
    }

    public void Take() {
        if (i >= Values.Count )
            throw new IndexOutOfRangeException();
        int v = Values[i];
        if (v > max) {
            max = v;
            value += v;
        }
        i++;
    }

    public double oracle(int m) {
    if (m <= 0) { 
        throw new IndexOutOfRangeException();
    }
    if ( i < nextOracle ) {
        throw new IndexOutOfRangeException();
    }
    if ( i + 1 + m > Values.Count ) {
        throw new IndexOutOfRangeException();
    }

    nextOracle = i + m;
    var oracleValues = new List<int>();
    for ( int l = 0; l < m; l++ )
    {
        oracleValues.Add(Values[i + 1 + l]);
    }
    return oracleValues.Average (v => v);
}

    public int Read() {
        if (i >= Values.Count )
            throw new IndexOutOfRangeException();
        return Values[i];
    }
}

Código do jogo:

    void Main()
{
    var m = 0;
    for ( int l = 0; l < 1000; l++ )
    {
        var game = new Puzzle();
        var maxVal = 0;
        var lastOracle = 0;
        var lastOracleValue = 0.0m;
        var oracleValueForIOf = 0;

        for ( int i = 0; i < 10000; i++ )
        {
            var val = game.Read();
            var oracleStep = 1;
            var canUseOracle = (i - lastOracle >= oracleStep) && i + oracleStep + 1 <= 10000;
            if ( canUseOracle )
            {
                var oracle = game.oracle(oracleStep);
                lastOracle = i;
                lastOracleValue = (decimal)oracle;
                oracleValueForIOf = i + 1;
            }
            if ( TakeTheMoney(val, maxVal, oracleValueForIOf, lastOracleValue, i) )
            {
                maxVal = val;
                game.Take();
            }
            else
            {
                game.Pass();
            }
        }
        m += game.value;
    }
    ((int)(m / 1000)).Dump();
}

private bool TakeTheMoney(int val, int maxVal, int oracleValueForIOf, decimal lastOracleValue, int i)
{
    if ( val > maxVal )
    {
        if ( oracleValueForIOf != i + 1
            &&
            (val < 466.7m + (0.9352m * maxVal) + (0.0275m * i))
            )
        {
            return true;
        }

        if (oracleValueForIOf == i + 1)
        {
            if ( val < 466.7m + (0.9352m * maxVal) + (0.0275m * i) )
            {
                return true;
            }
            if ( lastOracleValue > 466.7m + (0.9352m * val) + (0.0275m * i + 1) )
            {
                if ( val < 466.7m + (0.9352m * maxVal) + (0.0275m * i + 1) )
                {
                    return true;
                }
            }
        }
    }
    return false;
}

O crédito pertence a Reto Koradi ( /codegolf//a/54181/30910 )

Edit: Uso básico do Oracle implementado. Se o próximo oráculo estiver acima do limite a ser usado, expanda o envelope atual para o índice do Oracle Index. Isso não acontece com frequência, mas é uma melhoria ;-)


4
Não acho muito produtivo repassar soluções do desafio anterior. Todos nós reconhecemos que essas soluções podem ser usadas como base para esse desafio, e eu já havia deixado um comentário para o OP perguntando como deveríamos lidar com isso. A idéia é que você crie sua própria solução, o que é idealmente melhor do que as soluções para o desafio anterior.
Reto Koradi

por favor, pare de votar :) a nota número 2 foi adicionada após o meu envio. e como é mais eficaz do que as outras soluções - eu publiquei aqui. não é necessário usar o oracle para vencer as soluções existentes.
23915 Stephan Stinkinkel

@StephanSchinkel Você tem meu voto positivo se conseguir incluir o Oracle para melhorar a pontuação atual. Mesmo por apenas US $ 1.
Dorus

@BetaDecay, o que exatamente é desaprovado pela comunidade novamente? Eu apenas segui a pergunta da operação. Mais uma vez, a nota número 2 foi adicionada APÓS meu envio.
23915 Stephan Stinkink

Para Não usar uma solução da parte I do questionário.
23915 Stephan Stinkink

4

Python - $ 74112

Somente pegue, se o valor atual for menor que o próximo valor (ou seja, você pode pegar os dois).

def algo():
  try:
    o=oracle(1)
  except ValueError:
    take()
  r=read()
  if r>o:
    passe()
  else:
    take()

Python - (ainda calculando a média)

Esta resposta leva muito tempo para calcular. Atinge cerca de 670.000 $ . Lembro-me de cada envelope que vi. Toda vez que tenho que tomar uma decisão, eu gero duas listas de envelopes restantes que eu poderia adicionar à minha carteira se eu pegar o envelope atual ou deixá-lo, respectivamente.

Não otimizei o código.

def algo_2():
  global max_taken, past
  weight=0.92 #Empirically chosen.
  r=read()
  if len(past)==0:
    past.append(r)
    passe()
    return
  if r<max_taken:
    past.append(r)
    take() #the same as passe
    return
  coming=[x for x in range(1,10001) if x not in past and x>max_taken and x!=r ]
  comingIfTake=[x for x in range(1,10001) if x not in past and x>r ]
  if sum(coming)*weight<=sum(comingIfTake)+r:
    past.append(r)
    take()
  else:
    past.append(r)
    passe()

E o init_game começa assim:

def init_game():
    global stack, wallet, max_taken, oracle_turns, past
    past=[]

3
Se você usar conjuntos para representar past, coming e comingIfTake e usar interseções, seu código seria muito mais rápido.
Nathan Merrill

4

C # - $ 780.176

Verifique se o próximo valor está dentro dos 5% mais baixos de todos os valores restantes. Fique mais relaxado quando chegarmos ao fim.

public class Taker
{
    private List<int> remaining;
    private Game game;

    public Taker(Game game)
    {
        this.game = game;
        remaining = Enumerable.Range(1, game.Size + 100).ToList();
    }

    int score = 0;

    public int PlayGame()
    {
        for (int i = 0; i < game.Size; i++)
        {
            if (game.Read() < game.Max ||
                game.Read() > selectThreshold() ||
                doOracle()
                )
            {
                remaining.Remove(game.Read());
                game.Pass();
                continue;
            }
            remaining = remaining.SkipWhile(j => j < game.Read()).ToList();
            score += game.Take();
        }
        return score;
    }

    private bool doOracle()
    {
        return game.Oracle(1) < game.Read() &&
            game.Oracle(1) > game.Max;
    }

    private int selectThreshold()
    {
        int selector = (int)(remaining.Count * 0.05);
        return remaining.ElementAt(selector);
    }
}

E a minha classe de jogo, muito feia, nem sequer valida se o Oracle é permitido, mas como eu só uso o Oracle (1), isso não deve ser um problema.

public class Game
{
    private int[] list;
    private int position = 0;
    private int max = 0;
    public int Max { get { return max; } }
    public int Size { get { return list.Length; } }

    public Game(int[] list)
    {
        this.list = list;
    }

    public int Read()
    {
        return list[position];
    }

    public int Take()
    {
        if (list[position] < max)
        {
            position++;
            return 0;
        }
        max = list[position];
        return list[position++];
    }

    public void Pass()
    {
        position++;
    }

    public int Oracle(int M)
    {
        int next = position + 1;
        M = Math.Max(0, Math.Min(M, list.Length - next));
        return new ArraySegment<int>(list, next, M).Sum();
    }
}

4

Java, $ 804.991

A pontuação é de 1001 rodadas. Provavelmente está muito perto de se ligar entre essa resposta e a de Stephan Schinkel .

Isso se baseia na minha resposta no desafio anterior, na medida em que usa o mesmo cálculo baseado em entropia para estimar os retornos. A principal diferença é que agora ele simplesmente pega envelopes em pares (1 e 2, depois 3 e 4, etc.) e analisa as possíveis combinações de take-take, take-pass, pass-take, etc. Também calcula a pontuação exata estimada quando o número de envelopes válidos é realmente pequeno.

O "invólucro" que escrevi não é realmente um invólucro verdadeiro, apenas fornece envelopes em pares, em vez de chamar um Oracle(1) função a cada rodadas.

No geral, eu diria que, apesar do aumento da complexidade, esse bot realmente não é melhor que o anterior.

Jogador

import java.lang.Math;
public class Player2
{
    public int[] V;

    public Player2(int s)
    {
        V = new int[s];
        for(int i = 0; i<V.length; i++)
        {
            V[i] = i+1;
        }
        ////System.out.println();
    }

    public boolean [] takeQ(int x, int y)
    {
        //System.out.println("Look: " + x + " " + y);
        boolean [] move = new boolean[]{false,false};
        double max = 0;
        double val = 0;
        int[] nextV = V;

        ////System.out.println("look " + x);
        int i = find(V,x);
        if(i >= 0)  //if found
        {
            //try taking first envelope
            int[] newVt = takeSlice(V,i);
            //System.out.println("  T: " + ats(newVt));
            int j = find(newVt,y);
            if(j >= 0)
            {
                //try taking first and second
                int[] newVtt = takeSlice(newVt,j);
                val = x + y + calcVal(newVtt);
                //System.out.println("  TT: " + ats(newVtt) + " " + val);
                if(val > max)
                {
                    move = new boolean[]{true,true};
                    max = val;
                    nextV = newVtt;
                }
            }
            //try taking first and passing second
            int[] newVtp = passSlice(newVt,j);

            val = x + calcVal(newVtp);
            //System.out.println("  TP: " + ats(newVtp) + " " + val);
            if(val > max)
            {
                move = new boolean[]{true,false};
                max = val;
                nextV = newVtp;
            }
        }
        int[] newVp = passSlice(V,i);
        //System.out.println("  V: " + ats(V));
        //System.out.println("  P: " + ats(newVp));
        int j = find(newVp,y);
        if(j >= 0)
        {
            //try passing first and taking second
            int[] newVpt = takeSlice(newVp,j);
            val = y + calcVal(newVpt);
            //System.out.println("  PT: " + ats(newVpt) + " " + val);
            if(val > max)
            {
                move = new boolean[]{false,true};
                max = val;
                nextV = newVpt;
            }
        }
        //try taking first and passing second
        int[] newVpp = passSlice(newVp,j);

        val = calcVal(newVpp);
        //System.out.println("  PP: " + ats(newVpp) + " " + val);
        if(val > max)
        {
            move = new boolean[]{false,false};
            max = val;
            nextV = newVpp;
        }
        V = nextV;
        //System.out.println("  NEW: " + ats(V));
        return move;
    }

    public static String ats(int [] a)
    {
        String s = "";
        for(int i = 0; i < a.length; i++)
        {
            s += a[i] + ",";
        }
        return s;
    }

    public static int[] takeSlice (int[] list, int loc)
    {
        int [] newlist = new int[list.length - loc - 1];
        for(int j = loc + 1; j < list.length; j++)
        {
            newlist[j - loc - 1] = list[j];
        }
        return newlist;
    }

    public static int[] passSlice (int[] list, int loc)
    {
        int [] newlist = list;
        if(loc >= 0)
        {
            newlist = new int[list.length-1];
            for(int k = 0; k < loc; k++)
            {
                newlist[k] = list[k];
            }
            for(int k = loc + 1; k < list.length; k++)
            {
                newlist[k-1] = list[k];
            }
        }
        return newlist;
    }

    public static double calcVal(int [] list)
    {
        if(list.length < 8)
        {
            for(int i : list)
            {
                ////System.out.print(i + ",");
            }

                ////System.out.println();
            return computeMean(list);

        }
        return smoothEstimate(list);
    }

    public static double computeMean(int[] V)
    {
        if(V.length == 1)
        {
            return V[0];
        }
        else if(V.length > 1)
        {
            double[] Es = new double[V.length];
            for(int i = 0; i < V.length; i++)
            {
                int[] newVp = new int[V.length - 1];
                for(int j = 0; j < i; j++)
                {
                    newVp[j] = V[j];
                }
                for(int j = i + 1; j < V.length; j++)
                {
                    newVp[j-1] = V[j];
                }
                double pass = computeMean(newVp);
                int[] newVt = new int[V.length - i - 1];
                for(int j = i + 1; j < V.length; j++)
                {
                    newVt[j - i - 1] = V[j];
                }
                double take = V[i] + computeMean(newVt);
                if(take > pass)
                {
                    Es[i] = take;
                }
                else
                {
                    Es[i] = pass;
                }
            }
            double sum = 0;
            for(double d : Es)
            {
                sum += d;
            }
            return sum/V.length;
        }
        else
        {
            return 0;
        }
    }

    public static double smoothEstimate(int [] list)
    {
        double total = 0;
        for(int i : list)
        {
            total+=i;
        }
        double ent = 0;
        for(int i : list)
        {
            if(i > 0)
            {
                ent -= i/total * Math.log(i/total);
            }
        }
        ////System.out.println("      total " + total);
        ////System.out.println("      entro " + Math.exp(ent));
        ////System.out.println("      count " + list.length);
        return total * Math.pow(Math.exp(ent),-0.5) * 4.0/3;// * 1.1287 + 0.05284);
    }

    public static int find(int[] list, int search)
    {
        int first  = 0;
        int last   = list.length - 1;
        int middle = (first + last)/2;

        while( first <= last )
        {
            if ( list[middle] < search )
                first = middle + 1;    
            else if ( list[middle] == search )
                break;
            else
                last = middle - 1;

            middle = (first + last)/2;
        }

        if(first > last)
        {
            return -1;
        }
        return middle;
    }
}

Controlador

import java.lang.Math;
import java.util.Random;
import java.util.ArrayList;
import java.util.Collections;
public class Controller2
{
    public static void main(String [] args)
    {
        int size = 10000;
        int rounds = 1001;
        ArrayList<Integer> results = new ArrayList<Integer>();
        for(int round = 0; round < rounds; round++)
        {
            int[] envelopes = new int[size];
            for(int i = 0; i<envelopes.length; i++)
            {
                envelopes[i] = i+1;
            }
            shuffleArray(envelopes);
            Player2 p = new Player2(size);
            int cutoff = 0;
            int winnings = 0;
            for(int i = 0; i<envelopes.length; i+=2)
            {
                boolean [] take = p.takeQ(envelopes[i],envelopes[i+1]);
                if(take[0] && envelopes[i] >= cutoff)
                {
                    winnings += envelopes[i];
                    cutoff = envelopes[i];
                }
                if(take[1] && envelopes[i+1] >= cutoff)
                {
                    winnings += envelopes[i+1];
                    cutoff = envelopes[i+1];
                }
            }
            results.add(winnings);
        }
        Collections.sort(results);
        System.out.println(rounds + " rounds, median is " + results.get(results.size()/2));

    }

    //stol... I mean borrowed from http://stackoverflow.com/questions/1519736/random-shuffling-of-an-array
    static void shuffleArray(int[] ar)
    {
        Random rnd = new Random();
        for (int i = ar.length - 1; i > 0; i--)
        {
            int index = rnd.nextInt(i + 1);
            // Simple swap
            int a = ar[index];
            ar[index] = ar[i];
            ar[i] = a;
        }
    }
}

Endereço de Bitcoin: 1BVBs9ZEP8YY4EpV868nxi2R23YfL7hdMq


3

Python 3 - $ 615570

Na verdade, não usa o oráculo ... Eh :)

def algo():
    global prevs

    try:
        prevs.append(read())
    except NameError:
        prevs = [read()]

    if len(prevs) > 10000:
        prevs = [prevs[-1]]

    if read() < round(len(prevs),-1):
        take()
    else:
        passe()

Constrói uma lista de todos os envelopes anteriores e verifica se o envelope atual é menor que o número de envelopes anteriores em 10 incrementos de envelope.


0

Python, 87.424

Aqui está um algoritmo simples e fácil, os sete sortudos.

def LuckyNumber7():
Test = read()
if "7" in str(Test):
    take()
else:
    passe()

test(LuckyNumber7)

Basicamente, o que faz é converter read () em uma string e verificar se há sete nela. Se houver, é preciso o envelope. Caso contrário, passa.

A média é de cerca de 81.000, eu não tenho acompanhado.


Então isso mostra que confiar na sorte não é uma estratégia bem-sucedida? ;)
Reto Koradi

@RetoKoradi Yep: D
The_Basset_Hound
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.