Dada uma sequência de entradas, preciso determinar se essa sequência tem uma certa propriedade desejada. A propriedade só pode ser verdadeira ou falsa, ou seja, existem apenas duas classes possíveis às quais uma sequência pode pertencer.
A relação exata entre a sequência e a propriedade não é clara, mas acredito que é muito consistente e deve se prestar à classificação estatística. Eu tenho um grande número de casos para treinar o classificador, embora possa ser um pouco barulhento, no sentido de que há uma pequena probabilidade de que uma sequência seja atribuída à classe errada neste conjunto de treinamento.
Dados de treinamento de exemplo:
Sequence 1: (7 5 21 3 3) -> true
Sequence 2: (21 7 5 1) -> true
Sequence 3: (12 21 7 5 11 1) -> false
Sequence 4: (21 5 7 1) -> false
...
Em termos gerais, a propriedade é determinada pelo conjunto de valores na sequência (por exemplo, a presença de um "11" significa que a propriedade quase certamente será falsa), bem como a ordem dos valores (por exemplo "21 7 5 "aumenta significativamente a chance de a propriedade ser verdadeira).
Após o treinamento, devo ser capaz de fornecer ao classificador uma sequência nunca vista anteriormente, como (1 21 7 5 3)
, e deve gerar sua confiança de que a propriedade é verdadeira. Existe um algoritmo conhecido para treinar um classificador com esse tipo de entradas / saídas?
Eu considerei o classificador bayesiano ingênuo (que não é realmente adaptável ao fato de que a ordem é importante, pelo menos não sem quebrar severamente a suposição de que as entradas são independentes). Também investiguei a abordagem oculta do modelo de Markov, que parece inaplicável porque apenas uma única saída está disponível, em vez de uma saída por entrada. Do que eu senti falta?