Uma distinção crítica é se você deseja:
- [Caso mais comum]: construa uma estimativa de desempenho em novos assuntos (extraídos da mesma população que seus dados).
- Construa uma estimativa de desempenho em novas observações dos mesmos assuntos da sua amostra.
O caso muito mais comum é o número do caso (1). Por exemplo, quão bem você prevê ataques cardíacos para alguém que entra na sala de emergência? E se você estiver no caso (1), certamente deve fazer (a) validação cruzada por assunto em vez de (b) validação cruzada por registro. A validação em nível de registro no caso (1) provavelmente levará a estimativas absurdamente altas e falsas de desempenho em novos assuntos.
Não entendo exatamente o que você está tentando fazer (e talvez seja um auto-estudo, para que a pergunta não seja totalmente realista). Não sei em que caso você está. Se você estiver no caso muito menos comum (2), a validação sábia dos registros pode estar ok.
Um tema geral nas estatísticas é pensar cuidadosamente sobre o que é independente e o que está correlacionado. De um modo geral, uma observação independente tende a ser um assunto diferente. Se você deseja prever o desempenho de novos assuntos, deve testar os assuntos em que não treinou!
Por que validação cruzada por assunto e não por registro?
Em cenários típicos, observações repetidas do mesmo indivíduo são correlacionadas entre si, mesmo após o condicionamento dos recursos. Portanto, com a validação cruzada em registros, o seu conjunto de testes não é independente do seu conjunto de treinamento! No caso extremo de correlação perfeita, você teria exatamente as mesmas observações no conjunto de treinamento e no conjunto de testes! Você estaria treinando no set de teste! O desempenho medido na validação cruzada não seria preditivo de desempenho em novos assuntos.
Por exemplo, este artigo recente chama a validação cruzada em registros, `` Voodoo Machine Learning ".
O que fazer com tão poucos assuntos ...
k=n
Para maximizar os dados para o treinamento, algo que você pode fazer é deixar de fora um assunto para validação cruzada. Cada iteração, teste em um assunto diferente e treine em todos os outros.
n=38