Para começar, eu sugeriria que geralmente é bom desconfiar das declarações de que há apenas umamaneira de fazer alguma coisa. Dividir uma amostra obtida em um conjunto de dados de "treinamento" e "teste" é uma abordagem comum em muitos aplicativos de aprendizado de máquina / ciência de dados. Muitas vezes, essas abordagens de modelagem estão menos interessadas no teste de hipóteses sobre um processo subjacente de geração de dados, ou seja, elas tendem a ser um pouco ateóricas. De fato, principalmente esses tipos de divisões de treinamento / teste só querem ver se o modelo está se ajustando demais em termos de desempenho preditivo. Obviamente, também é possível usar uma abordagem de treinamento / teste para verificar se um determinado modelo se replica em termos de quais parâmetros são "significativos" ou para ver se as estimativas dos parâmetros estão dentro dos intervalos esperados nas duas instâncias.
Em teoria, validar ou invalidar modelos é o que a ciência, em termos gerais, deve estar fazendo. Pesquisadores independentes, examinando separadamente, gerando e testando hipóteses que apóiam ou refutam argumentos sobre uma teoria para saber por que ou em que circunstâncias um fenômeno observável ocorre - que é o empreendimento científico em uma casca de noz (ou pelo menos em uma frase excessivamente longa). Então, para responder sua pergunta, para mim, mesmo as divisões de treinamento / teste não estão "validando" um modelo. Isso é algo que leva o peso de anos de evidências acumuladas por vários pesquisadores independentes que estudam o mesmo conjunto de fenômenos. No entanto, admitirei que essa tomada pode ser uma diferença na semântica sobre o que eu vejo como validação de modelo versus o que o termo validação passou a significar nas configurações aplicadas ...
Dependendo da sua abordagem de dados e modelagem, nem sempre é apropriado do ponto de vista estatístico dividir sua amostra em conjuntos de treinamento e teste. Por exemplo, amostras pequenas podem ser particularmente difíceis de aplicar essa abordagem. Além disso, algumas distribuições podem ter certas propriedades, dificultando a modelagem, mesmo com amostras relativamente grandes. Seu caso inflado com zero provavelmente se encaixa nessa última descrição. Se o objetivo é chegar a uma aproximação da "verdade" sobre um conjunto de relações ou processos subjacentes que se acredita serem responsáveis por algum fenômeno, você não será bem atendido se conscientemente adotar uma abordagem insuficiente para testar uma determinada hipótese. Portanto, talvez o primeiro passo seja realizar uma análise de poder para verificar se você provavelmente replicaria a descoberta de interesse em seus dados subconjuntos.
Outra opção é especificar vários modelos para ver se eles "melhoram" os dados observados. O objetivo aqui seria identificar o melhor modelo dentre um conjunto de alternativas razoáveis. Este é um argumento relativo, não absoluto, que você estaria fazendo sobre o seu modelo. Essencialmente, você está admitindo que pode haver outros modelos que poderiam ser postulados para explicar seus dados, mas seu modelo é o melhor do conjunto de alternativas testado (pelo menos você espera). Todos os modelos do conjunto, incluindo o modelo hipotético, devem ser fundamentados teoricamente; caso contrário, você corre o risco de criar um monte de palhaços estatísticos.
Também existem fatores de Bayes nos quais você pode calcular o peso da evidência que seu modelo fornece, dados seus dados, para uma hipótese específica relativa a cenários alternativos.
Isso está longe de ser uma lista exaustiva de opções, mas espero que ajude. Vou descer da caixa de sabão agora. Lembre-se de que todo modelo em todo estudo publicado sobre comportamento humano está incorreto. Quase sempre existem variáveis omitidas relevantes, interações não modeladas, populações imperfeitamente amostradas e simplesmente um antigo erro de amostragem em jogo ofuscando a verdade subjacente.