Como posso comparar modelos sem encaixar?


8

Regressão e aprendizado de máquina são usados ​​nas ciências naturais para testar hipóteses, estimar parâmetros e fazer previsões ajustando modelos aos dados. No entanto, quando tenho um modelo a priori , não quero fazer nenhum ajuste - por exemplo, um modelo de um sistema físico determinístico calculado a partir dos primeiros princípios. Eu simplesmente quero saber o quão bem meu modelo corresponde aos dados e depois entender quais partes do modelo contribuem significativamente para a correspondência. Alguém poderia me indicar uma maneira estatisticamente rigorosa de fazer isso?

Em termos mais específicos, suponha que eu tenha um sistema físico para o qual medi uma variável dependente ( varia de 1 a , o tamanho da amostra) sob condições variáveis ​​descritas por três variáveis ​​independentes , e . Embora o sistema real que gerou os dados seja complicado, fiz algumas suposições simplificadoras para derivar um modelo teórico para o sistema, de modo queyiinx1,ix2,ix3,if

yi=f(x1,i,x2,i,x3,i)+ϵi ,

onde é uma função não linear (e não linearizável) das variáveis ​​independentes e é a diferença entre os valores previstos e medidos pelo modelo. é completamente pré-especificado; nenhum ajuste é feito e nenhum parâmetro é estimado. Meu primeiro objetivo é determinar se é um modelo razoável para o processo que produziu os valores medidos .fϵiffyi

I também desenvolveu modelos simplificado e , os quais são encaixados em (se o que importa, neste caso). Meu segundo objetivo é determinar se coincide com os dados significativamente melhor do que ou , sugerindo que as características que diferenciam modelo a partir de modelos e desempenham um papel importante no processo que gera .g(x1,i,x2,i)h(x1,i)ffghfghyi

Idéias até agora

Talvez se houvesse alguma maneira de determinar o número de parâmetros ou o número de graus de liberdade para o meu modelo matemático, seria possível usar procedimentos existentes como um teste de razão de verossimilhança ou comparação da AIC. No entanto, dada a forma não linear de e a ausência de parâmetros óbvios, não tenho certeza se é razoável atribuir parâmetros ou assumir o que constitui um grau de liberdade.f

Li que medidas de qualidade de ajuste, como o coeficiente de determinação ( ), podem ser usadas para comparar o desempenho do modelo. No entanto, não está claro para mim qual pode ser o limite para uma diferença significativa entre os valores de . Além disso, como eu não encaixo o modelo nos dados, a média dos resíduos não é zero e pode ser diferente para cada modelo. Assim, um modelo de boa correspondência que tende a subestimar os dados pode render um valor tão baixo de quanto um modelo que não foi imparcial, mas com baixa correspondência com os dados.R2R2R2

Também li um pouco sobre testes de adequação (por exemplo, Anderson-Darling), mas como a estatística não é o meu campo, não tenho certeza de quão bem esse tipo de teste se ajusta ao meu objetivo. Qualquer orientação seria apreciada.


Existem valores de parâmetros para a função não linear f()que precisam ser determinados a partir de um ajuste nos dados ou a função é f()completamente pré-especificada?
EDM

@ Edm Obrigado por isso! A questão foi editada para esclarecer que fé completamente pré-especificado. É como uma caixa preta que produz a resposta a ypartir das variáveis ​​de entrada, e quero saber como está indo em comparação com as caixas pretas concorrentes. Uma situação análoga pode estar tentando avaliar a correspondência entre a saída de uma simulação numérica e as medições feitas no sistema físico real.
jbacks

Respostas:


4

Nesta situação, você está comparando essencialmente as distribuições de entre os três modelos. Então, você precisa examinar questões como:ϵi

  1. Os valores médios de diferentes entre os três modelos e algum desses valores médios é diferente de 0? (Ou seja, existe algum viés em algum dos modelos e os três modelos diferem em viés?)ϵi
  2. Existe alguma relação sistemática do com os valores previstos no modelo correspondente ou com os valores das variáveis ​​independentes ? Você deve considerar todas as três variáveis ​​independentes aqui, mesmo que o modelo específico use apenas 1 ou 2 delas.ϵix1,i,x2,i,x3,1
  3. Existem diferenças significativas nas variações do entre os 3 modelos?ϵi

Os detalhes da melhor forma de abordar essas questões dependerão da natureza dos seus dados. Por exemplo, se os valores de forem necessariamente positivos e apresentarem erros de medição típicos proporcionais a seus valores (como costuma ser o caso na prática), pode fazer sentido fazer essa análise sobre as diferenças entre previsões transformadas em log e transformadas em log de cada um dos seus modelos.yiyi

A análise visual das distribuições do entre os três modelos, por exemplo, com gráficos de densidade, seria um primeiro passo importante.ϵi

Dependendo da natureza dos dados, os testes estatísticos paramétricos ou não paramétricos padrão para diferenças nos valores médios, aplicados ao para os três modelos, abordariam a questão 1.ϵi

A edição 2 é essencialmente o que é feito para examinar a qualidade de qualquer modelo ajustado; no seu caso, essa análise pode mostrar domínios das variáveis ​​independentes sobre as quais um ou mais de seus modelos pré-especificados não funcionam bem. Gráficos de versus valores previstos e valores de variáveis ​​independentes, com curvas de loess para destacar tendências, para cada um dos seus modelos seriam úteis.ϵi

Se não houver viés em nenhum modelo e a análise do problema 2 não apresentar problemas, o problema 3 restante é se algum dos modelos é superior em termos de precisão / variação. No caso ideal com normalmente distribuído em cada modelo, os testes F podem testar a igualdade de variações.ϵi


Pensar na distribuição residual como objeto de comparação é uma mudança de perspectiva útil! a) Você conhece alguma análise publicada que use um método semelhante? Sinto que minha situação é incomum. Qualquer precedente publicado seria útil. b) A média de cada distribuição residual é diferente de zero e visivelmente diferente para dois dos meus modelos, e espero que a ANOVA confirme isso. Sabendo disso, ainda seria sensato examinar as diferenças entre as variações de cada distribuição residual (Edição 3)? Os padrões expostos pelo Problema 2 invalidam uma comparação de variações?
jbacks

1
@jbacks Não conheço um precedente publicado, mas não acho que essa abordagem seria difícil de vender se houver uma base teórica sólida para o (s) seu (s) modelo (s). Nesta análise baseada em teoria, concentre-se nas razões do viés sistemático (erro médio diferente de zero, Edição I) entre previsões e observações. Isso parece ter mais valor diretamente no valor relativo dos modelos. A edição II (qualquer padrão de magnitude / direção do erro relacionado a valores variáveis ​​independentes ou valores previstos) deve ilustrar para onde seus modelos estão se perdendo. Comparações de variações de modelo são de menor interesse.
EdM

1
Os @jbacks também consideram trabalhar com observações / previsões em uma escala transformada, como logarítmica. Um viés em termos de erro em uma escala não transformada pode ser reduzido ou removido após a transformação. Observe que o uso de porcentagem de erros, sugerido em outra resposta, é equivalente a observar diferenças entre previsões e observações transformadas em log. Você terá que julgar se isso seria apropriado para esta situação.
EdM

Isso parece plausível, e eu vou tentar. Obrigado novamente por sua compreensão.
jbacks

1

Uma comparação probabilística dos modelos, por exemplo, envolvendo alguma probabilidade calculada a partir do com alguns dados (e derivada desse teste de AIC ou razão), faz pouco sentido.ϵ

Isto é porque

  1. Você já sabe ao certo que o modelo vai estar errado.
  2. Os resíduos com os quais você termina não têm relação com a hipótese de distribuição de erros que você usa para testar diferentes hipóteses. (você não possui um modelo estatístico / probabilístico)
  3. Seu objetivo não é testar uma hipótese (ciência básica / pura), mas caracterizar o desempenho de previsão de um modelo simplificado (ciência aplicada).

Na maioria das vezes, as pessoas descrevem modelos em termos da porcentagem de erro nas previsões.

Exemplos:

Basicamente, você pode pesquisar no Google qualquer modelo que seja uma simplificação da realidade e encontrará pessoas descrevendo sua discrepância com a realidade em termos de coeficientes de correlação ou porcentagem de variação.


Eu quero testar a hipótese de que o "fenômeno A" que envolve  x_3,i contribui mensurável para a produção de  y. O modelo  fincorpora o fenômeno Um tempo  g e  hnão, portanto, se minha hipótese fosse verdadeira, eu previria que o modelo tivesse um  fdesempenho significativamente melhor que um g ou  outro  h.

Para essa comparação, você pode considerar o desempenho medido como uma amostra, uma amostra retirada de uma população maior (hipotética) de desempenho.

Então você deseja descrever os parâmetros da distribuição populacional dos erros  e compará-los. Isso você pode considerar probabilístico. Por exemplo, você pode defini-lo como 'o erro médio do modelo é  ' . Sua hipótese é sobre os parâmetros que descrevem a distribuição dos erros.ϵy ± xy±x

No entanto, essa visão é um pouco problemática, pois muitas vezes a "amostra" usada para medir o desempenho não é realmente uma seleção aleatória (por exemplo, são medições em um intervalo predefinido ou entre um conjunto prático selecionado de itens). Portanto, qualquer quantificação do erro na estimativa de desempenho geral não deve ser baseada em um modelo para seleção aleatória (por exemplo, usando variação na amostra para descrever o erro da estimativa). Portanto, ainda faz pouco sentido usar um modelo probabilístico para descrever as comparações. Pode ser suficiente apenas declarar dados descritivos e fazer sua "estimativa" sobre a generalização com base em argumentos lógicos.


Esses exemplos são úteis! Estou um pouco confuso com a sua afirmação de que meu objetivo não envolve um teste de hipóteses. Conforme a estrutura, quero testar a hipótese de que o "fenômeno A" que x_3,icontribui contribui de forma mensurável para a produção de y. O modelo fincorpora o fenômeno Um tempo ge hnão, portanto, se minha hipótese fosse verdadeira, eu previria que o modelo tivesse um fdesempenho significativamente melhor que um gou outro h.
jbacks

2
@jbacks para essa comparação, você pode considerar o desempenho medido como uma amostra retirada de uma grande população de desempenho. Então você meio que deseja descrever os parâmetros da distribuição populacional dos erros e compará-los. Isso você pode considerar probabilístico. Por exemplo, você pode defini-lo como 'o erro médio do modelo é '. Sua hipótese é sobre esses parâmetros. x ± yϵx±y
Sextus Empiricus

Obrigado por expandir esse comentário com sua edição. Entre essa perspectiva e a outra resposta, acho que tenho um caminho plausível a seguir. Muito apreciado!
jbacks
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.