Comparando coeficientes de regressão do mesmo modelo em diferentes conjuntos de dados


12

Estou avaliando dois (2) refrigerantes (gases) que foram usados ​​no mesmo sistema de refrigeração. Eu tenho dados de temperatura de sucção saturada ( ), temperatura de condensação ( D ) e amperagem ( Y ) para a avaliação. Existem dois (2) conjuntos de dados; 1º refrigerante ( R 1 ) e 2º refrigerante ( R 2 ). Estou usando um modelo polinomial linear, multivariado ( S & D ) de 3ª ordem para as análises de regressão. Gostaria de determinar quanto menos / mais amperagem (ou, alguma métrica semelhante à comparação de desempenho), em média, como porcentagem, está sendo consumida pelo segundo refrigerante.SDYR1R2SD

Meu primeiro pensamento foi:

  1. Determine o modelo a ser usado: Y=b0+b1S+b2D+b3SD+b4S2+b5D2+b6S2D+b7D2S+b8D3+b9S3
  2. Derivar coeficientes ( ) a partir dos dados da linha de base ( R 1 ).biR1
  3. Usando esses coeficientes, para cada & D na R 2 conjunto de dados, calcular cada sorteio esperado amplificador ( Y ) e em seguida a média.SDR2Y^
  4. Comparar o Y média para o sorteio amp média real ( Y 2 ) dos R 2 dados.Y^Y2R2
  5. percent (%) change=(Y2Y^)/Y^

No entanto, como o segundo refrigerante possui propriedades térmicas ligeiramente diferentes e pequenas alterações foram feitas no sistema de refrigeração (ajustes de TXV e superaquecimento), não acredito que esse 'método de comparação de linha de base' seja preciso.

Meu próximo pensamento foi fazer duas (2) análises de regressão separadas:

Y1=a0+a1S1+a2D1+a3S1D1+a4S12+a5D12+a6S12D1+a7D12S1+a8D13+a9S13Y2=b0+b1S2+b2D2+b3S2D2+b4S22+b5D22+b6S22D2+b7D22S2+b8D23+b9S23

e, em seguida, para a temperatura de sucção saturada ( ), compare os coeficientes ( a 1 vs b 1 ) da seguinte forma: % change = b 1 - a 1Sa1b1

% change=b1a1a1

No entanto, novamente, esses coeficientes devem ser ponderados de maneira diferente. Portanto, os resultados seriam distorcidos.

Acredito que eu poderia usar um teste z para determinar quão diferentes são os coeficientes, mas não sei se entendi completamente o significado da saída: . Mas isso ainda não me daria uma métrica de desempenho, que é o objetivo geral.z=(a1b1)/SEa12+SEb12)


1
1. Um modelo polinomial é um modelo linear, porque é linear no coeficiente. 2. Estou tentando entender sua pergunta. Se o sistema de refrigeração foi modificado entre o momento em que R1 e R2 foram usados, eles realmente não são o 'mesmo sistema de refrigeração' (linha 1), certo? 3. Por que, em sua segunda abordagem, você começou a comparar os coeficientes de S? 4. Você considera a introdução de um 'refrigerante' covariável com níveis R1 e R2 no ajuste polinomial (talvez com interação)? Seu coeficiente pode responder à pergunta.
Qheleth

@qoheleth 1. Não sei se sigo sua linha de pensamento ... O coeficiente é sempre linear - é um número. Quando o coeficiente não seria linear então? 2. Correto, o sistema de refrigeração foi ligeiramente alterado, mas apenas para garantir a mesma temperatura de saída para os dois refrigerantes - "maçãs para maçãs". 3. 'S' é a única variável de interesse para essa comparação específica. 4. Li sobre o método da variável covariável / de interação, mas não entendo o significado dos coeficientes usando esse método. Você pode elaborar a interpretação da saída? Obrigado.
precisa saber é o seguinte

1. do ponto de vista estatístico, a linearidade nas coisas que você está estimando é o que conta, então um modelo polinomial é linear. Um exemplo de um modelo não linear seria a função mitscherlich y = alfa (1-exp (beta-lambda * X)), onde alfa / beta / lambda é o que estamos estimando. 3. O que você está realmente tentando testar? é o coeficiente de S? ou Y? Se for S, por que sua primeira tentativa é uma comparação em \ hat {Y}?
precisa saber é o seguinte

O Y-hat seria: o S & D real do segundo conjunto de dados usado com os coeficientes derivados do primeiro conjunto de dados. Esse método é comum nas análises de energia 'Contratando o desempenho' ao comparar o consumo de energia do equipamento anterior com o consumo de energia após uma reforma / remodelação / renovação / etc. A equação seria: consumo de energia = y-hat = carga básica + energia / grau-dia * graus-dia ... em que energia / grau-dia é o coeficiente derivado da análise de regressão da linha de base, e os graus-dia são da pós-renovação . O "o que você teria consumido" se você não fizer isso cenário do projeto ...
gth826a

1
Então, parece que, em última análise, você deseja comparar Y. Eu diria que se esqueça de calcular% de variação nos coeficientes, na presença de termos de ordem superior (S ^ 2, S ^ 3 etc.), os coeficientes não são o que você pensa eles são. Concentre-se em Y. A questão que permanece incerta para mim é: você está dizendo que S & D em R2 significa coisas diferentes das S & D em R1? Caso contrário, você pode simplesmente ajustar um modelo ao conjunto de dados combinado, com uma covariável extra (variável X) chamada refrigerante (r1 ou r2), e observar o coeficiente para fazer a inferência, assumindo que seu modelo seja adequado.
Eclesiastes

Respostas:


2

PV=nRTY=aDbScln(Y)=ln(a)+bln(D)+cln(S)Yl=al+bDl+cSll

Para verificar que tipo de modelo usar, tente um e verifique se os resíduos são homoscedásticos. Se não estiverem, então você tem um modelo tendencioso , faça outra coisa como modelar os logaritmos, como acima, um ou mais recíprocos de dados x ou y, raízes quadradas, quadratura, exponenciação e assim por diante até que os resíduos sejam homocedásticos. Se o modelo não puder produzir resíduos homoscedásticos, use regressão linear múltipla de Theil, com censura, se necessário.

Como normalmente os dados são distribuídos no eixo y não é necessário, mas os outliers podem distorcer e costuma distorcer os resultados dos parâmetros de regressão acentuadamente. Se a homoscedasticidade não puder ser encontrada, os mínimos quadrados comuns não devem ser usados ​​e algum outro tipo de regressão precisa ser realizado, por exemplo, regressão ponderada, regressão de Theil, mínimos quadrados em x, regressão de Deming e assim por diante. Além disso, os erros não devem ser correlacionados em série.

z=(a1b1)/SEa12+SEb12)x,yH=+A2+O2zN

C2=A2+B22ABcos(θ),θ=(A,B)σTρA,BσT2=σA2+σB22σAσBρA,B


"Para verificar que tipo de modelo usar, tente um e verifique se os resíduos são homocedásticos", sim, claro ... exceto que você não faz essa suposição e mesmo que seja válida - de forma alguma garante que você tem um modelo "bom".
Repmat

Se alguém usa OLS e os resíduos são heterocedásticos, é certo que se tem um modelo tendencioso. A homocedasticidade é um requisito da OLS, mostrado aqui . Ter um bom modelo requer outras condições, como evitar viés de variável omitido , mas com erros não correlacionados em série e linearidade do modelo versus variável dependente.
28816 Carl Carl

Você pode ter um modelo (estimativas) imparcial e / ou consistente, em que os resíduos sejam heterocedásticos. Isso só implicaria que os procedimentos de inferência habituais não funciona
Repmat

A heteroscedasticidade achatou a encosta, mesmo que um erro externo corrigisse isso, a penalidade seria grandes intervalos de confiança e um modelo ruim. Não usaria esse modelo, mas, sim, é possível criar modelos ruins. A literatura médica está cheia deles.
Carl

A primeira parte do seu comentário está completamente errada. Eu nem tenho certeza do que isso significa.
Repmat
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.