Quase tudo o que li sobre regressão linear e GLM se resume a isso: onde é uma função não-crescente ou não-decrescente de e é o parâmetro que você estima e testar hipóteses sobre. Existem dezenas de funções de link e transformações de e para fazer uma função linear de .y
Agora, se você remover o requisito que não aumenta / não diminui para , conheço apenas duas opções para ajustar um modelo linearizado paramétrico: funções trigonométricas e polinômios. Ambos criam dependência artificial entre cada previsto e o conjunto inteiro de , tornando-os um ajuste muito não robusto, a menos que haja razões anteriores para acreditar que seus dados são realmente gerados por um processo cíclico ou polinomial.
Este não é um tipo de argumento esotérico. É a relação real e de bom senso entre a água e o rendimento das colheitas (quando as parcelas estiverem suficientemente profundas sob a água, o rendimento das colheitas começará a diminuir) ou entre as calorias consumidas no café da manhã e o desempenho em um teste de matemática ou o número de trabalhadores em uma fábrica e o número de widgets que eles produzem ... em suma, quase qualquer caso da vida real para o qual modelos lineares são usados, mas com os dados cobrindo uma faixa suficientemente ampla para que você passe por retornos decrescentes em retornos negativos.
Tentei procurar os termos 'côncavo', 'convexo', 'curvilíneo', 'não monotônico', 'banheira' e esqueço quantos outros. Poucas perguntas relevantes e ainda menos respostas úteis. Portanto, em termos práticos, se você tivesse os seguintes dados (código R, y é uma função da variável contínua x e do grupo de variáveis discretas):
updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
group=factor(rep(c('A','B'),c(81,110))));
plot(y~x,updown,subset=x<500,col=group);
Você pode primeiro tentar uma transformação de Box-Cox e ver se fazia sentido mecanicista e, na sua falta, pode ajustar um modelo de mínimos quadrados não linear com uma função de link logístico ou assintótico.
Então, por que você deve desistir completamente de modelos paramétricos e recorrer a um método de caixa preta como splines quando descobre que o conjunto de dados completo se parece com isso ...
plot(y~x,updown,col=group);
Minhas perguntas são:
- Quais termos devo procurar para encontrar funções de link que representam essa classe de relacionamentos funcionais?
ou
- O que devo ler e / ou procurar para me ensinar como projetar funções de link para essa classe de relações funcionais ou estender as existentes que atualmente são apenas para respostas monotônicas?
ou
- Caramba, mesmo que tag StackExchange é mais apropriada para esse tipo de pergunta!
R
código possui erros de sintaxe: group
não deve ser citado. (2) O gráfico é bonito: os pontos vermelhos exibem uma relação linear, enquanto os pretos podem ser ajustados de várias maneiras, incluindo uma regressão linear por partes (obtida com um modelo de ponto de mudança) e possivelmente até como exponencial. Estou não recomendando estes, no entanto, porque as escolhas de modelagem deve ser informado por uma compreensão do que produziu os dados e motivado por teorias em disciplinas relevantes. Eles podem ser um começo melhor para sua pesquisa.