O que é uma definição estrita de relacionamento em forma de U?

Eu já vi vários artigos que analisam relações em forma de U ou inversas em forma de U entre variáveis (em uma estrutura de regressão). O entendimento geral que tenho a partir daí é que é um tipo específico de relacionamento não linear que todos podemos visualizar facilmente.

No entanto, estou um pouco confuso sobre como exatamente as pessoas definem matematicamente as funções de regressão em forma de U. Suponha que, por simplicidade, exista apenas o regressor . $x$

Ter uma função de regressão em forma de U significa que a função de regressão é convexa e diminui em até algum ponto e depois que é convexa e aumenta em ? $x$ $c$ $c$ $x$

Ou significa simplesmente que a função de regressão está diminuindo em até algum ponto e depois que está aumentando em ? $x$ $c$ $c$ $x$

— Neznajka
fonte

Autores diferentes podem ter definições diferentes - a relação deve ser contínua? Diferenciável? Convexo? A definição mais geral consistente com a idéia de "aumentar e diminuir" ou "diminuir e aumentar" é: Um mapa com é "em forma de U" existe uma decomposição de onde (1) todo elemento de é menor ou igual a todo elemento de ; (2) é monotônico em e ; (3) as imagens e tem, pelo menos, dois valores cada; e (4) as direções da monotonicidade de

f : A \to R

$f:A\to\mathbb{R}$

A \subset R

$A\subset\mathbb{R}$

A = B \cup C

$A=B\cup C$

B

$B$

C

$C$

f

$f$

B

$B$

C

$C$

f (B)

$f(B)$

f (C)

$f(C)$

f

$f$ diferem em e .

B

$B$

C

$C$

— whuber

@whuber Este é exatamente o que eu estou procurando - se há um acordo geral sobre como defini-lo ....

— Neznajka

Não pude atestar um acordo geral - e tenho certeza de que muitos autores argumentariam que minha definição é mais ampla do que pretendiam. Por isso deixei como comentário.

— whuber

Eu não acho que "em forma de U" seja um termo matematicamente bem definido; não existe uma definição universalmente aceita e não acho que você deva procurar uma. Alterei as duas primeiras frases da minha resposta para enfatizar isso.

— Ameba

Respostas:

A resposta curta para sua pergunta (como declarado em outro lugar) é que não existe uma definição matemática única de uma forma de U. O comentário de @whuber é a melhor definição geral que eu já vi.

Pesquiso testes de formas em U e, para a minha apresentação, tenho um slide com o título "O que um U significa para você?", O que significa que é subjetivo o que as pessoas querem dizer com o termo "U-shape". O mais importante é que, quando você usa o termo "formato de U", define exatamente o que quer dizer com isso, sem assumir que outros saberão o que você quer dizer.

Como você especificou o caso de apenas um regressor, vou me concentrar nisso. Vi as seguintes definições usadas em vários artigos:

Uma forma de U é quadrática.
Uma forma em U significa convexidade (para uma aplicação nesse sentido, consulte 2012, de Van Landeghem, "Um teste para a convexidade do bem-estar humano ao longo do ciclo de vida: evidência longitudinal de um painel de 20 anos").
Uma forma de U é uma função com derivada média ponderada negativa até um ponto e derivada média ponderada positiva após esse ponto (consulte Duas linhas de Uri Simonsohn : o primeiro teste válido de relacionamentos em forma de U ).
Uma forma de U é uma função com exatamente um ponto de viragem. Isso corresponde a uma função que é quase convexa, mas não monótona.

Uma complicação que surge é: e se o ponto de virada estiver próximo do final do intervalo da variável x? Ainda devemos considerar essa função em forma de U? Na minha opinião, essa discussão deve ser realizada quando você define o que um formato em U significa para você em sua aplicação e quando especifica sua hipótese nula.

A definição que utilizo no meu artigo, Teste não paramétrico de relacionamentos em forma de U , é a seguinte:

Deixei $m(x)$ ser a função de regressão e deixe $S\left(X\right)$ ser o apoio de $X$ . Para um conjunto especificado $A_{0}\subset S\left(X\right)$ , estamos interessados em testar o seguinte:

\begin{aligned} H_{0} : & \exists a \in A_{0} st \forall x \in S (X) \\ m^{^{'}} (x) (x - a) \geq 0 \\ versus \\ H_{A} : & \forall a \in A_{0}, \exists x \in S (X) st \\ m^{^{'}} (x) (x - a) < 0 \end{aligned}

$\begin{align*} H_{0}\colon & \exists a\in A_{0}\mbox{ st }\forall x\in S\left(X\right)\\ & m^{'}\left(x\right)\left(x-a\right)\ge0\\ \text{versus}\\H_{A}\colon & \forall a\in A_{0},\,\exists x\in S\left(X\right)\mbox{ st}\\ & m^{'}\left(x\right)\left(x-a\right)<0 \end{align*}$

Por exemplo, em um aplicativo, testei a satisfação em vida em forma de U na faixa etária de 20 a 70 anos, onde o ponto de virada é entre 30 e 60 anos. Decisões arbitrárias são necessárias com essa estrutura proposta. O importante é ser aberto sobre eles e verificar a sensibilidade dos resultados às mudanças (e desafiar outras pessoas a fazer o mesmo).

Além de declarar a hipótese nula, como sempre, você deve indicar as suposições em que se baseia. Por exemplo, uma suposição comum é que a função de regressão seja em forma de U em monotonia. Veja, por exemplo, 2009 "Com ou sem U? O teste apropriado para um relacionamento em forma de U", de Lind e Mehlum, onde eles propõem uma melhoria no teste quadrático de baunilha OLS, testando se a derivada de uma forma funcional especificada é negativa em o início do intervalo e positivo no final.

Um ponto adicional a ser considerado é: você deseja um teste que rejeite a hipótese nula devido a uma pequena violação da forma de U? Se sim, considere o pacote R qmutest , que implementa testes não paramétricos com base em splines das hipóteses nulas de que a função de regressão é quase-convexa e, separadamente, é monótona. Se você não deseja um teste que inferência contra uma forma de U por causa de uma pequena violação, o teste de duas linhas de Uri pode ser melhor se você quiser testar se uma função de regressão está diminuindo e depois aumentando.

Como sua pergunta era sobre o uso do termo "forma de U" e da definição, acho relevante listar aqui alguns termos que são usados com frequência para se referir à mesma coisa que "forma de U" e "forma de U invertida" "são usados para se referir a:" em forma de vale "," em forma de vale "," em forma de colina "," unimodal "," de pico único "e" em forma de sino ". Não existe uma razão inerente para "formato em U" ser um termo melhor que os outros, mas seu uso parece ter se popularizado.

Estou trabalhando em um pacote R geral que será apenas uma interface para pacotes R específicos (como o qmutest) que testam relacionamentos em forma de U, mas eles escolhem defini-los. O objetivo será ajudar os usuários a comparar testes diferentes e pensar bem sobre a hipótese nula exata que eles querem testar e quais suposições estão preparadas para fazer.

— scottkosty
fonte

+1. Estou um pouco confuso com esta frase: "Você quer um teste que rejeite a hipótese nula por causa de uma pequena violação da forma de U?" Suponho que o nulo é que não há formato em U, de modo que um valor p suficientemente pequeno seja uma evidência de formato em U, isso está correto?

— Ameba

(Eu estou contente de ver que você favoravelmente mencionar papel de Uri: eu mencionei isso na minha resposta aqui e foi muito criticado nos comentários.)

— ameba

(+1) Visão geral muito legal, atenciosa e autoritária. Bem vindo ao nosso site!

— whuber

@amoeba Quando uso o "U-shape", estou me referindo à definição 4 acima (uma função com exatamente um ponto de virada). Para o meu teste, o nulo é a forma de U. O que quero dizer é que, assintoticamente, o nulo da forma de U será rejeitado se houver alguma violação da forma de U na função de regressão subjacente (por exemplo, existem dois pontos de virada). Este não é o caso do teste de Uri, porque o teste de duas linhas é sobre a derivada média. Portanto, pode haver manobras sem necessariamente levar a inferência assintótica contra formas em U.

— scottkosty

@amoeba Como exemplo, veja a função rotulada "sin" na Figura 2 do meu artigo. Acredito (embora não tenha verificado) que o teste de duas linhas daria inferência assintótica, sugerindo que "pecado" é uma forma de U, embora tenha três pontos de virada.

— scottkosty

"Relação em forma de U" não é um termo matematicamente preciso e não há definição universalmente aceita. Isso geralmente significa que o relacionamento está diminuindo primeiro e depois aumentando, ou vice-versa.

Em outras palavras, significa que o relacionamento não é monotônico (não monotônico), mas possui exatamente um extremo (máximo ou mínimo). Na ciência da computação, isso às vezes é chamado de "bitônico" .

Uri Simonsohn escreveu recentemente um artigo interessante sobre o teste de relacionamentos em forma de U. Veja sua pré - impressão Duas linhas: uma alternativa válida para o teste inválido de relacionamentos em forma de U com regressões quadráticas, que é muito legível e divertido. Aqui está como o artigo começa:

Existe muitas opções, virtudes ou exemplos em uma frase de abertura? Os pesquisadores geralmente se interessam por esses tipos de perguntas, para avaliar se o efeito de $x$ em $y$ é positivo para valores baixos de $x$ , mas negativo para valores altos de $x$ . Para facilitar a exposição, refiro-me a todos os relacionamentos como "em forma de u", sejam simétricos ou não (isto é, em forma de U ou J) e se o efeito de $x$ em $y$ vai de negativo para positivo ou vice-versa (ou seja, U ou U invertido).

Isso suporta a definição que dei acima.

Por um breve resumo do artigo de Uri, pode-se ler seus DataColada pós Duas linhas: a primeira prova válida de Relações U-Shaped . O ponto principal é que o uso da regressão quadrática para testar a presença de um relacionamento em forma de U está muito errado. Aparentemente, ajustes quadráticos são freqüentemente usados em alguns campos para argumentar a favor de um relacionamento em forma de U (ou seja, o teste t para o termo quadrático é considerado o teste da forma em U); isso é preocupante.

Aqui está o índice:

Atualização: Há algumas críticas ao artigo de Uri nos comentários. Eu gostaria de enfatizar que ele nunca sugere que ajustes descontínuos em duas linhas devem modelar bem os dados (ou que o salto na descontinuidade tenha algum significado físico). Não. Esse ajuste é usado com o único objetivo de fornecer um teste estatístico de forma de U.

É claro que concordo com @FrankHarrell que faz muito mais sentido usar um modelo de spline para se ajustar a tais relacionamentos não lineares. Mas splines não fornecem um teste de forma de U, enquanto o ajuste de duas linhas de Uri fornece.

— ameba
fonte

Eu diria que uma curva quadrática aponta para, em primeiro lugar, uma inclinação variável. Creio que é uma maneira muito, muito boa (ou pelo menos fácil, em muitas circunstâncias) de verificar isso. No entanto, uma maneira muito péssima de representar o (verdadeiro) relacionamento subjacente, especialmente o, se você pode dizer, o desconhecimento de um relacionamento.

— Sextus Empiricus

Acabei de ler. Ele diz que "forçar duas linhas a se conectar introduz viés". Que argumento estranho. Permitir que eles não se conectem introduz impossibilidades. Acho o argumento de duas linhas inteiro fraco. Parece apenas evitar splines.

— Frank Harrell

@FrankHarrell Bem, imagino que seja difícil (se possível) chegar a um valor p para a forma de U com base em um modelo de splines. Eu acho que, em muitos casos, basta criar um bom modelo de splines e, em seguida, apenas olhar para ver se há alguma evidência de forma de U. E você não gosta de valores-p de qualquer maneira. Então está bem. Mas este artigo está tentando desenvolver algum instrumento para os pesquisadores que desejam calcular um valor de p para a forma de U; e este instrumento não deve ter obviamente uma taxa de falsos positivos obviamente ridícula, como o termo quadrático na regressão ... Pelo menos esse é o meu entendimento.

— Ameba

Não vejo os argumentos dele fortes. É mais provável que as splines se ajustem; por que parar no bilinear ou até apresentá-lo a sério? Com splines, o teste de associação (nivelamento) e a não linearidade são triviais. Testar a não monotonicidade é um desafio; gostaria de ver uma referência sobre isso. Com relação apenas ao teste de não linearidade (mas ignorando a precisão das previsões), os quadráticos fazem um trabalho bastante decente. O método de duas linhas depende muito de onde você coloca a descontinuidade.

— Frank Harrell

Embora eu adore a modelagem bayesiana, não estou convencido de que o experimento mental de imaginar um ponto de mudança seja o caminho mais direto a seguir. Prefiro ver um ajuste flexível e flexível com uma distribuição prévia para o grau de não monotonicidade.

— Frank Harrell