"Suavidade" de uma estatística para inicialização?

Fiquei me perguntando se alguém poderia explicar o que significa dizer que uma estatística não é 'suave'.

Por exemplo, em 2.6.2 p. 41 de Davison e Hinkley , eles falam sobre estatísticas que "dependem da amostra de uma maneira instável ou instável, de modo que a teoria de expansão padrão não se aplique".

Ele também menciona que uma função é uma função diferenciável de momentos de amostra, mas não tenho certeza se é isso que significa "suave" ou não.

Se sim, você pode explicar o que se entende por essa frase?

bootstrap

— Abelha
fonte

$\newcommand{\OLS}{\operatorname{OLS}}$ Esta é essencialmente uma pergunta sobre terminologia matemática, não estatística, até onde eu sei.

De qualquer forma, o ponto é que as estatísticas não são uma função diferenciável da amostra, ou não são $n-$ vezes continuamente função diferenciável da amostra.

Em outras palavras, é possível que a resposta da estatística a alterações na amostra não seja ideal ou seja abruptamente abrupta (daí a terminologia 'suave'), de maneira que funções lineares ou polinomiais dos dados, por exemplo, nunca poderia ter.

A página da Wikipedia sobre funções suaves provavelmente é desnecessariamente técnica em alguns momentos, mas esperamos que algumas das fotos e discussões ampliadas possam lhe dar alguma intuição sobre o que deve ser evocado pelo termo 'suavidade'.

Se uma determinada função é uma "função diferenciável dos momentos da amostra", pode ser uma função suave dos momentos da amostra, dependendo de qual sentido "suave" está sendo usado nesse contexto. Costumo ver "suave" usado para significar infinitas vezes continuamente diferenciáveis (por exemplo, polinômios ou funções lineares ou senos e cossenos), mas às vezes o termo pode ser usado em um sentido menos estrito, como menciona a página da Wikipedia.

De qualquer forma, você está certo de que se relaciona à diferenciabilidade - essa é a ideia principal.

Também vale a pena notar que existem funções que são contínuas, mas não "suaves" - a idéia é que, embora a continuidade seja em geral uma boa propriedade de regularidade, em muitos casos ela ainda permite muito comportamento patológico indesejável, enquanto esse comportamento patológico não pode ocorrem para funções suaves, porque são ainda mais agradáveis que as contínuas.

Exemplo: considere, por exemplo, o estimador LASSO com covariáveis ortonormais:

${\hat{β}}_{j} = S_{N λ} ({\hat{β}}_{j}^{OLS}) = {\hat{β}}_{j}^{OLS} max {0, 1 - \frac{N λ}{| {\hat{β}}_{j}^{OLS} |}},$ $\hat{\beta}_j = S_{N \lambda}(\hat{\beta}_j^{\OLS}) = \hat{\beta}_j^{\OLS} \max\left\{ 0, 1 - \frac{N \lambda}{\left|\hat{\beta}^{\OLS}_j \right|} \right\},$ que . $\hat{\beta}^{OLS} = (X^T X)^{-1}X^Ty = X^T y$

Primeiro, observamos que é linear nas coordenadas de e pois é linear em e , portanto (assumindo que ou representa a amostra) todas as são funções completamente suaves e não são a fonte da não suavidade. Em vez disso, qualquer não suavidade vem da função máxima encontrada na definição de , como tentarei convencê-lo abaixo. $\hat{\beta}_j^{\OLS}$ $X$ $y$ $\hat{\beta}^{\OLS}$ $X$ $y$ $X$ $y$ $\hat{\beta}_j^{\OLS}$ $\max$ $\hat{\beta}_j$

Usamos a identidade (discutida e comprovada aqui ) para reescrever a expressão acima da seguinte maneira: $\max\{x, y \} = \frac{x+y +|x-y|}{2}$

\begin{array}{rcl} {\hat{β}}_{j} & = & \frac{{\hat{β}}_{j}^{OLS}}{2} [- (\frac{N λ}{| {\hat{β}}_{j}^{OLS} |} - 1) + | \frac{N λ}{| {\hat{β}}_{j}^{OLS} |} - 1 |] \\ = & {\begin{cases} 0, & when \frac{N λ}{| {\hat{β}}^{OLS} |} \geq 1 \\ {\hat{β}}_{j}^{OLS} (1 - \frac{N λ}{| {\hat{β}}_{j}^{OLS} |}), & when \frac{N λ}{| {\hat{β}}^{OLS} |} \leq 1 \end{cases} \end{array}

$\begin{array}{rcl} \hat{\beta}_j & = & \displaystyle\frac{\hat{\beta}_j^{\OLS}}{2}\left[ -\left( \frac{N \lambda}{\left|\hat{\beta}_j^{\OLS}\right|} - 1 \right) + \left|\frac{N \lambda}{\left|\hat{\beta}_j^{\OLS}\right|}-1\right| \enspace \right] \\ & = & \begin{cases} 0, & \text{when } \displaystyle\frac{N \lambda}{\left|\hat{\beta}^{\OLS}\right|} \ge 1 \\ \hat{\beta}_j^{\OLS}\left(1 - \displaystyle\frac{N \lambda}{\left|\hat{\beta}_j^{\OLS}\right|} \right), & \text{when } \displaystyle\frac{N \lambda}{\left|\hat{\beta}^{\OLS}\right|} \le 1 \end{cases} \end{array}$

Escrito neste formulário, é óbvio que temos pelo menos duas fontes possíveis para um comportamento não suave: (1) quando , fazendo com que um denominador desapareça, (2) e possíveis cúspides nos pontos em que: pois é claro que nesses pontos é a "colagem" de duas funções diferentes que, mesmo que eles tenham o mesmo valor nos pontos em que $\hat{\beta}_j^{\OLS}=0$

\frac{N λ}{| {\hat{β}}_{j}^{OLS} |} = 1 ⟺ N λ = | {\hat{β}}_{j}^{OLS} |,

$\frac{N \lambda}{\left| \hat{\beta}^{\OLS}_j \right|} = 1 \iff N\lambda = \left| \hat{\beta}^{\OLS}_j \right|,$

{\hat{β}}_{j}

$\hat{\beta}_j$

(0 and {\hat{β}}_{j}^{OLS} (1 - \frac{N λ}{| {\hat{β}}_{j}^{OLS} |}))

$\left(0\text{ and }\hat{\beta}_j^{\OLS}\left(1 - \frac{N \lambda}{\left|\hat{\beta}_j^{\OLS}\right|} \right) \right)$

N λ = | {\hat{β}}_{j}^{OLS} |

$N\lambda = \left| \hat{\beta}^{\OLS}_j \right|$ , podem não necessariamente "funcionar bem" juntos de forma que os derivativos da esquerda e da direita concordem com todos os . O exemplo mais básico de uma função para a qual isso não ocorre éno valor : a primeira derivada da esquerda é e a primeira derivada da direita é ; portanto, não é suave em . Eu suspeito que um fenômeno análogo provavelmente aconteça para a função nos pontos em que, fazendo com que não seja uma função suave de suas entradas.

n

$n$

| x |

$|x|$

x = 0

$x=0$

- 1

$-1$

1

$1$

x = 0

$x=0$

{\hat{β}}_{j}

$\hat{\beta}_j$

N λ = | {\hat{β}}_{j}^{OLS} |

$N \lambda = \left| \hat{\beta}^{\OLS}_j \right|$

{\hat{β}}_{j}

$\hat{\beta}_j$

A função precisa ser suave apenas em relação aos argumentos de entrada para ser considerada suave. Presumivelmente, seus argumentos de entrada são a própria amostra ou algumas funções da amostra. Se é uma função das funções da amostra, é possível, por composição, obter uma nova função que pula o intermediário (ou seja, retorna as mesmas saídas de interesse e é diretamente uma função da amostra). Pela regra da cadeia esta função composto é lisa se e apenas se ambas as funções e $\hat{\beta}_j$ $g$ $\hat{\beta}_j$ $g$ $\hat{\beta}_j \circ g$ $\tilde{\hat{\beta}}_j$ $\tilde{\hat{\beta}}_j = \hat{\beta}_j \circ g$ $\hat{\beta}_j$ $g$ são suaves.

— Chill2Macht
fonte

Muito obrigado pela sua resposta! Alguma chance de alguém dar um exemplo de como você verificaria isso para algumas estatísticas simples? Achei a parte sobre como a estatística 'muda na amostra' é bastante confusa. Não tenho certeza de como uma estatística mudaria em uma amostra? Não tenho certeza se sou claro qual função seria diferenciada e com relação a qual variável ??

— Bee

@ Bee, não prometo nada, mas se você digitar a passagem a que se refere (em particular a definição da estatística em questão), posso tentar dar uma olhada nela. Um motivo comum para as funções não serem suaves são as singularidades isoladas, por exemplo, quando a função é uma fração e o denominador é zero em um ponto. Esse é o seu caso com a estatística? pt.wikipedia.org/wiki/Singularity_(mathematics)

— Chill2Macht 18/11/16

Assim, por exemplo, o estimador LASSO com covariáveis ortonormais dadas na wikipedia claramente a parte max () dessa função pode apresentar alguns problemas de suavidade, mas qual é a variável que precisa ser 'suave' com relação a ... pensar em Bols como mudança é um conceito estranho

— Bee

apenas b / c eu não sei como escrever OLS beta como no exemplo e torná-la adequada

— Bee

@William +1 Boa resposta. Uma conclusão está faltando. Suponho que algo como 'Portanto, o bootstrap aplicado para estimar a variação de seja inválido porque a estatística é uma função não suave em e '.

{\hat{β}}_{j}

$\hat{\beta}_j$

X

$X$

y

$y$

— Decrescente