Determinando uma discretização ideal de dados de uma distribuição contínua

Suponha que você tenha um conjunto de dados de uma distribuição contínua com densidade suportada em que não é conhecido, mas é muito grande, portanto, uma densidade de kernel (por exemplo) a estimativa, , é bastante precisa. Para uma aplicação específica, preciso transformar os dados observados em um número finito de categorias para gerar um novo conjunto de dados com uma função de massa implícita . $Y_{1}, ..., Y_{n}$ $p(y)$ $[0,1]$ $n$ $\hat{p}(y)$ $Z_{1}, ..., Z_{n}$ $g(z)$

Um exemplo simples seria quando e quando . Nesse caso, a função de massa induzida seria $Z_{i} = 0$ $Y_{i} \leq 1/2$ $Z_{i} = 1$ $Y_{i} > 1/2$

\hat{g} (0) = \int_{0}^{1 / 2} \hat{p} (y) d y, \hat{g} (1) = \int_{1 / 2}^{1} \hat{p} (y) d y

$\hat{g}(0) = \int_{0}^{1/2} \hat{p}(y) dy, \ \ \ \hat{g}(1) = \int_{1/2}^{1} \hat{p}(y)dy$

Os dois "parâmetros de ajuste" aqui são o número de grupos, , e o vetor de comprimento dos limites . Denote a função de massa induzida por . $m$ $(m-1)$ $\lambda$ $\hat{g}_{m,\lambda}(y)$

Eu gostaria de um procedimento que responda, por exemplo, "Qual é a melhor escolha de $m, \lambda$ para que aumentar o número de grupos para $m+1$ (e escolher o ideal $\lambda$ lá) traga uma melhoria insignificante?" . Sinto que talvez seja possível criar uma estatística de teste (talvez com a diferença na divergência de KL ou algo semelhante) cuja distribuição possa ser derivada. Alguma idéia ou literatura relevante?

Edit: Eu tenho medições temporais espaçadas uniformemente de uma variável contínua e estou usando uma cadeia de Markov não homogênea para modelar a dependência temporal. Francamente, cadeias de markov de estados discretos são muito mais fáceis de manusear e essa é a minha motivação. Os dados observados são porcentagens. Atualmente, estou usando uma discretização ad hoc que me parece muito boa, mas acho que esse é um problema interessante em que uma solução formal (e geral) é possível.

Edit 2: Minimizar realmente a divergência de KL seria equivalente a não discretizar os dados, de modo que a ideia está totalmente fora de questão. Eu editei o corpo de acordo.

continuous-data discrete-data

— Macro
fonte

Na maioria dos casos, as necessidades do aplicativo subseqüente determinarão a qualidade de qualquer solução. Talvez, para nos dar alguma orientação, você possa dizer mais sobre isso.

— whuber

Primeiro, defina o que você quer dizer com insignificante . Na mão, isso parece relacionado a um problema de distorção da taxa . O texto Cover & Thomas fornece uma boa introdução legível para esses tópicos.

— cardeal

Penso na discretização com níveis como um modelo com parâmetros (para os limites). Nesse cenário, quando digo insignificante, quero dizer "não vale a pena adicionar o parâmetro extra" em um sentido estatístico.

k

$k$

k - 1

$k-1$

— Macro

Não tenho certeza se discretizar é realmente uma boa jogada. Você não poderá generalizar além das fronteiras que os valores discretos criam no espaço original de suas observações.

— bayerj

Compartilharei a solução que encontrei há algum tempo - esse não é um teste estatístico formal, mas pode fornecer uma heurística útil.

Considere o caso geral onde você tem observações contínuas ; sem perda de generalidade, suponha que o espaço amostral de cada observação seja o intervalo . Um esquema de categorização dependerá de várias categorias, , e os limites de localizações que dividem as categorias, . $Y_{1}, Y_{2}, ..., Y_{n}$ $[0,1]$ $m$ $0 < \lambda_{1} < \lambda_{2} < \cdots < \lambda_{m-1} < 1$

Denote a versão categorizada de por , onde . Pensando na discretização dos dados como uma partição dos dados originais em classes, a variação de pode ser pensada como uma combinação de variação dentro e entre grupos, para um valor fixo de : $Y_{i}$ $Z_{i}(m, {\boldsymbol \lambda})$ ${\boldsymbol \lambda} = \{ \lambda_{1}, \lambda_{2}, \cdots, \lambda_{m-1} \}$ $Y_{i}$ $m, {\boldsymbol \lambda}$

v a r (Y_{i}) = v a r (E (Y_{i} | Z_{i} (m, λ))) + E (v a r (Y_{i} | Z_{i} (m, λ))) .

$\begin{equation} {\rm var}(Y_{i}) = {\rm var} \Big( E(Y_{i} | Z_{i}(m, {\boldsymbol \lambda})) \Big) + E \Big( {\rm var}(Y_{i} | Z_{i}(m, {\boldsymbol \lambda})) \Big). \end{equation}$

Uma dada categorização é bem-sucedida na produção de grupos homogêneos se houver relativamente pouca variação dentro do grupo, quantificada por . , buscamos um agrupamento parcimonioso que confere a maior parte da variação em ao . Em particular, queremos escolher para que, adicionando níveis adicionais, não acrescentemos significativamente à homogeneidade dentro do grupo.Com isso em mente, definimos o ideal para um valor fixo de ser $E( {\rm var}(Y_{i} | Z_{i}(m, {\boldsymbol \lambda}) )$ $Y_{i}$ ${\rm var}( E(Y_{i} | Z_{i}(m, {\boldsymbol \lambda}) )$ $m$ ${\boldsymbol \lambda}$ $m$

λ_{m}^{⋆} = {a r g m i n}_{λ} E (v a r (Y_{i} | Z_{i} (m, λ)))

$\begin{equation} {\boldsymbol \lambda}^{\star}_{m} = {\rm argmin}_{\boldsymbol \lambda} E \Big( {\rm var}(Y_{i} | Z_{i}(m, {\boldsymbol \lambda})) \Big) \end{equation}$

Um diagnóstico aproximado para determinar qual escolha de é adequada é observar a queda em em função de - essa trajetória monotonicamente não aumenta e depois que diminui acentuadamente, você pode ver que está ganhando relativamente menos precisão ao incluir mais categorias. Essa heurística é similar em espírito, como um " Scree Plot " às vezes é usado para ver quantos componentes principais explicam "o suficiente" da variação. $m$ $E \Big( {\rm var}(Y_{i} | Z_{i}(m, {\boldsymbol \lambda}^{\star}_{m} )) \Big)$ $m$

— Macro
fonte