Definição de família de uma distribuição?


14

Uma família de uma distribuição tem uma definição diferente para estatística do que em outras disciplinas?

Em geral, uma família de curvas é um conjunto de curvas, cada uma das quais é dada por uma função ou parametrização na qual um ou mais parâmetros são variados. Tais famílias são usadas, por exemplo, para caracterizar componentes eletrônicos .

Para estatísticas, uma família de acordo com uma fonte é o resultado da variação do parâmetro de forma. Como então podemos entender que a distribuição gama possui um parâmetro de forma e escala e somente a distribuição gama generalizada possui, além disso, um parâmetro de localização? Isso faz da família o resultado da variação do parâmetro de localização? De acordo com @whuber, o significado de uma família é implicitamente Uma "parametrização" de uma família é um mapa contínuo de um subconjunto de ℝ , com sua topologia usual, no espaço de distribuições, cuja imagem é essa família.n

O que, em linguagem simples, é uma família para distribuições estatísticas?

Uma questão sobre as relações entre as propriedades estatísticas das distribuições da mesma família já gerou considerável controvérsia para uma questão diferente, portanto parece valer a pena explorar o significado.

Que essa não é necessariamente uma pergunta simples, surge do seu uso na frase família exponencial , que nada tem a ver com uma família de curvas, mas está relacionada à alteração da forma do PDF de uma distribuição por reparameterização, não apenas de parâmetros , mas também substituição de funções de variáveis ​​aleatórias independentes.


1
Com a frase "família de uma distribuição", você quer dizer outra coisa "uma família de distribuições"? Uma família exponencial é uma família de distribuições (com certas propriedades) e, interpretando o pdf de cada distribuição como uma curva, corresponde até a uma família de curvas; portanto, os últimos parágrafos parecem confusos.
Juho Kokkala

@JuhoKokkala Parece confuso porque o significado de "família" depende do contexto. Por exemplo, uma distribuição normal de média desconhecida e variação conhecida está na família exponencial. Uma distribuição normal tem suporte infinito, e uma distribuição exponencial tem suporte semi-infinito, , portanto, não há família de curvas para uma distribuição exponencial que cubra o intervalo de uma distribuição normal, eles nunca têm a mesma forma ...(,+)[0,+)
Carl

@JuhoKokkala ... e um PDF exponencial nem sequer possui um parâmetro de localização, enquanto uma distribuição normal não pode prescindir de um. Veja o link acima para as substituições necessárias e o contexto em que um pdf normal está na família exponencial.
29417 Carl

1
stats.stackexchange.com/questions/129990/… pode ser relevante. "distribuição normal de média desconhecida e variância conhecida está na família exponencial" é, até onde sei, abuso de terminologia (embora um tanto comum). Para ser exato, uma família exponencial é uma família de distribuições com certas propriedades. A família de distribuições normais com média desconhecida e variação conhecida é uma família exponencial; a família de distribuições exponenciais é outra família exponencial, etc. #
Juho Kokkala

1
@JuhoKokkala: Essa "família" é tão comum (ab) usada, em um caso especial, para significar "conjunto de famílias" talvez valha a pena puxar para outra resposta. (Eu não consigo pensar em outros casos - por alguma razão, parece propenso a falar de "no-one a família localização escala".)
Scortchi - Reintegrar Monica

Respostas:


14

Os conceitos estatísticos e matemáticos são exatamente os mesmos, entendendo que "família" é um termo matemático genérico com variações técnicas adaptadas a diferentes circunstâncias:

Uma família paramétrica é uma curva (ou superfície ou outra generalização de dimensão finita) no espaço de todas as distribuições.

O restante deste post explica o que isso significa. Como um aparte, não acho que nada disso seja controverso, matematicamente ou estatisticamente (além de um pequeno problema que é observado abaixo). Em apoio a essa opinião, forneci muitas referências (principalmente a artigos da Wikipedia).


Esta terminologia de "famílias" tende a ser usada quando se estudam as classes de funções para um conjunto Y ou "mapas". Dado um domínio X , uma família F de mapas em X parametrizada por algum conjunto Θ (os "parâmetros") é uma funçãoCYYX FX Θ

F:X×ΘY

para a qual (1) para cada , a função F θ : X Y dada por F θ ( x ) = F ( x , θ ) está em C Y e (2) F em si possui certas propriedades "agradáveis".θΘFθ:XYFθ(x)=F(x,θ)CYF

A idéia é que queremos variar as funções de a Y de uma maneira "suave" ou controlada. A propriedade (1) significa que cada θ designa tal função, enquanto os detalhes da propriedade (2) capturam o sentido em que uma mudança "pequena" em θ induz uma mudança suficientemente "pequena" em F θ .XYθθFθ

Um exemplo matemático padrão, próximo ao mencionado na pergunta, é uma homotopia . Neste caso, representa a categoria de aplicações contínuas de espaços topológicos X no espaço topológico Y ; Θ = [ 0 , 1 ] R é o intervalo de unidade com a sua topologia habitual, e que exigir que M seja um contínuo mapa a partir do produto topológico X × Θ em Y . Pode ser pensado como uma "deformação contínua do mapa FCY XYΘ=[0,1]RFX×ΘY a F 1. "Quando X = [ 0 , 1 ] é em si um intervalo, esses mapas sãocurvasem Y e a homotopia é uma deformação suave de uma curva para outra.F0F1X=[0,1]Y

Para aplicações estatísticas, é o conjunto de todas as distribuições de R (ou, na prática, em R n para algumas N , mas para manter a simples exposição enfocarei n = 1 ). Podemos identificá-lo com o conjunto de todas as funções càdlàg não decrescentes R[ 0 , 1 ] onde o fechamento de seu intervalo inclui 0 e 1 : essas são as funções de distribuição cumulativa ou simplesmente funções de distribuição. Assim, X = R eCYRRnnn=1R[0,1]01X=R .Y=[0,1]

Uma família de distribuições é qualquer subconjunto de . CY Outro nome para uma família é modelo estatístico. Ele consiste em todas as distribuições que supostamente governam nossas observações, mas, de outra forma, não sabemos qual é a distribuição real.

  • Uma família pode estar vazia.
  • em si é uma família.CY
  • Uma família pode consistir em uma única distribuição ou apenas em um número finito deles.

Essas características abstratas da teoria dos conjuntos são de pouco interesse ou utilidade. É somente quando consideramos estrutura matemática adicional (relevante) em que este conceito torna-se útil. Mas que propriedades de C Y são de interesse estatística? Alguns que aparecem com freqüência são:CYCY

  1. é umconjunto convexo: dadas quaisquer duas distribuições F , G C Y , podemos formar adistribuiçãodamistura(1-t) F +t GYpara todot[0,1]. Esta é uma espécie de "homotopy" deFaG.CYF,GCY (1t)F+tGYt[0,1]FG

  2. As grandes peças de apoiar várias métricas pseudo, tais como a divergência Kullback-Leibler ou o estreitamente relacionado Informação Fisher métrica.CY

  3. tem uma estrutura aditivo: correspondente a quaisquer duas distribuiçõesFeGé a sua soma, F L .CYFGFG

  4. suporta muitas funções, naturais úteis, muitas vezes denominado "propriedades". Isso inclui qualquer quantil fixo (como a mediana), bem como oscumulantes.CY

  5. é um subconjunto de umespaço de função. Como tal, ele herda muitas métricas úteis, tais como anorma sup( L norma) dado por | | F-G | | = sup x R | F(x)-G(x) | .CYL

    ||FG||=supxR|F(x)G(x)|.
  6. Naturais acções de grupo em induzir acções sobre C Y . As ações mais comuns são translações T μ : x x + μ e escalas S σ : x x σ para σ > 0 . O efeito que eles têm em uma distribuição é enviar F para a distribuição dada por F μ , σ ( x ) = F ( ( x - μ )RCY Tμ:xx+μ Sσ:xxσσ>0F . Isso leva aos conceitos de famílias em escala de localização e suas generalizações. (Não forneço uma referência, porque pesquisas extensas na Web geram uma variedade de definições diferentes: aqui, pelo menos, pode haver um pouquinho de controvérsia.)Fμ,σ(x)=F((xμ)/σ)

As propriedades importantes dependem do problema estatístico e de como você pretende analisar os dados. Abordar todas as variações sugeridas pelas características anteriores exigiria muito espaço para este meio. Vamos nos concentrar em um aplicativo importante e comum.

Tome, por exemplo, Máxima Verossimilhança. Na maioria dos aplicativos, você poderá usar o Cálculo para obter uma estimativa. Para que isso funcione, você deve poder "derivar" na família.

( Técnicas de lado: A maneira usual na qual isto é conseguido é o de seleccionar um domínio de d 0 e especificar um contínuo, localmente invertível função p de Θ em C Y (isto significa que, para cada. Q Θ lá existe uma bola B ( θ , ϵ ) , com ϵ > 0 para a qual p B ( θ , ϵ ) :ΘRdd0pΘCYθΘB(θ,ϵ)ϵ>0 é um-para-um. Em outras palavras, se alterarmos θ em uma quantidade suficientemente pequena, sempre obteremos uma distribuição diferente.))pB(θ,ϵ):B(θ,ϵ)ΘCYθ

Consequentemente, na maioria das aplicações de ML, exigimos que seja contínuo (e, esperançosamente, quase todo lugar diferenciável) no componente Θ . (Sem continuidade, maximizar a probabilidade geralmente se torna um problema intratável.) Isso leva à seguinte definição orientada a probabilidade de uma família paramétrica :pΘ

Uma família paramétrica de distribuições (univariadas) é um mapa localmente invertível com Θ R n , para o qual (a) cada F θ é uma função de distribuição e (b) para cada x R , a função L x : θ [ 0 , 1 ] dada por L x ( θ ) = F ( x , θ )

F:R×Θ[0,1],
ΘRnFθxRLx:θ[0,1]Lx(θ)=F(x,θ) é contínuo e quase em qualquer lugar diferenciável.

Observe que uma família paramétrica é mais do que apenas a coleção de F θ : também inclui a maneira específica pela qual os valores de parâmetros θ correspondem às distribuições.FFθθ

Vamos terminar com alguns exemplos ilustrativos.

  • Seja o conjunto de todas as distribuições normais. Como dado, essa não é uma família paramétrica: é apenas uma família. Para ser paramétrico, temos que escolher uma parametrização. Uma maneira é escolher Θ = { ( μ , σ ) R 2 | σ > 0 } e mapear ( μ , σ ) para a distribuição normal com média μ e variância σ 2 .CYΘ={(μ,σ)R2σ>0}(μ,σ)μσ2

  • O conjunto de distribuições de Poisson (λ) é uma família paramétrica com .λΘ=(0,)R1

  • O conjunto de distribuições Uniform (que se destaca com destaque em muitos exercícios de livros didáticos) é uma família paramétrica com θ R 1 . Nesse caso, F θ ( x ) = max ( 0 , min ( 1 , x - θ ) ) é diferenciável em θ, exceto por θ { x , x - 1 } .(θ,θ+1)θR1Fθ(x)=max(0,min(1,xθ))θθ{x,x1}

  • Deixe- e G ser quaisquer duas distribuições. Então F ( x , θ ) = ( 1 - θ ) F ( x ) + θ G ( x ) é uma família paramétrica para θ [ 0 , 1 ] . (Prova: a imagem de F é um conjunto de distribuições e sua derivada parcial em θ é igual a - F ( x ) + G (FGF(x,θ)=(1θ)F(x)+θG(x)θ[0,1]Fθ que é definido em qualquer lugar.)F(x)+G(x)

  • A família de Pearson é uma família de quatro dimensões, , que inclui (entre outros) os distribuições normais, distribuições beta e distribuições Gama inversa. Isso ilustra o fato de que qualquer distribuição dada pode pertencer a muitas famílias diferentes de distribuição . Isso é perfeitamente análogo a observar que qualquer ponto em um espaço (suficientemente grande) pode pertencer a muitos caminhos que se cruzam ali. Isso, junto com a construção anterior, mostra que nenhuma distribuição determina exclusivamente uma família à qual ela pertence.ΘR4

  • A família de todos finito-variância distribuições contínuas é absolutamente não paramétrico. A prova requer uma profunda teorema de topologia: se dotar C Y com qualquer topologia (se estatisticamente útil ou não) e p : q C Y é contínua e localmente tem um inversa contínua, então localmente C Y tem de ter a mesma dimensão o de Θ . No entanto, em todas as topologias estatisticamente significativas, C Y é infinito dimensional.CYCYp:ΘCYCYΘCY


2
Levarei cerca de um dia para digerir sua resposta. Vou ter que mastigar devagar. Enquanto isso, obrigado.
29417 Carl

(+1) OK, eu entrei nele. Então, um espaço polonês ou não? Podemos fazer uma resposta simples para que as pessoas saibam como evitar o uso inadequado da palavra família , por favor. A @JuhoKokkala relatou, por exemplo, que a Wikipedia abusou da linguagem em sua família exponencial , que precisa de esclarecimentos. F:R×Θ[0,1]
Carl

1
A segunda frase desta resposta não atende a esse pedido de simplicidade?
whuber

IMHO, no entanto desinformado, não, não devido à incompletude, não diz o que uma família não é. O conceito "no espaço de todas as distribuições" parece estar relacionado apenas às estatísticas.
30417 Carl

1
Eu aceitei sua resposta. Você tem informações suficientes para que eu possa aplicá-las à questão em questão.
31417 Carl

1

Para abordar um ponto específico levantado na pergunta: "família exponencial" não indica um conjunto de distribuições. (O padrão, digamos, distribuição exponencial é um membro da família de distribuições exponenciais, uma família exponencial; da família de distribuições gama, também uma família exponencial; da família de distribuições Weibull, não uma família exponencial; & de qualquer número de outras famílias que você pode imaginar.) Antes, "exponencial" aqui se refere a uma propriedade possuída por uma família de distribuições. Portanto, não devemos falar de "distribuições na família exponencial", mas de "famílias exponenciais de distribuições" - a primeira é um abuso de terminologia, como aponta @JuhoKokkala. Por alguma razão, ninguém comete esse abuso ao falar de famílias em escala de localização.


0

Graças ao @whuber, há informações suficientes para resumir o que, espero, seja uma forma mais simples relacionada à pergunta da qual este post surgiu. "Outro nome para uma família [ Sic , família estatística] é [um] modelo estatístico ".

A partir dessa entrada da Wikipedia: Um modelo estatístico consiste em todas as distribuições que supostamente governam nossas observações, mas, de outra forma, não sabemos qual distribuição é a atual. O que distingue um modelo estatístico de outros modelos matemáticos é que um modelo estatístico é não determinístico. Assim, em um modelo estatístico especificado por equações matemáticas, algumas das variáveis ​​não possuem valores específicos, mas possuem distribuições de probabilidade; ou seja, algumas das variáveis ​​são estocásticas. Um modelo estatístico é geralmente considerado como um par , onde S é o conjunto de possíveis observações, ou seja, o espaço amostral e P é um conjunto de distribuições de probabilidade em(S,P)SP .S

Suponha que tenhamos um modelo estatístico com P = { P θ : θ Θ } . O modelo é considerado um modelo paramétrico se etric tiver uma dimensão finita. Na notação, escrevemos que q R d em que d é um inteiro positivo ( R denota os números reais; outros conjuntos podem ser utilizados, em princípio). Aqui, d é chamado de dimensão do modelo.(S,P)P={Pθ:θΘ}ΘΘRddRd


P={Pμ,σ(x)12πσexp((xμ)22σ2):μR,σ>0}.
d

μ=0σ=1,2,3,4,5σ

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.