Os conceitos estatísticos e matemáticos são exatamente os mesmos, entendendo que "família" é um termo matemático genérico com variações técnicas adaptadas a diferentes circunstâncias:
Uma família paramétrica é uma curva (ou superfície ou outra generalização de dimensão finita) no espaço de todas as distribuições.
O restante deste post explica o que isso significa. Como um aparte, não acho que nada disso seja controverso, matematicamente ou estatisticamente (além de um pequeno problema que é observado abaixo). Em apoio a essa opinião, forneci muitas referências (principalmente a artigos da Wikipedia).
Esta terminologia de "famílias" tende a ser usada quando se estudam as classes de funções para um conjunto Y ou "mapas". Dado um domínio X , uma família F de mapas em X parametrizada por algum conjunto Θ (os "parâmetros") é uma funçãoCYYX FX Θ
F:X×Θ→Y
para a qual (1) para cada , a função F θ : X → Y dada por F θ ( x ) = F ( x , θ ) está em C Y e (2) F em si possui certas propriedades "agradáveis".θ∈ΘFθ:X→YFθ(x)=F(x,θ)CYF
A idéia é que queremos variar as funções de a Y de uma maneira "suave" ou controlada. A propriedade (1) significa que cada θ designa tal função, enquanto os detalhes da propriedade (2) capturam o sentido em que uma mudança "pequena" em θ induz uma mudança suficientemente "pequena" em F θ .XYθθFθ
Um exemplo matemático padrão, próximo ao mencionado na pergunta, é uma homotopia . Neste caso, representa a categoria de aplicações contínuas de espaços topológicos X no espaço topológico Y ; Θ = [ 0 , 1 ] ⊂ R é o intervalo de unidade com a sua topologia habitual, e que exigir que M seja um contínuo mapa a partir do produto topológico X × Θ em Y . Pode ser pensado como uma "deformação contínua do mapa FCY XYΘ=[0,1]⊂RFX×ΘY a F 1. "Quando X = [ 0 , 1 ] é em si um intervalo, esses mapas sãocurvasem Y e a homotopia é uma deformação suave de uma curva para outra.F0F1X=[0,1]Y
Para aplicações estatísticas, é o conjunto de todas as distribuições de R (ou, na prática, em R n para algumas N , mas para manter a simples exposição enfocarei n = 1 ). Podemos identificá-lo com o conjunto de todas as funções càdlàg não decrescentes R → [ 0 , 1 ] onde o fechamento de seu intervalo inclui 0 e 1 : essas são as funções de distribuição cumulativa ou simplesmente funções de distribuição. Assim, X = R eCYRRnnn=1R→[0,1]01X=R .Y=[0,1]
Uma família de distribuições é qualquer subconjunto de . CY Outro nome para uma família é modelo estatístico. Ele consiste em todas as distribuições que supostamente governam nossas observações, mas, de outra forma, não sabemos qual é a distribuição real.
- Uma família pode estar vazia.
- em si é uma família.CY
- Uma família pode consistir em uma única distribuição ou apenas em um número finito deles.
Essas características abstratas da teoria dos conjuntos são de pouco interesse ou utilidade. É somente quando consideramos estrutura matemática adicional (relevante) em que este conceito torna-se útil. Mas que propriedades de C Y são de interesse estatística? Alguns que aparecem com freqüência são:CYCY
é umconjunto convexo: dadas quaisquer duas distribuições F , G ∈ C Y , podemos formar adistribuiçãodamistura(1-t) F +t G ∈Ypara todot∈[0,1]. Esta é uma espécie de "homotopy" deFaG.CYF, G ∈ CY (1−t)F+tG∈Yt∈[0,1]FG
As grandes peças de apoiar várias métricas pseudo, tais como a divergência Kullback-Leibler ou o estreitamente relacionado Informação Fisher métrica.CY
tem uma estrutura aditivo: correspondente a quaisquer duas distribuiçõesFeGé a sua soma, F ⋆ L .CYFGF⋆G
suporta muitas funções, naturais úteis, muitas vezes denominado "propriedades". Isso inclui qualquer quantil fixo (como a mediana), bem como oscumulantes.CY
é um subconjunto de umespaço de função. Como tal, ele herda muitas métricas úteis, tais como anorma sup( L ∞ norma) dado por | | F-G | | ∞ = sup x ∈ R | F(x)-G(x) | .CYL∞
||F−G||∞=supx∈R|F(x)−G(x)|.
Naturais acções de grupo em induzir acções sobre C Y . As ações mais comuns são translações T μ : x → x + μ e escalas S σ : x → x σ para σ > 0 . O efeito que eles têm em uma distribuição é enviar F para a distribuição dada por F μ , σ ( x ) = F ( ( x - μ )RCY Tμ:x→x+μ Sσ:x→xσσ>0F . Isso leva aos conceitos de famílias em escala de localização e suas generalizações. (Não forneço uma referência, porque pesquisas extensas na Web geram uma variedade de definições diferentes: aqui, pelo menos, pode haver um pouquinho de controvérsia.)Fμ,σ(x)=F((x−μ)/σ)
As propriedades importantes dependem do problema estatístico e de como você pretende analisar os dados. Abordar todas as variações sugeridas pelas características anteriores exigiria muito espaço para este meio. Vamos nos concentrar em um aplicativo importante e comum.
Tome, por exemplo, Máxima Verossimilhança. Na maioria dos aplicativos, você poderá usar o Cálculo para obter uma estimativa. Para que isso funcione, você deve poder "derivar" na família.
( Técnicas de lado: A maneira usual na qual isto é conseguido é o de seleccionar um domínio de d ≥ 0 e especificar um contínuo, localmente invertível função p de Θ em C Y (isto significa que, para cada. Q ∈ Θ lá existe uma bola B ( θ , ϵ ) , com ϵ > 0 para a qual p ∣ B ( θ , ϵ ) :Θ⊂Rdd≥0pΘCYθ∈ΘB(θ,ϵ)ϵ>0 é um-para-um. Em outras palavras, se alterarmos θ em uma quantidade suficientemente pequena, sempre obteremos uma distribuição diferente.))p∣B(θ,ϵ):B(θ,ϵ)∩Θ→CYθ
Consequentemente, na maioria das aplicações de ML, exigimos que seja contínuo (e, esperançosamente, quase todo lugar diferenciável) no componente Θ . (Sem continuidade, maximizar a probabilidade geralmente se torna um problema intratável.) Isso leva à seguinte definição orientada a probabilidade de uma família paramétrica :pΘ
Uma família paramétrica de distribuições (univariadas) é um mapa localmente invertível com Θ ⊂ R n , para o qual (a) cada F θ é uma função de distribuição e (b) para cada x ∈ R , a função L x : θ → [ 0 , 1 ] dada por L x ( θ ) = F ( x , θ )
F:R×Θ→[0,1],
Θ⊂RnFθx∈RLx:θ→[0,1]Lx(θ)=F(x,θ) é contínuo e quase em qualquer lugar diferenciável.
Observe que uma família paramétrica é mais do que apenas a coleção de F θ : também inclui a maneira específica pela qual os valores de parâmetros θ correspondem às distribuições.FFθθ
Vamos terminar com alguns exemplos ilustrativos.
Seja o conjunto de todas as distribuições normais. Como dado, essa não é uma família paramétrica: é apenas uma família. Para ser paramétrico, temos que escolher uma parametrização. Uma maneira é escolher Θ = { ( μ , σ ) ∈ R 2 | σ > 0 }
e mapear ( μ , σ ) para a distribuição normal com média μ
e variância σ 2 .CYΘ={(μ,σ)∈R2∣σ>0}(μ,σ)μσ2
O conjunto de distribuições de Poisson (λ) é uma família paramétrica com .λ∈Θ=(0,∞)⊂R1
O conjunto de distribuições Uniform (que se destaca com destaque em muitos exercícios de livros didáticos) é uma família paramétrica com
θ ∈ R 1 . Nesse caso, F θ ( x ) = max ( 0 , min ( 1 , x - θ ) ) é diferenciável em θ, exceto por
θ ∈ { x , x - 1 } .(θ,θ+1)θ∈R1Fθ(x)=max(0,min(1,x−θ))θθ∈{x,x−1}
Deixe- e G ser quaisquer duas distribuições. Então F ( x , θ ) = ( 1 - θ ) F ( x ) + θ G ( x ) é uma família paramétrica para θ ∈ [ 0 , 1 ] . (Prova: a imagem de F é um conjunto de distribuições e sua derivada parcial em θ é igual a - F ( x ) + G (FGF(x,θ)=(1−θ)F(x)+θG(x)θ∈[0,1]Fθ que é definido em qualquer lugar.)−F(x)+G(x)
A família de Pearson é uma família de quatro dimensões, , que inclui (entre outros) os distribuições normais, distribuições beta e distribuições Gama inversa. Isso ilustra o fato de que qualquer distribuição dada pode pertencer a muitas famílias diferentes de distribuição . Isso é perfeitamente análogo a observar que qualquer ponto em um espaço (suficientemente grande) pode pertencer a muitos caminhos que se cruzam ali. Isso, junto com a construção anterior, mostra que nenhuma distribuição determina exclusivamente uma família à qual ela pertence.Θ⊂R4
A família de todos finito-variância distribuições contínuas é absolutamente não paramétrico. A prova requer uma profunda teorema de topologia: se dotar C Y com qualquer topologia (se estatisticamente útil ou não) e p : q → C Y é contínua e localmente tem um inversa contínua, então localmente C Y tem de ter a mesma dimensão o de Θ . No entanto, em todas as topologias estatisticamente significativas, C Y é infinito dimensional.CYCYp:Θ→CYCYΘCY