Alguma propriedade quantitativa da população é um "parâmetro"?

13

Estou relativamente familiarizado com a distinção entre os termos estatística e parâmetro. Vejo uma estatística como o valor obtido da aplicação de uma função aos dados da amostra. No entanto, a maioria dos exemplos de parâmetros está relacionada à definição de uma distribuição paramétrica. Um exemplo comum é a média e o desvio padrão para parametrizar a distribuição normal ou os coeficientes e a variação de erro para parametrizar uma regressão linear.

No entanto, existem muitos outros valores da distribuição da população que são menos prototípicos (por exemplo, mínimo, máximo, quadrado r na regressão múltipla, quantil 0,25, mediana, número de preditores com coeficientes diferentes de zero, assimetria, número de correlações em uma matriz de correlação maior que 0,3, etc.).

Assim, minhas perguntas são:

Qualquer propriedade quantitativa de uma população deve ser rotulada como "parâmetro"?
Se sim, então por quê?
Se não, quais características não devem ser rotuladas como parâmetro? O que eles devem ser rotulados? E porque?

Elaboração de confusão

O artigo da Wikipedia sobre estimadores afirma:

Um "estimador" ou "estimativa pontual" é uma estatística (ou seja, uma função dos dados) usada para inferir o valor de um parâmetro desconhecido em um modelo estatístico.

Mas posso definir o valor desconhecido como quantil 0,25 e desenvolver um estimador para esse desconhecido. Ou seja, nem todas as propriedades quantitativas de uma população são parâmetros da mesma maneira que dizem que a média e o sd são parâmetros de uma distribuição normal, mas é legítimo procurar estimar qualquer propriedade quantitativa da população.

— Jeromy Anglim
fonte

15

Esta questão está no âmago do que é estatística e como conduzir uma boa análise estatística. Isso levanta muitos problemas, alguns de terminologia e outros de teoria. Para esclarecê-los, vamos começar observando o contexto implícito da pergunta e, a partir daí, definir os termos-chave "parâmetro", "propriedade" e "estimador". As várias partes da pergunta são respondidas à medida que aparecem na discussão. A seção final final resume as idéias principais.

Espaços de Estado

Um uso estatístico comum de "a distribuição", como em "a distribuição Normal com PDF proporcional a "é na verdade um abuso (sério) do inglês, porque obviamente essa não é uma distribuição: é uma família inteira de distribuiçõesparametrizadaspelos símbolose. Uma notação padrão para esse é o "espaço de estado" $\exp(-\frac{1}{2}(x-\mu)/\sigma)^2)dx$ $\mu$ $\sigma$ $\Omega$ , um conjuntode distribuições. (Estou simplificando um pouco aqui por uma questão de exposição e continuarei a simplificar à medida que avançamos, mantendo-se o mais rigoroso possível.) Seu papel é delinear os possíveis alvos de nossos procedimentos estatísticos: quando estimamos algo, estamos escolhendo um (ou às vezes mais) elementos de . $\Omega$

Às vezes, os espaços de estado são explicitamente parametrizados, como em . Nesta descrição, há uma correspondência individual entre o conjunto de tuplas no plano superior e o conjunto de distribuições que usaremos para modelar nossos dados. Um valor dessa parametrização é que agora podemos nos referir concretamente às distribuições em por meio de um par ordenado de números reais. $\Omega = \{\mathcal{N}(\mu, \sigma^2)|\mu \in \mathbb{R}, \sigma \gt 0\}$ $\{(\mu,\sigma)\}$ $\Omega$

Em outros casos, os espaços de estado não são explicitamente parametrizados. Um exemplo seria o conjunto de todas as distribuições contínuas unimodais. Abaixo, abordaremos a questão de saber se uma parametrização adequada pode ser encontrada em tais casos de qualquer maneira.

Parametrizações

Geralmente, uma parametrização de é uma correspondência (matemático função ) a partir de um subconjunto de (com finita) para . Ou seja, ele usa conjuntos ordenados de tples para rotular as distribuições. Mas não é apenas qualquer correspondência: deve ser "bem comportada". Para entender isso, considere o conjunto de todas as distribuições contínuas cujos PDFs têm expectativas finitas. Isso seria amplamente considerado como "não paramétrico" no sentido de que qualquer tentativa "natural" de parametrizar esse conjunto envolveria uma sequência contável de números reais (usando uma expansão em qualquer base ortogonal). No entanto, porque este conjunto tem cardinalidade $\Omega$ $\mathbb{R}^d$ $d$ $\Omega$ $d$ , que é a cardinalidade dos reais, não deve existir alguma correspondência de um-para-um entre estas distribuições e . Paradoxalmente, isso parece fazer deste umespaço de estadoparametrizadocom umúnicoparâmetro real! $\aleph_1$ $\mathbb{R}$

O paradoxo é resolvido observando que um único número real não pode ter uma relação "agradável" com as distribuições: quando alteramos o valor desse número, a distribuição a que ele corresponde deve, em alguns casos, mudar de maneira radical. Excluímos essas parametrizações "patológicas" exigindo que as distribuições correspondentes aos valores próximos de seus parâmetros sejam elas mesmas "próximas" umas das outras. Discutir definições adequadas de "fechar" nos levaria muito longe, mas espero que essa descrição seja suficiente para demonstrar que há muito mais para ser um parâmetro do que apenas nomear uma distribuição específica.

Propriedades das distribuições

Através da aplicação repetida, nos acostumamos a pensar em uma "propriedade" de uma distribuição como uma quantidade inteligível que freqüentemente aparece em nosso trabalho, como expectativa, variação e assim por diante. O problema com isso como uma possível definição de "propriedade" é que é muito vago e não suficientemente geral. (Foi aqui que a matemática ocorreu em meados do século XVIII, onde "funções" eram pensadas como processos finitos aplicados a objetos.) Em vez disso, a única definição sensata de "propriedade" que sempre funcionará é pensar em uma propriedade como sendo um número atribuído exclusivamente a todas as distribuições em $\Omega$ . Isso inclui a média, a variância, qualquer momento, qualquer combinação algébrica de momentos, qualquer quantil e muito mais, incluindo coisas que nem sequer podem ser computadas. No entanto, não inclui coisas que não fariam sentido para alguns dos elementos de . Por exemplo, se consiste em todas as distribuições de Student t, então a média não é uma propriedade válida para (porque não tem média). Este impressiona-nos mais uma vez o quanto nossas idéias depender do que realmente consiste. $\Omega$ $\Omega$ $\Omega$ $t_1$ $\Omega$

Propriedades nem sempre são parâmetros

Uma propriedade pode ser uma função tão complicada que não serviria como parâmetro. Considere o caso da "distribuição normal". Podemos querer saber se a média da distribuição verdadeira, quando arredondada para o número inteiro mais próximo, é par. Isso é uma propriedade. Mas não servirá como parâmetro.

Parâmetros não são necessariamente propriedades

Quando parâmetros e distribuições estão em correspondência individual, obviamente qualquer parâmetro e qualquer função dos parâmetros nesse sentido é uma propriedade de acordo com nossa definição. Mas não é necessário haver uma correspondência individual entre parâmetros e distribuições: algumas vezes, algumas distribuições devem ser descritas por dois ou mais valores distintamente diferentes dos parâmetros. Por exemplo, um parâmetro de localização para pontos na esfera usaria naturalmente latitude e longitude. Tudo bem - exceto nos dois pólos, que correspondem a uma dada latitude e qualquer longitude válida. o localização(ponto na esfera) é de fato uma propriedade, mas sua longitude não é necessariamente uma propriedade. Embora existam vários desvios (apenas declare a longitude de um polo como zero, por exemplo), esta questão destaca a importante diferença conceitual entre uma propriedade (que está exclusivamente associada a uma distribuição) e um parâmetro (que é uma maneira de rotular a distribuição e pode não ser exclusivo).

Procedimentos estatísticos

O objetivo de uma estimativa é chamado de estimativa . É apenas uma propriedade. O estatístico não é livre para selecionar a estimativa: essa é a província de seu cliente. Quando alguém chega até você com uma amostra de uma população e pede para você estimar o percentil 99 da população, você provavelmente não se importa em fornecer um estimador da média! Seu trabalho, como estatístico, é identificar um bom procedimento para estimar a estimativa que você recebeu. (Às vezes, seu trabalho é convencer seu cliente de que ele selecionou a estimativa errada para seus objetivos científicos, mas isso é uma questão diferente ...)

Por definição, um procedimento é uma maneira de obter um número dos dados. Os procedimentos geralmente são dados como fórmulas a serem aplicadas aos dados, como "some todos eles e divida pela contagem". Literalmente, qualquer procedimento pode ser considerado um "estimador" de um determinado estimador. Por exemplo, poderia declarar que a média da amostra (uma fórmula aplicada aos dados) calcula a variância da população (uma propriedade da população, assumindo nosso cliente restringiu o conjunto de possíveis populações para incluir apenas aqueles que, na verdade, ter desvios). $\Omega$

Estimadores

Um estimador não precisa ter nenhuma conexão óbvia com o estimador. Por exemplo, você vê alguma conexão entre a média da amostra e uma variação populacional? Nem eu. Mas, no entanto, a média da amostra na verdade é um estimador decente da variância da população com certeza $\Omega$ (como o conjunto de todas as distribuições de Poisson). Aqui está uma chave para entender os estimadores: suas qualidades dependem do conjunto de estados possíveis . Mas isso é apenas parte disso. $\Omega$

Um estatístico competente desejará saber quão bem o procedimento que eles recomendam realmente executará. Vamos chamar o procedimento " " e deixar a estimativa ser . Sem saber qual distribuição é realmente verdadeira, ela contemplará o desempenho do procedimento para todas as distribuições possíveis . Dado tal , e dados quaisquer resultados possíveis (ou seja, um conjunto de dados), ela comparará (o que seu procedimento estima) com (o valor da estimativa para $t$ $\theta$ $F \in \Omega$ $F$ $s$ $t(s)$ $\theta(F)$ $F$ ). É responsabilidade do cliente dizer-lhe quão próximos ou distantes esses dois estão. (Isso geralmente é feito com a função "perda".) Ela pode então contemplar a expectativa da distância entre e . Esse é o risco do procedimento dela. Como depende de , o risco é uma função definida em . $t(s)$ $\theta(F)$ $F$ $\Omega$

Estatísticos (bons) recomendam procedimentos com base na comparação de riscos. Por exemplo, suponha que para cada , o risco do procedimento seja menor ou igual ao risco de . Então, nunca há razão para usar : é "inadmissível". Caso contrário, é "admissível". $F \in \Omega$ $t_1$ $t$ $t$

(Um estatístico "bayesiano" sempre comparará os riscos calculando a média de uma distribuição "anterior" de estados possíveis (geralmente fornecidos pelo cliente). Um estatístico "freqüentista" pode fazer isso, se esse prior existir, justificadamente, mas também estiver disposto a comparar riscos de outras maneiras que os bayesianos evitam.)

Conclusões

Temos o direito de dizer que qualquer admissível para é um estimador de . $t$ $\theta$ $\theta$ Devemos, para propósitos práticos (porque os procedimentos admissíveis podem ser difíceis de encontrar), inclinar isso para dizer que qualquer que tenha um risco aceitável pequeno (quando comparado a ) entre procedimentos praticáveis é um estimador de . $t$ $\theta$ $\theta$ "Aceitável" e "praticável" são determinados pelo cliente, é claro: "aceitável" refere-se ao risco e "praticável" reflete o custo (finalmente pago por eles) da implementação do procedimento.

Por trás dessa definição concisa estão todas as idéias discutidas: para entendê-la, precisamos ter em mente um específico (que é um modelo do problema, processo ou população em estudo), uma estimativa definitiva (fornecida pelo cliente), um função de perda específica (que conecta quantitativamente à estimativa e também é fornecida pelo cliente), a ideia de risco (calculada pelo estatístico), algum procedimento para comparar funções de risco (responsabilidade do estatístico em consulta com o cliente), e uma noção de quais procedimentos realmente podem ser realizados (a questão da "praticabilidade"), mesmo que nenhum deles seja explicitamente mencionado na definição. $\Omega$ $t$

— whuber
fonte

2

@Nick Cox, em sua resposta, traz alguns pontos excelentes que (na minha interpretação) vão para "o que fazemos quando sabemos que qualquer modelo

e qualquer função de perda que especificamos serão um tanto imprecisos ou inadequados?" A resposta para isso nos levaria a uma direção diferente; Tudo o que quero dizer aqui é que a estrutura que expus - que é a clássica a que Tukey estava reagindo - nos fornece uma boa base para pensarmos em questões mais amplas da análise de dados. No mínimo, esclarece as suposições implícitas que entram em termos padrão como "estimador".

Ω

$\Omega$

— whuber

11

Assim como ocorre com muitas perguntas sobre definições, as respostas precisam estar de olho nos princípios subjacentes e na maneira como os termos são usados na prática, que geralmente podem ser pelo menos um pouco frouxos ou inconsistentes, mesmo por indivíduos bem informados e muito mais. importante, variável de comunidade para comunidade.

Um princípio comum é que uma estatística é uma propriedade de uma amostra e uma constante conhecida, e um parâmetro é a propriedade correspondente da população e, portanto, uma constante desconhecida. A palavra "correspondente" deve ser entendida como bastante elástica aqui. Aliás, precisamente essa distinção e precisamente essa terminologia têm menos de um século, tendo sido introduzidas por RA Fisher.

Mas

Uma configuração de amostra e população não caracteriza todos os nossos próprios problemas. As séries temporais são uma classe principal de exemplos em que a idéia é um processo de geração subjacente, e algo assim é sem dúvida a idéia mais profunda e geral.
Existem configurações nas quais os parâmetros mudam. Novamente, a análise de séries temporais fornece exemplos.
Até o ponto principal aqui, na prática, não pensamos em todas as propriedades de uma população ou processo como parâmetros. Se algum procedimento assume um modelo de distribuição normal, o mínimo e o máximo não são parâmetros. (De fato, de acordo com o modelo, o mínimo e o máximo são números negativos e positivos arbitrariamente grandes de qualquer maneira, não que isso deva nos preocupar.)

Eu diria que, pela primeira vez, a Wikipedia está apontando na direção certa aqui, e prática e princípio são respeitados se dissermos que um parâmetro é o que estamos estimando .

Isso também ajuda com outras questões que causaram perplexidade. Por exemplo, se calcularmos uma média aparada de 25%, o que estamos estimando? Uma resposta razoável é a propriedade correspondente da população, que na verdade é definida pelo método de estimativa. Uma terminologia é que um estimador tem uma estimativa, o que quer que esteja estimando. Começando com alguma idéia platônica de uma propriedade "lá fora" (digamos, o modo de uma distribuição) e pensando em como estimar isso é razoável, como é pensar em boas receitas para analisar dados e refletir sobre o que elas implicam quando consideradas como inferência.

Como frequentemente em matemática ou ciências aplicadas, há um aspecto duplo em um parâmetro. Muitas vezes pensamos nisso como algo real por aí que estamos descobrindo, mas também é verdade que é algo definido pelo nosso modelo de processo, de modo que não tem significado fora do contexto do modelo.

Dois pontos bastante diferentes:

Muitos cientistas usam a palavra "parâmetro" da maneira que os estatísticos usam variável. Eu tenho uma personalidade de cientista e estatística, e eu diria que é lamentável. Variáveis e propriedades são melhores palavras.
É notadamente comum no uso mais amplo do inglês que se acredita que parâmetro signifique limites ou limites, que podem resultar de alguma confusão original entre "parâmetro" e "perímetro".

Uma observação sobre o ponto de vista estimado

A posição clássica é que identificamos um parâmetro com antecedência e depois decidimos como estimar, e isso continua sendo a prática da maioria, mas reverter o processo não é absurdo e pode ser útil para alguns problemas. Eu chamo isso de ponto de vista estimado. Está na literatura há pelo menos 50 anos. Tukey (1962, p.60) insistia que

"Devemos dar ainda mais atenção ao começar com um estimador e descobrir o que é um estimador razoável, para descobrir o que é razoável pensar no estimador como uma estimativa".

Um ponto de vista semelhante foi elaborado formalmente em considerável detalhe e profundidade por Bickel e Lehmann (1975) e informalmente com considerável lucidez por Mosteller e Tukey (1977, pp.32-34).

Há também uma versão elementar. Usar (digamos) a média mediana ou geométrica da amostra para estimar o parâmetro populacional correspondente faz sentido, independentemente de a distribuição subjacente ser simétrica, e o mesmo ágio pode ser estendido para (por exemplo) médias aparadas da amostra, consideradas como estimadoras de seus equivalentes populacionais. .

Bickel, PJ e EL Lehmann. 1975. Estatística descritiva para modelos não paramétricos. II Localização . Annals of Statistics 3: 1045-1069.

Mosteller, F. e JW Tukey. 1977. Análise de dados e regressão. Reading, MA: Addison-Wesley.

Tukey, JW 1962. O futuro da análise de dados . Annals of Mathematics Statistics 33: 1-67.

— Nick Cox
fonte

Muito disso está em desacordo com a literatura estatística padrão, especialmente sua definição de parâmetro. Parece confundir os processos de encontrar um procedimento para calcular uma estimativa e identificar o que deve ser estimado. O último - escolhendo a estimativa - é uma questão que o cientista ou investigador deve determinar. A primeira é então selecionada pelo estatístico para ter propriedades desejáveis entre todos os procedimentos possíveis para estimar a estimativa. Há também questões técnicas; basta dizer que um parâmetro é mais restrito do que uma estimativa arbitrária.

— whuber

Expandirei minha resposta para resolver isso.

— Nick Cox

1

Concordo com Tukey, embora você possa pensar da minha resposta a este tópico que sou um dos estatísticos "ossificados" que ele desafia. O problema é que você tirou a citação dele do contexto. Tukey está abordando especificamente a questão de como avaliar as propriedades dos procedimentos "quando as hipóteses nas quais eles costumam ser desenvolvidos não se mantêm". Isso não altera as definições de coisas como parâmetros, estimadores e estimativas. Em particular, um parâmetro ainda não é "o que estamos estimando".

— whuber

3

Muita comida para pensar aqui. Como resposta rápida: minha resposta não pretendia sugerir que estamos no Liberty Hall, onde tudo vale. O contexto para a citação de Tukey é bem-vindo, pois meu ponto de vista é que é usual que as hipóteses costumeiras não se sustentem, na medida em que todos os modelos são aproximações que não correspondem exatamente aos dados. Longe de morder, essa cláusula sublinha o valor dos diferentes pontos de vista. Em geral, não estou tentando, nem qualificado para produzir, definições formais mais abstratas e matematicamente refinadas.

— Nick Cox

6

pdf = \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{1}{2} \frac{(x_{i} - μ)^{2}}{σ^{2}}}

$\text{pdf}=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2}\frac{(x_i-\mu)^2}{\sigma^2}}$

1

$1$

2

$2$

π

$\pi$

\approx 3.1415926

$\approx 3.1415926$

e

$e$

\approx 2.718281828

$\approx 2.718281828$

X

$X$

x_{i}

$x_i$ $\boldsymbol\mu$ $\boldsymbol\sigma^2$

X

$X$

25^{th} %

$25^{\text{th}}\%$

μ

$\mu$

σ^{2}

$\sigma^2$

μ

$\mu$

σ^{2}

$\sigma^2$

Y = β_{0} + β_{1} X_{1} + β_{2} X_{2} + ε where ε \sim N (0, σ^{2})

$Y=\beta_0 + \beta_1X_1 + \beta_2X_2 + \varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, \sigma^2)$ $\boldsymbol\beta_0$ $\boldsymbol\beta_1$ $\boldsymbol\beta_2$ $\boldsymbol\sigma^2$

25^{th} %

$25^{\text{th}}\%$

Y

$Y$

X = x_{i}

$X=x_i$

β_{0}

$\beta_0$

β_{1}

$\beta_1$

β_{2}

$\beta_2$

σ^{2}

$\sigma^2$

β_{0}

$\beta_0$

β_{1}

$\beta_1$

β_{2}

$\beta_2$

σ^{2}

$\sigma^2$

(Tudo isso pressupõe, é claro, que meu modelo de distribuição populacional ou processo de geração de dados esteja correto. Como sempre, vale lembrar que "todos os modelos estão errados, mas alguns são úteis" - George Box .)

Para responder suas perguntas mais explicitamente, eu diria:

Não, qualquer quantitativa antiga adequadamente não deve ser rotulada como "parâmetro".
n / D
As características que devem ser rotuladas como "parâmetros" dependem da especificação do modelo. Eu não tenho um nome especial para outras características quantitativas, mas eu acho que seria bom para chamá-los de propriedades ou características ou consequências , etc.

— Repor a Monica
fonte

Obrigado. Mas que terminologia você usa para descrever todos os valores populacionais que podem ser derivados de um modelo paramétrico, mas não estão no conjunto de parâmetros convenientes para representar esse modelo? Ou, alternativamente, pode haver um caso em que você não conhece o modelo populacional e não se importa particularmente, mas está interessado em um aspecto não padronizado específico do modelo populacional.

— precisa saber é o seguinte

Não tenho nenhum nome especial geralmente aplicável, mas existem nomes para alguns valores específicos. Por exemplo, se você realmente não acredita que sua população está suficientemente próxima de qualquer distribuição bem estudada, você pode tentar caracterizá-la por sua mediana, quartis, pontos de articulação etc.

— gung - Reinstate Monica

3

β_{0}, β_{1}, β_{2},

$\beta_0, \beta_1, \beta_2,$

σ

$\sigma$

θ

$\theta$

β_{0}

$\beta_0$

θ

$\theta$

θ

$\theta$

θ

$\theta$

— whuber

3

Houve ótimas respostas para essa pergunta, pensei em resumir uma referência interessante que fornece uma discussão bastante rigorosa dos estimadores.

A página de laboratórios virtuais sobre estimadores define

uma estatística como "uma função observável da variável de resultado".
$\theta$

O conceito de função de uma distribuição é uma ideia muito geral. Assim, todos os exemplos fornecidos acima podem ser vistos como uma função de uma certa distribuição.

Todo quantil, incluindo o mínimo, mediano e 25º quantil, o máximo pode ser uma função de uma distribuição.
A assimetria é uma função de uma distribuição. Se essa distribuição populacional for normal, eles serão zero, mas isso não interromperá o cálculo desses valores.
Contar o número de correlações maiores que um determinado valor é uma função da matriz de covariância que, por sua vez, é uma função de uma distribuição multivariada.
R-quadrado é uma função da distribuição.

— Jeromy Anglim
fonte

1

Uma razão pela qual ofereci uma resposta mais elaborada é que essa definição de "parâmetro" não é boa o suficiente. Para um contra-exemplo, veja meu comentário na resposta de @ gung . Intuitivamente, um conjunto de distribuições parametrizadas forma um coletor topológico com limite finito-dimensional; um parâmetro deve ser uma função contínua definida no coletor. Isso é mais do que apenas um requisito técnico, porque se refere às distribuições amostrais de estimativas.

— whuber