Gostaria de saber se a estimativa de máxima probabilidade já foi usada em estatística.
Certamente! Na verdade, bastante - mas nem sempre.
Aprendemos o conceito, mas me pergunto quando é realmente usado.
Quando as pessoas têm um modelo distributivo paramétrico, geralmente escolhem usar a estimativa da máxima verossimilhança. Quando o modelo está correto, há várias propriedades úteis dos estimadores de probabilidade máxima.
Por um exemplo - o uso de modelos lineares generalizados é bastante difundido e, nesse caso, os parâmetros que descrevem a média são estimados por máxima verossimilhança.
Pode acontecer que alguns parâmetros sejam estimados pela máxima probabilidade e outros não. Por exemplo, considere um Poisson GLM super-disperso - o parâmetro de dispersão não será estimado pela máxima probabilidade, porque o MLE não é útil nesse caso.
Se assumirmos a distribuição dos dados, encontraremos dois parâmetros
Bem, às vezes você pode ter dois, mas às vezes você tem um parâmetro, às vezes três ou quatro ou mais.
um para a média e outro para a variância,
Você está pensando em um modelo específico, talvez? Isso não é sempre o caso. Considere estimar o parâmetro de uma distribuição exponencial ou Poisson ou distribuição binomial. Em cada um desses casos, há um parâmetro e a variação é uma função do parâmetro que descreve a média.
Ou considere uma distribuição gama generalizada , que possui três parâmetros. Ou uma distribuição beta de quatro parâmetros , que possui (talvez sem surpresa) quatro parâmetros. Observe também que (dependendo da parametrização específica) a média ou a variância ou ambas podem não ser representadas por um único parâmetro, mas pelas funções de vários deles.
Por exemplo, a distribuição gama, para a qual existem três parametrizações que vêem uso bastante comum - as duas mais comuns têm a média e a variância sendo funções de dois parâmetros.
Normalmente, em um modelo de regressão ou GLM ou em um modelo de sobrevivência (entre muitos outros tipos de modelo), o modelo pode depender de vários preditores; nesse caso, a distribuição associada a cada observação no modelo pode ter um de seu próprio parâmetro (ou até vários parâmetros) relacionados a muitas variáveis preditoras ("variáveis independentes").