Estou aprendendo sobre a função de distribuição cumulativa empírica. Mas eu ainda não entendo
Por que é chamado de 'empírico'?
Existe alguma diferença entre o CDF empírico e o CDF?
Estou aprendendo sobre a função de distribuição cumulativa empírica. Mas eu ainda não entendo
Por que é chamado de 'empírico'?
Existe alguma diferença entre o CDF empírico e o CDF?
Respostas:
Seja uma variável aleatória.
A distinção é qual medida de probabilidade é usada. Para o CDF empírico, você usa a medida de probabilidade definida pelas contagens de frequência em uma amostra empírica.
Seja uma variável aleatória que denota o resultado de um único lançamento de moeda, onde indica cara e indica coroa.
O CDF para uma moeda justa é dado por:
Se você inverte 2 cabeças e 1 cauda, o CDF empírico seria:
O CDF empírica iria refletir que, em sua amostra, dos seus flips eram cabeças.
Seja uma variável aleatória distribuída normalmente com média e desvio padrão .
O CDF é dado por:
Com sorteios suficientes de IID (e certas condições de regularidade são atendidas), o CDF empírico convergiria para o CDF subjacente da população.
Existe alguma diferença entre o CDF empírico e o CDF?
Sim, eles são diferentes. Um cdf empírico é um cdf adequado, mas os cdfs empíricos sempre serão discretos, mesmo quando não extraídos de uma distribuição discreta, enquanto o cdf de uma distribuição pode ser outras coisas além de discreto.
Se você tratar uma amostra como se fosse uma população de valores, cada um igualmente provável (ou seja, coloque a probabilidade 1 / n em cada observação), o cdf dessa distribuição seria o ECDF dos dados.
Por que é chamado de 'empírico'?
É uma estimativa da população cdf com base na amostra; especificamente, se você tratar as proporções da amostra em cada valor de dados distinto e tratá-lo como se fosse uma probabilidade na população, receberá o ECDF.
Empírico tem um significado parecido com "pela observação, e não pela teoria", e é exatamente isso que significa neste caso ... usar as observações para determinar a função de distribuição.
O CDF empírico é construído a partir de um conjunto de dados real (no gráfico abaixo, usei 100 amostras de uma distribuição normal padrão). O CDF é uma construção teórica - é o que você veria se pudesse colher infinitas amostras.
O CDF empírico geralmente se aproxima muito bem do CDF, especialmente para amostras grandes (de fato, existem teoremas sobre a rapidez com que converge para o CDF à medida que o tamanho da amostra aumenta).
Empírico é algo que você constrói a partir de dados e observações. Por exemplo, suponha que você queira saber sobre a distribuição da altura das pessoas em um país. Você começa medindo pessoas e cria um histograma que pode ser aproximado a uma distribuição. Então você calcula o CDF empírico.
Se você estiver usando uma distribuição estatística (uma fórmula determinística que fornece exatamente a mesma saída com os mesmos parâmetros), também poderá calcular seu CDF.
Segundo o Dictionary.com , as definições de "empírico" incluem:
derivado de ou guiado por experiência ou experimento.
Portanto, o CDF empírico é o CDF que você obtém dos seus dados. Isso contrasta com o CDF teórico (geralmente chamado de "CDF"), obtido a partir de um modelo estatístico ou probabilístico, como a distribuição Normal.