Teste de qualidade do ajuste: questão sobre o teste de Anderson – Darling e o critério de Cramér-von Mises


10

Estou lendo páginas da web para testes de adequação, quando cheguei ao teste de Anderson-Darling e ao critério de Cramér-von Mises .

Até agora eu entendi o ponto; parece que o teste de Anderson-Darling e o critério de Cramér-von Mises são semelhantes, apenas com base em uma função de ponderação diferente . Também há uma variante do critério Cramér-von Mises, denominada teste de Watson .W

Basicamente, eu tenho duas perguntas aqui

  1. Não há muitos resultados do Google sobre esses dois métodos; eles ainda estão no estado da arte? ou substituído por algumas abordagens melhores já?

    É uma surpresa, pois, de acordo com este artigo sobre comparações de poder dos testes Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors e Anderson-Darling , o AD está apresentando um bom desempenho; sempre melhor que Lilliefors e KS, e muito próximo ao teste SW, que é projetado especificamente para a distribuição normal.

  2. Qual é o intervalo de confiança para esses testes?

    Para os testes AD, CM e Watson, vi a variável estatística de teste definida nas páginas da wiki, mas não encontrei o intervalo de confiança.

    KαK

Respostas:


4

Não pode haver um estado da arte em termos de qualidade de ajuste (por exemplo, nenhum teste UMP entre alternativas gerais existirá, e nada chega nem perto - mesmo os testes omnibus altamente conceituados têm um poder terrível em algumas situações).

Em geral, ao selecionar uma estatística de teste, você escolhe os tipos de desvio mais importantes para detectar e usar uma estatística de teste que seja boa nesse trabalho. Alguns testes se saem muito bem em uma ampla variedade de alternativas interessantes, tornando-as opções padrão decentes, mas isso não as torna "avançadas".

O Anderson Darling ainda é muito popular e por boas razões. O teste de Cramer-von Mises é muito menos usado atualmente (para minha surpresa, porque geralmente é melhor que o Kolmogorov-Smirnov, mas mais simples que o Anderson-Darling - e geralmente tem um poder melhor do que nas diferenças "no meio" de a distribuição)

Todos esses testes sofrem viés contra alguns tipos de alternativas, e é fácil encontrar casos em que o Anderson-Darling se sai muito pior (terrivelmente, realmente) do que os outros testes. (Como eu sugiro, são mais 'cavalos para percursos' do que um teste para dominá-los). Muitas vezes, há pouca consideração dada a esse problema (o que é melhor para captar os desvios que mais importam para mim?), Infelizmente.

Você pode encontrar algum valor em algumas dessas postagens:

Shapiro – Wilk é o melhor teste de normalidade? Por que poderia ser melhor do que outros testes como o Anderson-Darling?

2 amostras de Kolmogorov-Smirnov vs. Anderson-Darling vs Cramer-von-Mises (cerca de testes de duas amostras, mas muitas das afirmações continuam

Motivação para a distância de Kolmogorov entre distribuições (discussão mais teórica, mas há vários pontos importantes sobre implicações práticas)


Eu não acho que você possa formar um intervalo de confiança para o cdf nas estatísticas Cramer-von Mises e Anderson Darline, porque os critérios são baseados em todos os desvios e não apenas no maior.


Entendi "estado da arte" como algo que considera um uso que não é obsoleto. A existência de várias definições de adequação deve indicar para nós que a adequação não é um conceito único. Considere que "bom" depende de "por que" estamos realizando regressão. Suponha que estamos ajustando o Modelo A aos dados B para obter o melhor preditor de efeito C. Então "bom" é o melhor preditor de C e não B. No entanto, na maioria das vezes a questão de como B e C diferem é ignorada.
Carl

11
@Carl, você pode verificar um dicionário (ou a Wikipédia) sobre o que geralmente é considerado o estado da arte - sua interpretação da frase não é como a maioria das pessoas lê a frase. Os dicionários dizem coisas assim: " a fase mais recente do desenvolvimento, incorporando as idéias mais recentes " e " o mais alto nível de desenvolvimento em um determinado momento " e " vanguarda, usando a tecnologia mais recente ". Nesse contexto - testando a adequação - a frase implica "o melhor que podemos fazer agora". Eu insisto que isso não é algo que você possa dizer sobre um único teste. ...
ctd

2
... por exemplo, podemos dizer que testes populares como o Shapiro-Wilk (embora muito populares em testar a normalidade) têm concorrentes com potência amplamente melhor (por exemplo, ver Shapiro & Chen 1995) - mas não em todas as situações. Não existe a melhor escolha de teste (e, portanto, não existe um 'estado da arte' real). Certamente concordo que o que é melhor (estado da arte) depende das circunstâncias - esse é o ponto da minha resposta; as respostas possíveis são inúmeras - algo bom em uma situação pode ser muito ruim em outra. Vale a pena saber quando os testes têm bom desempenho em vez de pedir "o que é melhor", como se fosse uma coisa única.
Glen_b -Reinstala Monica

Verdade, sua definição é mais correta. No entanto, existem muito mais métodos do que testes de métodos, e o "estado da arte" é amplamente ficção, ou seja, a "arte" não tem "estado", tudo o que tem são protagonistas. Qualquer resposta a esse positivo nebuloso é ambígua. Eu disse 'sim' e você disse 'não' e nós dois dissemos a mesma coisa.
Carl

Aliás, a questão era "estado da arte" ou "substituída", que eu entendi como "obsoleta ou não obsoleta". Portanto, houve um contexto para a minha resposta, cujo contexto era "Por favor, assuma que 'estado da arte' e 'substituir' são antônimos, e escolha um deles". Você está certo de que não são antônimos, eu estava respondendo no contexto e você optou por implantar a pergunta. Então, a minha foi a resposta educada. E vou votar na sua resposta, porque acho informativa, se não excessivamente educada.
Carl

2

n=400 é um teste de ajuste da função de densidade cumulativa mais poderoso que o teste de Kolmogorov-Smirnov e pode ter potência maior ou menor que o teste t. O qui-quadrado tem dificuldade com baixa contagem de células, portanto, restrições de alcance são usadas para encaixar as caudas.

** Pergunta 1: ... esses dois métodos ainda são de última geração? ou substituído por algumas melhores abordagens já? Questão 2 Qual é o intervalo de confiança para esses testes? **

Resposta: Eles são o estado da arte. No entanto, às vezes queremos intervalos de confiança e não probabilidades. Ao comparar esses métodos, falamos de poder em vez de intervalos de confiança. Às vezes, a qualidade do ajuste é analisada usando AIC, BIC e outros critérios, em contraste com as probabilidades de um ajuste adequado, e às vezes o critério do ajuste de qualidade é irrelevante, por exemplo, quando o ajuste de qualidade não é o critério de ajuste . Neste último caso, nosso objetivo de regressão pode ser uma quantidade física não relacionada ao ajuste, por exemplo, consulte Tk-GV .


O teste de Anderson-Darling é uma versão ponderada do teste de Cramer-von Mises; &, como ele, adequado para qualquer distribuição contínua.
Scortchi - Restabelece Monica
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.