Rapidamente se torna aparente, observando muitos relatos da "suposição múltipla", que muitos escritores são notavelmente desleixados quanto ao seu significado. Os mais cuidadosos o definem com uma ressalva sutil, mas extremamente importante : que os dados estejam em ou próximos a uma variedade de baixa dimensão.
Mesmo aqueles que não incluem a cláusula "ou próximo a" adotam claramente a premissa do coletor como uma ficção aproximada, conveniente para realizar análises matemáticas, porque suas aplicações devem contemplar desvios entre os dados e o coletor estimado. De fato, muitos escritores posteriormente introduzem um mecanismo explícito para desvios, como contemplar a regressão de contra que é forçado a ficar em uma variedade mas pode incluir desvios aleatórios. Isso equivale a supor que as tuplas estejam próximasx x M k ⊂ R d y ( x i , y i ) kyxxMk⊂Rd y(xi,yi)para, mas não necessariamente, uma variedade dimensional imersa da formak
(x,f(x))∈Mk×R⊂Rd×R≈Rd+1
para alguma função suave (regressão) . Como podemos ver todos os pontos perturbados , que estão meramente próximos do gráfico de (uma variedade dimensional ), sobre a -dimensional colector de , isso ajuda a explicar por que tais desleixo cerca de distinguir "on" do "próximo" pode ser sem importância em teoria. ( x , y ) = ( x , f ( x ) + ε ) f k k + 1f:Rd→R(x,y)=(x,f(x)+ε)fkk+1Mk×R
A diferença entre "on" e "near to" é extremamente importante para aplicativos. "Perto de" permite que os dados se desviem do coletor. Dessa forma, se você optar por estimar esse coletor, a quantidade típica de desvio entre os dados e o coletor poderá ser quantificada. Um coletor montado será melhor que outro quando a quantidade típica de desvio for menor, ceteris paribus.
A figura mostra duas versões da suposição do coletor para os dados (grandes pontos azuis): o coletor preto é relativamente simples (requer apenas quatro parâmetros para descrever), mas apenas "aproxima-se" dos dados, enquanto o coletor pontilhado vermelho se encaixa nos dados. perfeitamente, mas é complicado (são necessários 17 parâmetros).
Como em todos esses problemas, existe uma troca entre a complexidade da descrição do coletor e a qualidade do ajuste (o problema do excesso de ajuste). É sempre o caso de encontrar um coletor unidimensional que se encaixa perfeitamente em qualquer quantidade finita de dados em (como no coletor pontilhado vermelho da figura, basta executar uma curva suave em todos os pontos , em qualquer ordem: quase certamente não se cruzará, mas se o fizer, perturba a curva na vizinhança de qualquer interseção para eliminá-la). No outro extremo, se apenas uma classe limitada de variedades for permitida (como apenas hiperplanos euclidianos retos), um bom ajuste pode ser impossível, independentemente das dimensões, e o desvio típico entre dados e o ajuste pode ser grande.Rd
Isso leva a uma maneira direta e prática de avaliar a suposição múltipla: se o modelo / preditor / classificador desenvolvido a partir da suposição múltipla funciona de maneira aceitável, então a suposição foi justificada. Assim, as condições apropriadas buscadas na questão serão que alguma medida relevante de qualidade do ajuste seja aceitavelmente pequena. (Que medida? Depende do problema e equivale a selecionar uma função de perda.)
É possível que variedades de diferentes dimensões (com diferentes tipos de restrições em sua curvatura) possam ajustar os dados - e prever dados retidos - igualmente bem. Nada pode ser "provado" sobre a variedade "subjacente" em geral, especialmente quando se trabalha com conjuntos de dados humanos grandes e confusos. Tudo o que normalmente podemos esperar é que o coletor instalado seja um bom modelo.
Se você não criar um bom modelo / preditor / classificador, a suposição de variedade é inválida, você está assumindo variedades de dimensão muito pequena ou não olhou o suficiente ou suficientemente bem.