Não posso correr com os grandes nomes da estatística que responderam antes de mim, e talvez meu pensamento seja ingênuo, mas eu vejo dessa maneira ...
Imagine que você está em um carro e está descendo a estrada e girando o volante para a esquerda e direita e pressionando o pedal do acelerador e os freios freneticamente. No entanto, o carro está se movendo suavemente, sem ser afetado por suas ações. Você suspeitaria imediatamente que não estava em um carro de verdade e, talvez, se olhássemos de perto, determinaríamos que você está passeando na Disney World. (Se você estivesse em um carro real, estaria em perigo mortal, mas não vamos lá.)
Por outro lado, se você estava dirigindo pela estrada em um carro e girando o volante levemente para a esquerda ou para a direita, imediatamente resultou no movimento do carro, pisar nos freios resultou em uma forte desaceleração, enquanto pressionar o pedal do acelerador o jogava de volta no carro. assento. Você pode suspeitar que estava em um carro esportivo de alto desempenho.
Em geral, você provavelmente experimenta algo entre esses dois extremos. O grau em que suas entradas (direção, freios, gasolina) afetam diretamente o movimento do carro fornece uma pista sobre a qualidade do carro. Ou seja, quanto maior a variação do movimento do seu carro relacionada às suas ações, melhor o carro e mais ele se move independentemente do seu controle, pior o carro.
De maneira semelhante, você está falando sobre a criação de um modelo para alguns dados (vamos chamá-los de ), com base em outros conjuntos de dados (vamos chamá-los de ). Se não varia, é como um carro que não está se movendo e não há realmente nenhum ponto em discutir se o carro (modelo) funciona bem ou não, então vamos supor varia.x 1 , x 2 , . . . , x i y yyx1,x2,...,xiyy
Assim como o carro, um modelo de boa qualidade terá uma boa relação entre os resultados variando e as entradas variando. Diferentemente de um carro, o não necessariamente faz com que mude, mas se o modelo for útil, o precisa mudar em um relacionamento próximo com . Em outras palavras, o explica grande parte da variação em .x i x i y x i y x i yyxixi yxiyxiy
PS: Não consegui criar uma analogia com o Ursinho Pooh, mas tentei.
PPS [EDIT:] Observe que estou abordando essa questão em particular. Não fique confuso ao pensar que, se você responder por 100% da variação, seu modelo terá um desempenho maravilhoso. Você também precisa pensar em ajustes excessivos, em que seu modelo é tão flexível que se ajusta muito bem aos dados de treinamento - incluindo suas peculiaridades e esquisitices aleatórias. Para usar a analogia, você quer um carro com boa direção e freios, mas deseja que ele funcione bem na estrada, não apenas na pista de teste que está usando.