Qual é a diferença entre predição e inferência?

37

Estou lendo " Uma Introdução à Aprendizagem Estatística ". No capítulo 2, eles discutem o motivo da estimativa de uma função . $f$

2.1.1 Por que estimar ? $f$

Há duas razões principais para estimar f : previsão e inferência . Nós discutimos cada um por vez.

Eu li isso algumas vezes, mas ainda não entendi a diferença entre previsão e inferência. Alguém poderia dar um exemplo (prático) das diferenças?

prediction terminology causality

— user61629
fonte

5

Os autores de Uma introdução ao aprendizado estatístico nos fizeram um desserviço aqui. Faz-se inferências para fazer previsões, assim como faz-se inferências para entender causas e efeitos. Merriam-webster.com define "inferir" principalmente como "derivar como uma conclusão de fatos ou premissas". Isso abrange tanto o raciocínio causal quanto o preditivo. É enganoso, confuso e contra o uso padrão a longo prazo restringir a definição de "inferir" para incluir apenas questões de causalidade. Então: vamos contrastar inferência preditiva com inferência causal.

— Rolando2 08/08/19

2

@ rolando2: Acho que também precisamos de inferência descritiva , isto é, inferência sobre parâmetros em modelos descritivos (não causais).

— Kjetil b halvorsen

29

Inferência: dado um conjunto de dados, você deseja inferir como a saída é gerada como uma função dos dados.

Previsão: com uma nova medida, você deseja usar um conjunto de dados existente para criar um modelo que escolha com segurança o identificador correto a partir de um conjunto de resultados.

Inferência: Você deseja descobrir qual é o efeito da Idade, Classe de Passageiros e Sexo na sobrevivência ao desastre do Titanic. Você pode fazer uma regressão logística e inferir o efeito de cada característica de passageiro nas taxas de sobrevivência.

Previsão: dadas algumas informações sobre um passageiro do Titanic, você deseja escolher entre o conjunto e estar correto o mais rápido possível. (Consulte a troca de desvio e desvio para previsão, caso você queira saber como estar correto o mais rápido possível.) $\{\text{lives}, \text{dies}\}$

A previsão não gira em torno do estabelecimento da relação mais precisa entre a entrada e a saída; a previsão precisa se preocupa em colocar novas observações na classe certa o mais rápido possível.

Portanto, o "exemplo prático" resume-se bruscamente à seguinte diferença: Dado um conjunto de dados de passageiros para um único passageiro, a abordagem de inferência fornece uma probabilidade de sobrevivência, o classificador oferece uma escolha entre vidas ou dados.

Classificadores de ajuste são um tópico muito interessante e crucial da mesma maneira que a interpretação correta de valores de p e intervalos de confiança.

— Beyer
fonte

11

Boa resposta. Mas quando algumas pessoas ouvem a palavra "inferência", pensam em "inferência causal". Você pode querer dizer algo sobre isso também, mesmo que (ou talvez especialmente porque) o ISLR não esteja focado nisso.

— generic_user

11

Eu acho que, no mundo do aprendizado profundo, a inferência é praticamente a mesma que a previsão, por exemplo. blogs.nvidia.com/blog/2016/08/22/…

— user1893354

11

Parece-me uma resposta perfeitamente boa.

— gung - Restabelece Monica

3

Acredito que esta resposta esteja errada, especificamente "a abordagem de inferência oferece uma probabilidade de sobrevivência, o classificador oferece uma escolha entre vidas ou dados", ainda mais especificamente a primeira parte. Calcular a probabilidade de um passageiro sobreviver é uma previsão, especificamente uma probabilidade. No caso contínuo, seria uma previsão de densidade. Podemos então limitar essa probabilidade prevista de obter uma classificação rígida , sim. ...

— S. Kolassa - Restabelece Monica

3

... Enquanto a previsão é sobre a previsão dos resultados , a inferência é sobre a compreensão do relacionamento das entradas com o resultado: qual entrada tem essa relação e como podemos distinguir uma relação "verdadeira" da covariância aleatória (que é onde p valores entre)? Alguém pode me explicar onde estou enganado?

— S. Kolassa - Restabelece Monica

11

Geralmente, ao fazer a análise de dados, imaginamos que exista algum tipo de "processo de geração de dados" que dê origem aos dados, e inferência refere-se a aprender sobre a estrutura desse processo, enquanto previsão significa ser capaz de realmente prever os dados que vêm dele . Muitas vezes os dois andam juntos, mas nem sempre.

Um exemplo em que os dois andam de mãos dadas seria o modelo de regressão linear simples

Y_{i} = β_{0} + β_{1} x_{i} + ϵ_{i} .

$Y_i = \beta_0 + \beta_1 x_i + \epsilon_i .$

A inferência neste caso significaria estimar os parâmetros do modelo e e nossas previsões seriam calculadas apenas a partir de nossas estimativas desses parâmetros. Mas existem outros tipos de modelos nos quais é possível fazer previsões sensatas, mas o modelo não leva necessariamente a insights significativos sobre o que está acontecendo nos bastidores. Alguns exemplos desses tipos de modelos seriam métodos complexos de conjuntos que podem levar a boas previsões, mas às vezes são difíceis ou impossíveis de entender. $\beta_0$ $\beta_1$

— dsaxton
fonte

3

"mas o modelo não leva necessariamente a insights significativos sobre o que está acontecendo nos bastidores". O termo " caixa preta " vem à mente. :)

— Alexis

ou redes neurais multi-camada

— Shihab Shahriar Khan

"Mas existem outros tipos de modelos em que é possível fazer previsões sensatas, mas o modelo não leva necessariamente a insights significativos sobre o que está acontecendo nos bastidores.", Quem se importa? O problema de inferência, como você o definiu, ainda é o de determinar os parâmetros do modelo. Não entendo por que você inicia esta frase com "Mas" e por que escreveu essa frase, com relação à sua definição de inferência e previsão.

— nbro 19/01

11

O uso de "mas" é porque ambas as descrições dos modelos anteriores e seguintes estão corretas, no entanto, o modelo a seguir é distinto da natureza do anterior de maneiras que você não esperaria até entender a distinção entre previsão e inferência isso está sendo ilustrado. Eu já estou familiarizado com a distinção, no entanto, acho este exemplo perspicaz e útil. +1

— gung - Restabelecer Monica

10

Na página 20 do livro, os autores fornecem um belo exemplo que me fez entender a diferença.

Aqui está o parágrafo do livro: Uma Introdução à Aprendizagem Estatística

"Por exemplo , em um ambiente imobiliário, pode-se procurar relacionar valores de casas a insumos como taxa de criminalidade, zoneamento, distância de um rio, qualidade do ar, escolas, nível de renda da comunidade, tamanho das casas, etc. Nesse caso, pode-se estar interessado em como as variáveis de entrada individuais afetam os preços - ou seja, quanto mais uma casa valerá se tiver vista para o rio? Esse é um problema de inferência . na previsão do valor de uma casa, dadas as suas características: essa casa é sub ou supervalorizada? Esse é um problema de previsão ".

— tenshi
fonte

5

A previsão usa f estimado para prever o futuro. Suponha que você observe uma variável , talvez seja a receita da loja. Você deseja fazer planos financeiros para o seu negócio e precisa prever a receita no próximo trimestre. Você suspeita que a receita depende da renda da população neste trimestre e da época do ano . Portanto, você considera que é uma função: $y_t$ $x_{1,t}$ $x_{2,t}$

y_{t} = f (x_{1, t - 1}, x_{2, t - 1}) + ε_{t}

$y_t=f(x_{1,t-1},x_{2,t-1})+\varepsilon_t$

Agora, se você obtiver os dados sobre renda, digamos séries de renda disponível pessoal da BEA e construir a variável época do ano, poderá estimar a função f e , em seguida, inserir os valores mais recentes da renda da população e da época do ano. função. Isso produzirá a previsão para o próximo trimestre da receita da loja.

A inferência usa a função estimada f para estudar o impacto dos fatores no resultado e fazer outras coisas dessa natureza. No meu exemplo anterior, você pode estar interessado em quanto a estação do ano determina a receita da loja. Então, você pode olhar para a derivada parcial - sensibilidade à estação. Se f fosse de fato um modelo linear, seria um coeficiente de regressão da segunda variável . $\partial f/\partial x_{2t}$ $\beta_2x_{2,t-1}$

$x$ Como são correlacionados, é mais difícil separar o impacto do preditor do impacto de outros preditores. Para a previsão, isso não importa, tudo o que importa é a qualidade da previsão.

— Aksakal
fonte

3

Imagine, você é um médico em uma unidade de terapia intensiva. Você tem um paciente com febre forte e um determinado número de células sanguíneas, um determinado peso corporal e uma centena de dados diferentes e deseja prever se ele sobreviverá. Se sim, ele ocultará a história do outro filho para a esposa; caso contrário, é importante que ele a revele, enquanto pode.

O médico pode fazer essa previsão com base nos dados de ex-pacientes que ele teve em sua unidade. Com base no seu conhecimento de software, ele pode prever usando uma regressão linear generalizada (glm) ou através de uma rede neural (nn).

1. Modelo Linear Generalizado

Existem muitos parâmetros correlatos para o glm. Para chegar a um resultado, o médico terá que fazer suposições (linearidade etc.) e decisões sobre quais parâmetros provavelmente terão influência. O glm o recompensará com um teste t de significância para cada um de seus parâmetros, para que ele possa reunir fortes evidências de que gênero e febre têm uma influência significativa, o peso corporal não necessariamente.

2. Rede neural

A rede neural engolirá e digerirá todas as informações existentes na amostra de ex-pacientes. Não interessa se os preditores estão correlacionados e não revelará tanta informação, se a influência do peso corporal parece ser importante apenas na amostra em questão ou em geral (pelo menos não no nível de especialização que o médico tem a oferecer). Apenas calculará um resultado.

O que é melhor

Qual método escolher depende do ângulo em que você olha para o problema: Como paciente, eu preferiria a rede neural que usa todos os dados disponíveis para uma melhor estimativa do que acontecerá comigo sem suposições fortes e obviamente erradas, como linearidade. Como médico, que deseja apresentar alguns dados em um diário, ele precisa de valores-p. A medicina é muito conservadora: eles vão pedir valores-p. Então, o médico quer relatar que, em tal situação, o gênero tem uma influência significativa. Para o paciente, isso não importa, basta usar qualquer influência que a amostra sugira ser mais provável.

Neste exemplo, o paciente deseja previsão, o lado do cientista do médico deseja inferência. Principalmente, quando você quer entender um sistema, a inferência é boa. Se você precisar tomar uma decisão em que não possa entender o sistema, a previsão terá que ser suficiente.

— Bernhard
fonte

11

"Como paciente, eu preferiria a rede neural ..." Você parece ignorar o fato de que grandes quantidades de dados podem ser extremamente difíceis de obter na ciência clínica. Conjuntos de dados de apenas várias observações por grupo não são incomuns devido a questões de segurança, privacidade e ética. Se você puder fazer suposições defensáveis no processo de geração de dados, poderá fazer um uso muito mais eficiente dos dados.

— 18898 Frans Rodenburg #

Era para ser um cenário hipotético no qual se pode relacionar facilmente com o motivo pelo qual o aparentemente aparentemente problema pode gerar perguntas de inferência e problemas de previsão e por que eles não são os mesmos. Eu não estava propondo métodos para realmente prever as chances de sobrevivência do paciente e, sim, estou muito ciente de quão difícil pode ser obter dados clínicos confiáveis e de tamanho perceptível. IMHO boas suposições / conhecimento do processo de geração de dados ajudará na previsão e na inferência, portanto, não muito na distinção de ambas.

— Bernhard

1

Você não está sozinho aqui. Depois de ler as respostas, não estou mais confuso - não porque entendo a diferença, mas porque entendo que está nos olhos de quem vê e é induzida verbalmente. Estou certo de que agora esses dois termos são definições políticas e não científicas. Tomemos, por exemplo, a explicação do livro, aquela que as faculdades tentaram usar como boa: "quanto mais uma casa valerá se tiver vista para o rio? Esse é um problema de inferência". Do meu ponto de vista, isso é absolutamente um problema de previsão. Você é proprietário de uma empresa de construção civil e deseja escolher o melhor terreno para a construção do próximo conjunto de casas. Você tem que escolher entre dois locais na mesma cidade, um perto do rio, o próximo perto da estação de trem. Você quer preveros preços para os dois locais. Ou você quer inferir . Você aplicará os métodos exatos de estatística, mas nomeará o processo. :)

— Branislav Jeremić
fonte

A idéia de que uma vista do rio exigirá um determinado preço é uma interpretação causal . A previsão é independente da causalidade: eu posso prever efeitos de causas, causas de efeitos ou 1 efeito de outro efeito com causas semelhantes. Considere meu amigo Billy, que tem 5'10 "e um gêmeo idêntico, Bobby, que eu nunca conheci. Mesmo assim, posso prever que Bobby tem 5'10", mas se eu fizer Billy mais alto, dando-lhe sapatos de elevador, Não posso necessariamente prever que Billy também será mais alto.

— gung - Restabelece Monica

O exemplo que você cita é simplesmente um exemplo ruim, por isso é confuso. Definitivamente, há mais na diferença entre inferência e predição do que "política".

— Richard Hardy

1

Há uma boa pesquisa mostrando que um forte indicador de que os mutuários pagarão seus empréstimos é se eles usam feltro para proteger seus pisos de serem arranhados pelas pernas dos móveis. Essa variável "sentida" será uma ajuda distinta para um modelo preditivo em que o resultado é reembolsado versus padrão. No entanto, se os credores quiserem obter uma maior alavancagem sobre esse resultado, eles serão negligentes ao pensar que podem fazê-lo distribuindo o feltro o mais amplamente possível.

"Qual a probabilidade deste devedor pagar?" é um problema de previsão; "Como posso influenciar o resultado?" é um problema de inferência causal.

— rolando2
fonte

-1

y = f (x) então

predição (qual é o valor de Y com um determinado valor de x: se valor específico de x, qual poderia ser o valor de Y

inferência (como y muda com a mudança em x): qual poderia ser o efeito em Y se x mudar

Exemplo de previsão: suponha que y represente o salário de uma pessoa e, se fornecermos informações como anos de experiência, grau como variáveis de entrada, nossa função prediz o salário do funcionário.

Exemplo de inferência: suponha que o custo de vida mude e quanto custa a mudança no salário

— SEETARAM VENKATA DANTU
fonte

Não vejo por que essa resposta merece dois votos negativos.

— gung - Restabelece Monica