Estou tentando entender como as pessoas derivam a probabilidade de regressão linear simples. Digamos que temos apenas um recurso x e o resultado y. Eu não duvido que a expressão com a própria densidade normal e eu também não tenho dúvida de que se pode levar o produto para fatores mais simples devido à independência. Duvido que as pessoas derivem essa expressão. Parece haver um zoológico inteiro de suposições (parcialmente incorretas) sobre a entrada e, em quase todos os lugares, fica excluída a etapa crítica (namyle como derivar o produto de densidades normais) em que é necessário usar as suposições corretas :-(
O que eu acho natural assumir é o seguinte: Recebemos um conjunto de treinamento fixo e assumimos que
- os pares no conjunto fixo de treinamento de comprimento vêm de variáveis aleatórias que são distribuídas iid
- o são variáveis aleatórias unidimensionais do iid, cada uma distribuída como com conhecido (para simplificar) (talvez deva-se assumir algo sobre a densidade condicional aqui? As pessoas parecem não saber o que realmente assumir aqui ...)
Deixe e deixe . Agora, o objetivo é determinar a densidade condicional . Claramente,
Questão:
Como proceder a partir daqui?
Não vejo como as suposições fornecem informações sobre ou sobre então simplesmente não consigo calcular essa quantidade . Além disso, algumas pessoas podem pensar que e normalmente distribuídos (ou normalmente distribuídos) significa que também é normalmente distribuído, mas ...
Há uma instrução para variáveis aleatórias distribuídas normalmente, mas é assim: Se é normalmente distribuído e são matrizes fixas, então é normalmente distribuído novamente. No caso acima, é que não é uma matriz constante.
Outras fontes parecem assumir que é normalmente distribuído imediatamente. Isso parece ser uma suposição estranha ... como poderíamos testar isso em um conjunto de dados real?
Saudações + obrigado,
FW