O que você precisa é de uma sólida revisão da metodologia de regressão. No entanto, essas perguntas são suficientemente básicas (não leve a mal) que mesmo uma boa visão geral das estatísticas básicas provavelmente o beneficiaria. Howell escreveu um livro muito popular que fornece uma ampla base conceitual sem exigir matemática densa. Pode valer a pena ler. Não é possível cobrir todo esse material aqui. No entanto, posso tentar ajudá-lo a iniciar algumas de suas perguntas específicas.
Primeiro, os dias da semana são incluídos por meio de um esquema de codificação. O mais popular é a codificação de 'categoria de referência' (normalmente chamada de codificação fictícia). Vamos imaginar que seus dados sejam representados em uma matriz, com seus casos em linhas e suas variáveis em colunas. Nesse esquema, se você tivesse 7 variáveis categóricas (por exemplo, nos dias da semana), adicionaria 6 novas colunas. Você escolheria um dia como categoria de referência, geralmente aquela que é considerada padrão. Muitas vezes, isso é informado pela teoria, contexto ou questão de pesquisa. Não tenho idéia do que seria melhor para os dias da semana, mas também não importa muito, você pode escolher qualquer um antigo. Depois de ter a categoria de referência, você poderá atribuir os outros às suas novas 6 variáveis e simplesmente indicar se essa variável será obtida para cada caso. Por exemplo, digamos que você escolha domingo como a categoria de referência, suas novas colunas / variáveis seriam de segunda a sábado. Toda observação realizada na segunda-feira seria indicada com um0 1 01 na coluna Segunda-feira e outro lugar. O mesmo aconteceria com as observações às terças-feiras e assim por diante. Observe que nenhum caso pode obter colunas em 2 ou mais e que as observações que ocorreram no domingo (a categoria de referência) teriam em todas as suas novas variáveis. Existem muitos outros esquemas de codificação possíveis, e o link faz um bom trabalho ao introduzi-los. Você pode testar para ver se o dia da semana é importante testando o modelo aninhado com todas as novas 6 variáveis descartadas versus o modelo completo com todas as 6 incluídas. Observe que você não deve usar os testes relatados com saída padrão, pois eles não são independentes e têm problemas intrínsecos de comparação múltipla. 0 010 0
Faz muito tempo desde que eu analisei como o Excel faz estatísticas, e não me lembro muito claramente, para que outras pessoas possam ajudá-lo mais lá. Esta página parece ter algumas informações sobre as especificidades da regressão no Excel. Posso contar um pouco mais sobre as estatísticas normalmente relatadas na saída de regressão:
- Um score próximo a indica que a variável de resposta do valor pode ser quase completamente determinada pelos valores das variáveis preditoras. Claramente, esse seria um grande efeito , mas não é claro a priori que isso seja "bom" - essa é uma questão inteiramente diferente e filosoficamente espinhosa. 1r1
- Não está claro o que eles querem dizer com ' ', já que você está fazendo uma regressão múltipla (onde normalmente não é relatado). ' ' é uma medida de associação linear e bivariada , ou seja, aplica-se a relacionamentos lineares entre (apenas) 2 variáveis. É possível obter um score entre os valores previstos do seu modelo e os valores de resposta , no entanto. Nesse caso, você está usando 2 variáveis (e se seu modelo for especificado adequadamente, o relacionamento deverá ser linear). Essa versão é chamada de 'múltiplo score', mas raramente é discutida ou relatada pelo software. r r r rrrrrr
- R-quadrado é simplesmente o quadrado de (isto é, ); é não o desvio padrão. Também tenderá a , à medida que o relacionamento se tornar mais determinante, não a . Assim, se você acha que perto de é 'bom', você deve pensar que um próximo de é 'bom'. No entanto, você deve saber que os múltiplos (e múltiplosr × r 1 0 r 1 R 2 1 r R 2rr×r10r1R21rR2) é altamente tendencioso na regressão múltipla. Ou seja, quanto mais preditores você adicionar ao seu modelo, maiores serão essas estatísticas, independentemente de haver algum relacionamento ou não. Portanto, você deve ser cauteloso ao interpretá-los.
- Às vezes, a saída listará estatísticas para os preditores individuais e estatística para o modelo como um todo, a fim de determinar 'significância'. Essas são variáveis aleatórias que são computáveis por testes estatísticos e que possuem uma distribuição conhecida quando os graus de liberdade são especificados. tF
- Ao comparar o valor realizado (ou seja, o valor que você encontrou) com a distribuição conhecida, é possível determinar a probabilidade de encontrar um valor tão extremo ou mais extremo que o seu se a hipótese nula for verdadeira . Essa probabilidade é o valor . p
- O valor é usado quando você está testando apenas um parâmetro, enquanto o valor pode ser usado no teste de vários parâmetros (por exemplo, como discutido acima em relação aos dias da semana). O valor associado ao é a probabilidade de que pelo menos parâmetro seja 'significativo'. Outra maneira de pensar sobre isso é: 'o modelo com todos os parâmetros testados pelo incluídos faz um trabalho melhor em prever a resposta do que o modelo nulo'?F p F 1 FtFpF1F
- Estou supondo que o que você chama de 'significado ' é o valor que precisaria ser correspondido ou excedido para que um teste fosse 'significativo', presumivelmente no nível 0,05.FFF
Um último ponto que vale a pena enfatizar é que esse processo não pode ser separado do seu contexto. Para fazer um bom trabalho de análise de dados, lembre-se do seu conhecimento de base e da pergunta de pesquisa. Eu aludi a isso acima com relação à escolha da categoria de referência. Por exemplo, você observa que o tamanho do sapato não deve ser relevante, mas para os Flintstones provavelmente era! Eu só quero incluir esse fato, porque muitas vezes parece ser esquecido.