Um problema na sua discussão com o professor é de terminologia, há um mal-entendido que está atrapalhando a transmissão de uma ideia potencialmente útil. Em lugares diferentes, vocês dois cometem erros.
Portanto, a primeira coisa a ser abordada: é importante ser bem claro sobre o que é uma distribuição .
Uma distribuição normal é um objeto matemático específico, que você pode considerar como modelo para uma população infinita de valores. (Nenhuma população finita pode realmente ter uma distribuição contínua.)
Vagamente, o que essa distribuição faz (depois de especificar os parâmetros) é definir (por meio de uma expressão algébrica) a proporção dos valores da população que se encontram dentro de qualquer intervalo na linha real. Um pouco menos vagamente, define a probabilidade de que um único valor dessa população esteja em um determinado intervalo.
Uma amostra observada realmente não tem uma distribuição normal; uma amostra pode (potencialmente) ser retirada de uma distribuição normal, se houver. Se você olhar para o cdf empírico da amostra, é discreto. Se você o classificar (como em um histograma), a amostra possui uma "distribuição de frequência", mas essas não são distribuições normais. A distribuição pode nos dizer algumas coisas (em um sentido probabilístico) sobre uma amostra aleatória da população, e uma amostra também pode nos dizer algumas coisas sobre a população.
Uma interpretação razoável de uma frase como "amostra normalmente distribuída" * é "uma amostra aleatória de uma população normalmente distribuída".
* (Eu geralmente tento evitar dizer isso sozinho, por razões que, com sorte, são suficientemente claras aqui; geralmente eu consigo me limitar ao segundo tipo de expressão).
Tendo definido termos (ainda que um pouco vagamente), vamos agora examinar a questão em detalhes. Vou abordar partes específicas da questão.
distribuição normal é preciso ter média = mediana = modo
Essa é certamente uma condição na distribuição de probabilidade normal, embora não seja um requisito para uma amostra retirada de uma distribuição normal; as amostras podem ser assimétricas, podem ter uma média diferente da mediana e assim por diante. [No entanto, podemos ter uma idéia de quão distantes podemos razoavelmente esperar que eles estejam se a amostra realmente vier de uma população normal.]
todos os dados devem estar contidos sob a curva de sino
Não tenho certeza do que "contido em" significa nesse sentido.
e perfeitamente simétrico em torno da média.
Não; você está falando dos dados aqui, e uma amostra de uma população normal (definitivamente simétrica) não seria ela mesma perfeitamente simétrica.
Portanto, tecnicamente, praticamente não há distribuições normais em estudos reais,
Eu concordo com a sua conclusão , mas o raciocínio não é correto; não é uma conseqüência do fato de que os dados não são perfeitamente simétricos (etc); é o fato de que as próprias populações não são perfeitamente normais .
se a inclinação / curtose for menor que 1,0, é uma distribuição normal
Se ela disse isso dessa maneira, ela está definitivamente errada.
Uma assimetria da amostra pode estar muito mais próxima de 0 do que isso (considerando "menor que" para significar em magnitude absoluta, não valor real), e a curtose excessiva da amostra também pode estar muito mais próxima de 0 (isso pode ser por acaso ou por acaso). potencialmente quase zero), e ainda assim a distribuição da qual a amostra foi coletada pode ser facilmente diferente do normal.
Podemos ir além - mesmo se soubéssemos magicamente que a distorção da população e a curtose eram exatamente as de um normal, ainda assim não diria por si só que a população era normal, nem mesmo algo próximo do normal.
O conjunto de dados é o número total de quedas / ano em uma amostra aleatória de 52 casas de repouso, que é uma amostra aleatória de uma população maior.
A distribuição populacional das contagens nunca é normal. As contagens são discretas e não-negativas; as distribuições normais são contínuas e em toda a linha real.
Mas estamos realmente focados na questão errada aqui. Modelos de probabilidade são apenas isso, modelos . Não confundamos nossos modelos com a coisa real .
A questão não é "os dados são normais?" (eles não podem ser), nem mesmo "a população da qual os dados foram extraídos é normal?" (quase nunca será esse o caso).
Uma pergunta mais útil a ser discutida é "qual seria o impacto da minha inferência se eu tratasse a população como normalmente distribuída?"
Também é uma pergunta muito mais difícil de responder bem e pode exigir muito mais trabalho do que olhar para alguns diagnósticos simples.
As estatísticas de amostra que você mostrou não são particularmente inconsistentes com a normalidade (você pode ver estatísticas como essa ou "pior" não muito raramente se tiver amostras aleatórias desse tamanho de populações normais), mas isso não significa por si só que a população real a partir do qual a amostra foi coletada é automaticamente "próxima o suficiente" do normal para alguma finalidade específica. Seria importante considerar o objetivo (que perguntas você está respondendo) e a robustez dos métodos empregados para isso, e mesmo assim ainda podemos não ter certeza de que é "bom o suficiente"; às vezes pode ser melhor simplesmente não assumir o que não temos boas razões para assumir a priori (por exemplo, com base na experiência com conjuntos de dados semelhantes).
NÃO é uma distribuição normal
Dados - mesmo dados extraídos de uma população normal - nunca têm exatamente as propriedades da população; a partir desses números, você não tem uma boa base para concluir que a população não é normal aqui.
Por outro lado, também não temos nenhuma base razoavelmente sólida para dizer que ela é "suficientemente próxima" do normal - nem sequer consideramos o propósito de assumir a normalidade; portanto, não sabemos a quais recursos distributivos ele pode ser sensível.
Por exemplo, se eu tivesse duas amostras para uma medida delimitada, que sabia que não seriam muito discretas (não apenas usando apenas alguns valores distintos) e razoavelmente próximas de simétricas, talvez eu estivesse relativamente feliz em usar uma amostra de duas amostras teste t em um tamanho de amostra não tão pequeno; é moderadamente robusto a leves desvios das suposições (um tanto robusto quanto ao nível, não tão robusto quanto ao poder). Mas eu seria consideravelmente mais cauteloso ao assumir a normalidade causal ao testar a igualdade de propagação, por exemplo, porque o melhor teste sob essa suposição é bastante sensível à suposição.
Como ambos estão entre os valores críticos de -1 e +1, esses dados são considerados normalmente distribuídos ".
Se esse é realmente o critério pelo qual se decide usar um modelo distributivo normal, algumas vezes o leva a análises muito ruins.
Os valores dessas estatísticas nos dão algumas dicas sobre a população da qual a amostra foi retirada, mas isso não é o mesmo que sugerir que seus valores são de alguma forma um 'guia seguro' para a escolha de uma análise.
Agora, para resolver o problema subjacente com uma versão melhor formulada de uma pergunta como a que você tinha:
Todo o processo de analisar uma amostra para escolher um modelo está repleto de problemas - isso altera as propriedades de quaisquer escolhas subsequentes de análise com base no que você viu! por exemplo, para um teste de hipótese, seus níveis de significância, valores-p e poder não são exatamente o que você escolheria / calcularia , porque esses cálculos são baseados na análise que não se baseia nos dados.
Veja, por exemplo, Gelman e Loken (2014), " The Statistical Crisis in Science ", American Scientist , Volume 102, Número 6, p 460 (DOI: 10.1511 / 2014.111.460) que discute questões com essa análise dependente de dados.