Diretrizes para descobrir novos conhecimentos em dados


9

Eu planejo algo para fazer um ponto para mim ou para outra pessoa. Geralmente, uma pergunta inicia esse processo e, muitas vezes, a pessoa que pede esperanças para uma resposta específica.

Como posso aprender coisas interessantes sobre os dados de uma maneira menos tendenciosa?

No momento, estou seguindo aproximadamente esse método:

  1. Resumo de estatísticas.
  2. Stripchart.
  3. Gráfico de dispersão.
  4. Talvez repita com um subconjunto interessante de dados.

Mas isso não parece suficientemente metódico ou científico.

Existem diretrizes ou procedimentos a seguir que revelam coisas sobre os dados que eu não gostaria de perguntar? Como sei quando fiz uma análise adequada?

Respostas:


6

Existe todo um campo de análise exploratória de dados (EDA) e um excelente livro sobre esse assunto chamado Análise Exploratória de Dados , de John W. Tukey.

Gosto que você esteja usando gráficos - existem muitos outros gráficos que podem ser úteis, dependendo dos seus dados - quantas variáveis? Que natureza são as variáveis ​​(Categóricas? Numéricas? Contínuas? Contagens? Ordinais?)

Um gráfico que geralmente é útil para dados com várias variáveis ​​é uma matriz de gráficos de dispersão.

Você pode procurar por vários tipos de valores discrepantes, que geralmente são pontos interessantes.

Mas não acho que todo esse processo possa ser realmente metódico e científico - a exploração é o que acontece ANTES que as abordagens metódicas e científicas possam ser introduzidas. Aqui, acho que o aspecto principal é a brincadeira.


(+1) Você pode fornecer um link para o livro mencionado?
steffen 11/07

EDA do Manual de Engenharia e Estatística itl.nist.gov/div898/handbook/eda/eda.htm .
Selden

As variáveis ​​do @ Peter Peter 13 são produzidas comparando dois conjuntos de saídas produzidas por um programa em execução em dois conjuntos de entradas. O programa é executado periodicamente. As variáveis ​​são ordinais, categoria, categoria, categoria, categoria, contagem, contagem, contagem, contagem, numérico, numérico, contagem e contagem. Os nomes são id, máquinaA, entradaA, máquinaB, entradaB, novo, mesmo, ausente, novoP, ausenteP, comprimentoA, comprimentoB, pontuaçãoA, pontuaçãoB. Mas a decisão de comparar apenas os resultados mais recentes também é minha boa / má ideia.
Selden 11/07

Na verdade, o livro é chamado Análise Exploratória de Dados (não EDA), é de John W. Tukey (minha memória me enganou porque a capa da minha edição é chamada EDA) Link: amazon.com/Exploratory-Data-Analysis-John-Tukey/dp / 0201076160 /…
Peter Flom - Restabelece Monica

@selden Bem, o ID provavelmente não é uma variável útil. Entre duas variáveis ​​categóricas, você pode olhar para gráficos em mosaico; entre gráficos de caixa paralelos categóricos e numéricos, pode ser bom.
Peter Flom - Restabelece Monica

1

Se você possui dados cronológicos, dados da série ietime, existem "conhecidos" e aguardando descoberta são os "desconhecidos". Por exemplo, se você tiver uma sequência de pontos de dados por 10 períodos, como 1,9,1,9,1,5,1,9,1,9, com base nessa amostra, é possível esperar razoavelmente 1,9,1,9 , ... surgir no futuro. O que a análise dos dados revela é que há uma leitura "incomum" no período 6, mesmo estando dentro dos limites de + -3 sigma, sugerindo que o DGF não se manteve. Desmascarar o Inlier / Outlier nos permite revelar coisas sobre os dados. Também observamos que o valor médio não é o valor esperado. Essa idéia se estende facilmente à detecção de turnos médios e / ou tendências de horário local que podem ter sido desconhecidos antes da análise dos dados (geração de hipóteses). Agora é bem possível que as próximas 10 leituras também sejam 1,9,1,9, 1,5,1,9,1,9 sugerindo que o "5" não é necessariamente desagradável. Se observarmos um processo de erro de um modelo adequado que exibe uma variação não constante comprovável, poderemos revelar um dos seguintes estados da natureza: 1) os parâmetros podem ter mudado em um determinado momento; 2. Pode haver necessidade de Análise Ponderada (GLS); 3. Pode ser necessário transformar os dados por meio de uma transformação de energia; 4. Pode haver uma necessidade de modelar a variação dos erros. Se você tiver dados diários, uma boa análise poderá revelar que existe uma janela de resposta (estrutura de leads, contemporânea e de atraso) ao redor de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional. 9 sugerindo que o "5" não é necessariamente desagradável. Se observarmos um processo de erro de um modelo adequado que exibe uma variação não constante comprovável, poderemos revelar um dos seguintes estados da natureza: 1) os parâmetros podem ter mudado em um determinado momento; 2. Pode haver necessidade de Análise Ponderada (GLS); 3. Pode ser necessário transformar os dados por meio de uma transformação de energia; 4. Pode haver uma necessidade de modelar a variação dos erros. Se você tiver dados diários, uma boa análise poderá revelar que existe uma janela de resposta (estrutura de leads, contemporânea e de atraso) ao redor de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional. 9 sugerindo que o "5" não é necessariamente desagradável. Se observarmos um processo de erro de um modelo adequado que exibe uma variação não constante comprovável, poderemos revelar um dos seguintes estados da natureza: 1) os parâmetros podem ter mudado em um determinado momento; 2. Pode haver necessidade de Análise Ponderada (GLS); 3. Pode ser necessário transformar os dados por meio de uma transformação de energia; 4. Pode haver uma necessidade de modelar a variação dos erros. Se você tiver dados diários, uma boa análise poderá revelar que existe uma janela de resposta (estrutura de leads, contemporânea e de atraso) ao redor de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional. não é necessariamente desagradável. Se observarmos um processo de erro de um modelo adequado que exibe uma variação não constante comprovável, poderemos revelar um dos seguintes estados da natureza: 1) os parâmetros podem ter mudado em um determinado momento; 2. Pode haver necessidade de Análise Ponderada (GLS); 3. Pode ser necessário transformar os dados por meio de uma transformação de energia; 4. Pode haver uma necessidade de modelar a variação dos erros. Se você tiver dados diários, uma boa análise poderá revelar que existe uma janela de resposta (estrutura de leads, contemporânea e de atraso) ao redor de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional. não é necessariamente desagradável. Se observarmos um processo de erro de um modelo adequado que exibe uma variação não constante comprovável, poderemos revelar um dos seguintes estados da natureza: 1) os parâmetros podem ter mudado em um determinado momento; 2. Pode haver necessidade de Análise Ponderada (GLS); 3. Pode ser necessário transformar os dados por meio de uma transformação de energia; 4. Pode haver uma necessidade de modelar a variação dos erros. Se você tiver dados diários, uma boa análise poderá revelar que existe uma janela de resposta (estrutura de leads, contemporânea e de atraso) ao redor de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional. Se observarmos um processo de erro de um modelo adequado que exibe uma variação não constante comprovável, poderemos revelar um dos seguintes estados da natureza: 1) os parâmetros podem ter mudado em um determinado momento; 2. Pode haver necessidade de Análise Ponderada (GLS); 3. Pode ser necessário transformar os dados por meio de uma transformação de energia; 4. Pode haver uma necessidade de modelar a variação dos erros. Se você tiver dados diários, uma boa análise poderá revelar que existe uma janela de resposta (estrutura de leads, contemporânea e de atraso) ao redor de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional. Se observarmos um processo de erro de um modelo adequado que exibe uma variação não constante comprovável, poderemos revelar um dos seguintes estados da natureza: 1) os parâmetros podem ter mudado em um determinado momento; 2. Pode haver necessidade de Análise Ponderada (GLS); 3. Pode ser necessário transformar os dados por meio de uma transformação de energia; 4. Pode haver uma necessidade de modelar a variação dos erros. Se você tiver dados diários, uma boa análise poderá revelar que existe uma janela de resposta (estrutura de leads, contemporânea e de atraso) ao redor de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional. Pode haver uma necessidade de análise ponderada (GLS); 3. Pode ser necessário transformar os dados por meio de uma transformação de energia; 4. Pode haver uma necessidade de modelar a variação dos erros. Se você tiver dados diários, uma boa análise poderá revelar que existe uma janela de resposta (estrutura de leads, contemporânea e de atraso) ao redor de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional. Pode haver uma necessidade de análise ponderada (GLS); 3. Pode ser necessário transformar os dados por meio de uma transformação de energia; 4. Pode haver uma necessidade de modelar a variação dos erros. Se você tiver dados diários, uma boa análise poderá revelar que existe uma janela de resposta (estrutura de leads, contemporânea e de atraso) ao redor de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional. contemporânea e atrasada) em torno de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional. contemporânea e atrasada) em torno de cada feriado, refletindo um comportamento consistente / previsível. Você também pode revelar que determinados dias do mês têm um efeito significativo ou que as sextas-feiras antes de um feriado de segunda-feira têm uma atividade excepcional.


0

A dataminação pode ser dividida em duas categorias. Se você estiver interessado em medir o efeito de um conjunto de dados / variáveis ​​em uma variável específica, isso será considerado aprendizado supervisionado. Para um aprendizado profundo e exploratório sem objetivo, você está passando por um aprendizado não supervisionado.

Gráficos e análises estatísticas dos dados (compreendendo distribuições e ganhando intuição) são os primeiros passos.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.