Quais etapas iniciais devo usar para entender grandes conjuntos de dados e quais ferramentas devo usar?


10

Advertência: Sou iniciante no aprendizado de máquinas, mas estou ansioso para aprender.

Eu tenho um grande conjunto de dados e estou tentando encontrar um padrão nele. Pode / pode não haver correlação entre os dados, seja com variáveis ​​conhecidas ou variáveis ​​contidas nos dados, mas que ainda não percebi que sejam realmente variáveis ​​/ relevantes.

Suponho que este seria um problema familiar no mundo da análise de dados, então tenho algumas perguntas:

  1. A 'bala de prata' seria lançar todos esses dados em um programa de estatísticas / análise de dados e triturar os dados em busca de padrões conhecidos / desconhecidos, tentando encontrar relações. O SPSS é adequado ou existem outras aplicações que podem ser mais adequadas.

  2. Devo aprender um idioma como R e descobrir como processar manualmente os dados. Isso não comprometeria encontrar relações, pois eu teria que especificar manualmente o que e como analisar os dados?

  3. Como um minerador de dados profissional abordaria esse problema e que medidas ele / ela tomaria?

Respostas:


11

Tentarei responder às suas perguntas, mas antes de observar que o termo "conjunto de dados grande" é enganoso, pois "grande" é um conceito relativo . Você precisa fornecer mais detalhes. Se você estiver lidando com dados de lances , esse fato provavelmente afetará a seleção de ferramentas , abordagens e algoritmos preferidos para sua análise de dados . Espero que os seguintes pensamentos meus sobre análise de dados abordem suas sub-perguntas. Observe que a numeração dos meus pontos não corresponde à numeração das suas sub-perguntas. No entanto, acredito que reflete melhor o fluxo de trabalho geral da análise de dados , pelo menos como eu o entendo.

1) Em primeiro lugar, acho que você precisa ter pelo menos algum tipo de modelo conceitual em mente (ou, melhor, no papel). Este modelo deve guiá-lo em sua análise exploratória de dados (EDA) . A presença de uma variável dependente (DV) no modelo significa que, na fase de aprendizado de máquina (ML) , mais adiante na análise, você lidará com o chamado ML supervisionado, em oposição ao ML não supervisionado na ausência de um DV identificado.

2) Em segundo lugar, a EDA é uma parte crucial. IMHO, EDA deve incluir várias iterações de produção de estatísticas descritivas e visualização de dados , conforme você refina sua compreensão sobre os dados. Não apenas esta fase fornecerá informações valiosas sobre seus conjuntos de dados, mas também alimentará sua próxima fase importante - limpeza e transformação de dados . Apenas colocar seus dados brutos em um pacote de software estatístico não dará muito - para qualquer análise estatística válida , os dados devem estar limpos, corretos e consistentes . Geralmente, essa é a parte que consome mais tempo e esforço, mas é absolutamente necessária. Para mais detalhes sobre este tópico, leia estes belos papéis:http://vita.had.co.nz/papers/tidy-data.pdf (de Hadley Wickham) e http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (por Edwin de Jonge e Mark van der Loo).

3) Agora, como esperamos que você termine com a EDA e com a limpeza e transformação de dados, você está pronto para iniciar algumas fases mais estatisticamente envolvidas. Uma dessas fases é a análise fatorial exploratória (EFA) , que permitirá extrair a estrutura subjacente dos seus dados. Para conjuntos de dados com grande número de variáveis, o efeito colateral positivo do EFA é a redução da dimensionalidade . E, nesse sentido, o EFA é semelhante à análise de componentes principais (PCA)e outras abordagens de redução de dimensionalidade, acho que a EPT é mais importante, pois permite refinar seu modelo conceitual dos fenômenos que seus dados "descrevem", assim dando sentido aos seus conjuntos de dados. É claro que, além do EFA, você pode / deve executar a análise de regressão , bem como aplicar técnicas de aprendizado de máquina , com base nas descobertas das fases anteriores.

Finalmente, uma nota sobre ferramentas de software . Na minha opinião, o estado atual dos pacotes estatísticos de software está em tal ponto que praticamente todos os principais pacotes de software têm ofertas comparáveis ​​em termos de recursos. Se você estuda ou trabalha em uma organização que possui determinadas políticas e preferências em termos de ferramentas de software, fica restrito a elas. No entanto, se esse não for o caso, recomendo vivamente o software estatístico de código aberto, com base no seu conforto com sua linguagem de programação específica , curva de aprendizado e perspectivas de carreira . Minha plataforma atual de escolha é o R Project, que oferece software estatístico maduro, poderoso, flexível, extensivo e aberto, além de um incrível ecossistema de pacotes, especialistas e entusiastas. Outras boas opções incluem Python , Julia e software de código aberto específico para o processamento de big data , como Hadoop , Spark , bancos de dados NoSQL , WEKA . Para obter mais exemplos de software de código aberto para mineração de dados , que incluem software estatístico e ML geral e específico, consulte esta seção de uma página da Wikipedia: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications .

ATUALIZAÇÃO: Esqueci de mencionar o Rattle ( http://rattle.togaware.com ), que também é um software GUI orientado para R de código aberto muito popular para mineração de dados.


11
Depois de voltar a essa pergunta mais de um ano depois, certamente posso ecoar que conhecer seus dados é essencial e que você precisa ter em mente quais são os dados "bons" versus os dados "ruins". Tentei usar soluções mágicas como redes neurais, etc., mas o processo de limpeza de dados não foi fácil. (Os modelos ocultos de markov pareciam responder melhor às entradas sujas e foram capazes de prever melhor as saídas). Ficou realmente apenas derramando sobre os dados por muitas semanas após a falha do ML e depois de fazer muitos gráficos (as representações visuais dos dados são muito importante) que eu era capaz de identificar as soluções para meus problemas!
precisa saber é o seguinte

@ user3791372 Fico feliz em ouvir de você! Parece claramente que esse ano foi produtivo para você, adquirindo uma compreensão muito melhor de vários aspectos da ciência de dados. Eu gostaria de ter mais oportunidades de aprender mais, mas, por outro lado, não posso reclamar, pois também aprendi bastante (nem sempre relacionado à ciência de dados, mas, talvez, seja ainda melhor). Mantem!
Aleksandr Blekh 02/04

3
  1. O SPSS é uma ótima ferramenta, mas você pode obter muitos recursos que já possui em seu computador, como o Excel, ou gratuitos, como o projeto R. Embora essas ferramentas sejam poderosas e possam ajudá-lo a identificar padrões, você precisará ter uma compreensão firme de seus dados antes de executar análises (eu recomendo executar estatísticas descritivas em seus dados e explorar os dados com gráficos para garantir que tudo está parecendo normal). Em outras palavras, a ferramenta que você usa não oferece uma "bala de prata", porque a saída será tão valiosa quanto a entrada (você sabe o ditado ... "lixo dentro, lixo fora"). Muito do que estou dizendo já foi afirmado na resposta de Aleksandr - no local.

  2. O R pode ser um desafio para aqueles que não são conhecedores da codificação, mas os recursos gratuitos associados ao R e seus pacotes são abundantes. Se você praticar o aprendizado do programa, rapidamente ganhará força. Novamente, você precisará estar familiarizado com seus dados e com as análises que deseja executar de qualquer maneira, e esse fato permanece independentemente das ferramentas estatísticas que você utiliza.

  3. Começaria familiarizando-me com meus dados (siga as etapas descritas na resposta de Aleksandr, para iniciantes). Você pode considerar pegar o livro de John Foreman chamado Data Smart. É um livro prático, pois John fornece conjuntos de dados e você segue seus exemplos (usando o Excel) para aprender várias maneiras de navegar e explorar dados. Para iniciantes, é um ótimo recurso.


2

Aleksandr deu uma explicação muito completa, mas brevemente, estas são as etapas que são seguidas:

Extraindo dados

Dados de limpeza

Extração de recursos

Modelos de construção

Inferindo resultados

Publicando resultados

Repita as etapas 3,4,5 em loop até obter a precisão correta.


0

R possui GUIs de diálogo pnc como o SPSS. Eles imprimem o código R para que você possa aprender e combinar seus esforços. Eu recomendaria o BlueSky por seus diálogos para tudo e chocalho. Embora esses softwares sejam ótimos para EDA, estatística e visualização, o aprendizado de máquina não se sai bem.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.