Tentarei responder às suas perguntas, mas antes de observar que o termo "conjunto de dados grande" é enganoso, pois "grande" é um conceito relativo . Você precisa fornecer mais detalhes. Se você estiver lidando com dados de lances , esse fato provavelmente afetará a seleção de ferramentas , abordagens e algoritmos preferidos para sua análise de dados . Espero que os seguintes pensamentos meus sobre análise de dados abordem suas sub-perguntas. Observe que a numeração dos meus pontos não corresponde à numeração das suas sub-perguntas. No entanto, acredito que reflete melhor o fluxo de trabalho geral da análise de dados , pelo menos como eu o entendo.
1) Em primeiro lugar, acho que você precisa ter pelo menos algum tipo de modelo conceitual em mente (ou, melhor, no papel). Este modelo deve guiá-lo em sua análise exploratória de dados (EDA) . A presença de uma variável dependente (DV) no modelo significa que, na fase de aprendizado de máquina (ML) , mais adiante na análise, você lidará com o chamado ML supervisionado, em oposição ao ML não supervisionado na ausência de um DV identificado.
2) Em segundo lugar, a EDA é uma parte crucial. IMHO, EDA deve incluir várias iterações de produção de estatísticas descritivas e visualização de dados , conforme você refina sua compreensão sobre os dados. Não apenas esta fase fornecerá informações valiosas sobre seus conjuntos de dados, mas também alimentará sua próxima fase importante - limpeza e transformação de dados . Apenas colocar seus dados brutos em um pacote de software estatístico não dará muito - para qualquer análise estatística válida , os dados devem estar limpos, corretos e consistentes . Geralmente, essa é a parte que consome mais tempo e esforço, mas é absolutamente necessária. Para mais detalhes sobre este tópico, leia estes belos papéis:http://vita.had.co.nz/papers/tidy-data.pdf (de Hadley Wickham) e http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (por Edwin de Jonge e Mark van der Loo).
3) Agora, como esperamos que você termine com a EDA e com a limpeza e transformação de dados, você está pronto para iniciar algumas fases mais estatisticamente envolvidas. Uma dessas fases é a análise fatorial exploratória (EFA) , que permitirá extrair a estrutura subjacente dos seus dados. Para conjuntos de dados com grande número de variáveis, o efeito colateral positivo do EFA é a redução da dimensionalidade . E, nesse sentido, o EFA é semelhante à análise de componentes principais (PCA)e outras abordagens de redução de dimensionalidade, acho que a EPT é mais importante, pois permite refinar seu modelo conceitual dos fenômenos que seus dados "descrevem", assim dando sentido aos seus conjuntos de dados. É claro que, além do EFA, você pode / deve executar a análise de regressão , bem como aplicar técnicas de aprendizado de máquina , com base nas descobertas das fases anteriores.
Finalmente, uma nota sobre ferramentas de software . Na minha opinião, o estado atual dos pacotes estatísticos de software está em tal ponto que praticamente todos os principais pacotes de software têm ofertas comparáveis em termos de recursos. Se você estuda ou trabalha em uma organização que possui determinadas políticas e preferências em termos de ferramentas de software, fica restrito a elas. No entanto, se esse não for o caso, recomendo vivamente o software estatístico de código aberto, com base no seu conforto com sua linguagem de programação específica , curva de aprendizado e perspectivas de carreira . Minha plataforma atual de escolha é o R Project, que oferece software estatístico maduro, poderoso, flexível, extensivo e aberto, além de um incrível ecossistema de pacotes, especialistas e entusiastas. Outras boas opções incluem Python , Julia e software de código aberto específico para o processamento de big data , como Hadoop , Spark , bancos de dados NoSQL , WEKA . Para obter mais exemplos de software de código aberto para mineração de dados , que incluem software estatístico e ML geral e específico, consulte esta seção de uma página da Wikipedia: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications .
ATUALIZAÇÃO: Esqueci de mencionar o Rattle ( http://rattle.togaware.com ), que também é um software GUI orientado para R de código aberto muito popular para mineração de dados.