Tendo recentemente começado a me ensinar Machine Learning e Análise de Dados, estou me deparando com uma parede de tijolos sobre a necessidade de criar e consultar grandes conjuntos de dados. Gostaria de pegar os dados que agreguei na minha vida profissional e pessoal e analisá-los, mas não tenho certeza da melhor maneira de fazer o seguinte:
Como devo armazenar esses dados? Excel? SQL? ??
Qual é uma boa maneira para um iniciante começar a tentar analisar esses dados? Sou um programador profissional de computadores, portanto a complexidade não está nos programas de gravação, mas é mais ou menos específica no domínio da análise de dados.
EDIT: Desculpas pela minha imprecisão, quando você começa a aprender sobre algo, é difícil saber o que você não sabe, sabe? ;)
Dito isto, meu objetivo é aplicar isso a dois tópicos principais:
Métricas da equipe de software (pense na velocidade ágil, na quantificação de riscos, na probabilidade de uma iteração concluída com êxito, considerando o número de pontos da história)
Aprendizado de máquina (ex. Exceções do sistema ocorreram em um determinado conjunto de módulos, qual é a probabilidade de um módulo lançar uma exceção no campo, quanto custará isso, o que os dados podem me dizer sobre os principais módulos a serem aprimorados me o melhor retorno possível, preveja qual parte do sistema o usuário desejará usar a seguir para começar a carregar dados, etc.).