Pode ser uma pergunta muito ampla com opiniões pesadas, mas estou realmente achando difícil buscar informações sobre a execução de vários algoritmos usando projetos de mineração de dados do SQL Server Analysis Service versus usando R. Isso ocorre principalmente porque todos os profissionais de ciência de dados com quem trabalho não tem idéia do SSAS porque ninguém parece usá-lo. :)
O cara do banco de dados
Antes de começar, deixe-me esclarecer. Eu sou um cara de banco de dados e não um cientista de dados. Eu trabalho com pessoas que são cientistas de dados que usam principalmente a R. Eu ajudo esses caras na criação de grandes conjuntos de dados onde eles podem analisar e processar dados.
Meu objetivo aqui é alavancar uma ferramenta que acompanha o SQL Server que ninguém está realmente aproveitando porque ninguém parece ter uma idéia de como funciona em comparação com outros métodos e ferramentas como R, SAS, SSPS etc. acampamento.
SSAS
Eu realmente nunca usei o SQL Server Analysis Services (SSAS) fora da criação de cubos OLAP. Para quem conhece o SSAS, também é possível executar tarefas de mineração de dados em cubos ou diretamente nos dados no SQL Server.
O SSAS Data Mining vem com uma variedade de tipos de algoritmos:
- Os algoritmos de classificação prevêem uma ou mais variáveis discretas, com base nos outros atributos no conjunto de dados.
- Os algoritmos de regressão preveem uma ou mais variáveis contínuas, como lucro ou perda, com base em outros atributos no conjunto de dados.
- Os algoritmos de segmentação dividem os dados em grupos ou clusters de itens que possuem propriedades semelhantes.
- Os algoritmos de associação encontram correlações entre diferentes atributos em um conjunto de dados. A aplicação mais comum desse tipo de algoritmo é a criação de regras de associação, que podem ser usadas em uma análise de cesta de mercado.
- Os algoritmos de análise de sequência resumem sequências ou episódios frequentes em dados, como um fluxo de caminho da Web.
Prevendo colunas discretas
Com essas diferentes opções de algoritmos, posso começar a fazer previsões gerais a partir dos dados, como descobrir quem compra uma bicicleta com base em uma coluna previsível, Compradores de bicicletas, em uma coluna de entrada, Idade. O histograma mostra que a idade de uma pessoa ajuda a distinguir se ela comprará uma bicicleta.
Prevendo colunas contínuas
Quando o algoritmo da Microsoft Decision Trees cria uma árvore com base em uma coluna previsível contínua, cada nó contém uma fórmula de regressão. Uma divisão ocorre em um ponto de não linearidade na fórmula de regressão. Por exemplo, considere o diagrama a seguir.
Comparação
Com isso dito, parece que posso executar uma série de algoritmos nos dados e também tenho várias funções disponíveis no SSAS para executar nos dados. Também parece que posso desenvolver meus próprios algoritmos no Visual Studio e implantá-los no SSAS (se não me engano).
Então, o que estou perdendo aqui em relação às linguagens e ferramentas do R? Será que eles têm mais flexibilidade para implantar e editar algoritmos complexos versus SSAS etc?