Uma pesquisa sobre ferramentas de software de mineração de dados


15

Embora tenha sido treinado como engenheiro, acho que estou me interessando mais pela mineração de dados. No momento, estou tentando investigar mais o campo. Em particular, eu gostaria de entender as diferentes categorias de ferramentas de software que existem e quais ferramentas são notáveis ​​em cada categoria e por quê. (Observe que eu não disse as "melhores" ferramentas, apenas as mais notáveis, para não começarmos uma guerra de chamas.) Especialmente, tome nota das ferramentas que são de código aberto e disponíveis gratuitamente - embora não entendam que isso significa que Estou interessado apenas em código aberto e gratuito.


1
Eu aconselho que este seja um wiki da comunidade.
Tal Galili

soa como uma pergunta lição de casa
Neil McGuigan

@ Tal Certamente, agora convertido.

@el chefe - É uma pergunta muito ampla e geral ... mas receio que não seja uma questão de lição de casa.
John Berryman

Respostas:


7

Esta é provavelmente a lista mais abrangente que você encontrará: mloss.org


Ele é focado no aprendizado de máquina, que pode ser visto como um campo relacionado à mineração de dados, assim como a IA. Embora geralmente seja usado como sinônimo, como "previsão" é um dos principais desafios na mineração de dados. Mas há mais do que "aprender" na mineração de dados.
parou - anony-Mousse

7

Dê uma olhada em

  • Weka (java, forte na classificação)
  • Laranja (script python, principalmente classificação)
  • GNU R (linguagem R, um pouco orientada a tabelas vetoriais, consulte a visão de tarefa Machine Learning e interface do usuário do Rattle )
  • ELKI (java, forte em cluster e detecção de outlier, suporte à estrutura de índices para acelerações, lista de algoritmos )
  • Mahout (Java, pertence ao Hadoop, se você tiver um cluster e grandes conjuntos de dados)

e o Repositório de aprendizado de máquina da UCI para conjuntos de dados.


1
você pode adicionar Red-R à lista (tipo um clone de Orange em R): red-r.org
Amro

Eu baixei o R e agora estou jogando com ele.
John Berryman

@Amro Thanks! No entanto, ele não está disponível na plataforma Mac, a menos que eu esteja enganando?
chl

Não sou usuário de Mac, mas acho que a compilação do Linux pode funcionar para você (você precisa instalar manualmente todas as dependências do python): red-r.org/forum/topic.php?id=22#post-76
Amro

@ Amro Vou tentar; no passado, eu tenho testado RAnalyticFlow ( j.mp/bYF8xs ), mas não se convenceu: Eu sou basicamente um usuário CLI :-)
chl


3

Dê uma olhada no KNIME .

Muito fácil de aprender. Com muitas possibilidades de progresso. Integra-se perfeitamente com Weka e R.




2

Existe o ELKI , um projeto universitário de código aberto um tanto comparável ao WEKA, mas muito mais forte quando se trata de agrupamento e detecção externa. WEKA, na verdade, não é realmente mineração de dados, mas software de aprendizado de máquina.


1

Existe esse Red-R que possui uma interface gráfica agradável e interface de programação visual. Utiliza R para processar as várias análises de dados.



0

O SQL Server Data Mining (SSDM) não é atualizado há muito tempo, mas ainda é bastante competitivo se você estiver explorando grandes bancos de dados e cubos relacionais. Estou lenta, mas sistematicamente, percorrendo os testes de tantas ferramentas de mineração quanto possível e a interface do Windows do SQL Server é a mais produtiva e estável que eu encontrei até agora (principalmente quando se trata de bancos de dados corporativos, alguns dos quais surpreendentemente interfaces desleixadas) apesar da idade. Eu preferiria uma interface moderna do Windows Presentation Foundation (WPF), mas essa é a próxima melhor coisa.

Eu escrevi uma série de tutoriais amadores detalhados sobre ele, intitulado A Rickety Stairway to SQL Server Data Mining , quando eu estava tentando adquirir algumas habilidades básicas de mineração. Apesar da minha inexperiência, eles ainda são úteis para ajudar a identificar algumas das "pegadinhas" com antecedência.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.