Como começar a ler sobre mineração de dados?


13

Sou um novato que começará a ler sobre mineração de dados. Eu tenho conhecimentos básicos de IA e estatística. Como muitos dizem que o aprendizado de máquina também desempenha um papel importante na mineração de dados, é necessário ler sobre o aprendizado de máquina antes que eu possa continuar com a mineração de dados?


Data Mining: Conceitos e Técnicas Por Jiawei Han é um bom começo
aaronjg

Respostas:


12

Estando um pouco nessa posição, tentarei dar algumas dicas.

Em primeiro lugar, faça o download dos Elements of Statistical Learning . Pressupõe cálculo e álgebra linear e, embora seja muito técnico, também é extremamente bem escrito.

Em segundo lugar (ou em primeiro lugar), veja os tutoriais de Andrew Ng sobre aprendizado de máquina.

Em terceiro lugar, obtenha alguns dados e comece a tentar analisar os dados. Você precisará se dividir em conjuntos de treinamento e teste e criar modelos no conjunto de treinamento e testá-los no conjunto de testes. Achei o pacote de sinal de intercalação para R muito útil para tudo isso. Depois disso, pratique, pratique (como quase todo o resto).


1
você vai assustar o pobre homem para sempre!
Neil McGuigan

Curso de Andew Ng será 'oferecido gratuitamente e on-line' para o mundo do aluno ampla durante o outono 2011 de acordo com ml-class.org
Andre Holzner


4

A mineração de dados pode ser descritiva ou preditiva.

Por um lado, se você estiver interessado em mineração descritiva de dados, o aprendizado de máquina não ajudará.

Por outro lado, se você estiver interessado em mineração preditiva de dados, o aprendizado de máquina o ajudará a entender que você tenta minimizar o risco desconhecido (expectativa da função de perda) ao minimizar o risco empírico: você terá em mente o excesso de ajustes, generalização erro e validação cruzada. Por exemplo, por uma questão de consistência, ok-NN para uma amostra de treinamento de tamanhon deve ser tal que:

  • k vai para o infinito quando n vai para o infinito,
  • kn vai para 0 quando n vai para o infinito.

3
Vale ressaltar que alguns autores gostam de fazer uma distinção entre DM e ML, dependendo da magnitude de k/n. Pessoalmente, gosto da abordagem de Radford Neale, em seu curso sobre Métodos Estatísticos para Aprendizado de Máquina e Mineração de Dados : Muitos problemas de aprendizado de máquina têm um grande número de variáveis; os aplicativos de mineração de dados geralmente envolvem um número muito grande de casos.
chl

3

Eu apenas adiciono outra fonte muito boa de tutoriais sobre mineração de dados / aprendizado de máquina por Tom Mitchell .

Ele explica com muita clareza e você também pode fazer o download de suas apresentações em seu site (além de assistir às palestras).

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.