A mineração de dados é categorizada como descritiva ou preditiva. A mineração descritiva de dados é pesquisar conjuntos de dados massivos e descobrir os locais de estruturas ou relacionamentos inesperados, padrões, tendências, clusters e outliers nos dados. Por outro lado, o Predictive é criar modelos e procedimentos para tarefas de regressão, classificação, reconhecimento de padrões ou aprendizado de máquina e avaliar a precisão preditiva desses modelos e procedimentos quando aplicados a novos dados.
O mecanismo usado para procurar padrões ou estrutura em dados de alta dimensão pode ser manual ou automatizado; a pesquisa pode exigir a consulta interativa de um sistema de gerenciamento de banco de dados ou pode envolver o uso de software de visualização para detectar anomalias nos dados. Em termos de aprendizado de máquina, a mineração descritiva de dados é conhecida como aprendizado não supervisionado, enquanto a mineração preditiva de dados é conhecida como aprendizado supervisionado.
A maioria dos métodos usados na mineração de dados está relacionada a métodos desenvolvidos em estatística e aprendizado de máquina. Entre esses métodos, destacam-se os tópicos gerais de regressão, classificação, agrupamento e visualização. Devido aos enormes tamanhos dos conjuntos de dados, muitas aplicações de mineração de dados se concentram em técnicas de redução de dimensionalidade (por exemplo, seleção de variáveis) e situações nas quais há suspeita de dados de alta dimensão em hiperplanos de menor dimensão. Atenção recente foi direcionada aos métodos de identificação de dados de alta dimensão em superfícies ou coletores não lineares.
Também existem situações na mineração de dados em que a inferência estatística - no sentido clássico - não tem significado ou tem validade duvidosa: a primeira ocorre quando temos toda a população em busca de respostas, e a segunda ocorre quando um conjunto de dados é um Amostra de “conveniência”, em vez de ser uma amostra aleatória retirada de alguma população grande. Quando os dados são coletados ao longo do tempo (por exemplo, transações de varejo, transações no mercado de ações, registros de pacientes, registros climáticos), a amostragem também pode não fazer sentido; a ordem do tempo das observações é crucial para entender o fenômeno que gera os dados e tratar as observações como independentes quando elas podem ser altamente correlacionadas fornecerá resultados tendenciosos.
Os componentes centrais da mineração de dados são - além da teoria e dos métodos estatísticos - eficiência computacional e computacional, processamento automático de dados, técnicas de visualização dinâmica e interativa de dados e desenvolvimento de algoritmos.
Uma das questões mais importantes na mineração de dados é o problema computacional de escalabilidade . Os algoritmos desenvolvidos para calcular métodos estatísticos padrão de exploração e confirmação foram projetados para serem rápidos e eficientes em termos computacionais quando aplicados a conjuntos de dados pequenos e médios; no entanto, foi demonstrado que a maioria desses algoritmos não está à altura do desafio de lidar com grandes conjuntos de dados. À medida que os conjuntos de dados crescem, muitos algoritmos existentes demonstram uma tendência a desacelerar drasticamente (ou até interromper).