Perguntas com a marcação «classification»

A classificação estatística é o problema de identificar a subpopulação à qual novas observações pertencem, onde a identidade da subpopulação é desconhecida, com base em um conjunto de dados de treinamento contendo observações cuja subpopulação é conhecida. Portanto, essas classificações mostrarão um comportamento variável que pode ser estudado por estatísticas.


2
Escolhendo o número de clusters - critérios de validação de clustering vs considerações teóricas de domínio
Costumo enfrentar a questão de ter que escolher um número de clusters. A partição que acabo escolhendo é mais frequentemente baseada em preocupações visuais e teóricas do que em critérios de qualidade. Eu tenho duas perguntas principais. O primeiro diz respeito à idéia geral de qualidade dos clusters. Pelo que …





1
Algoritmo de classificação com base nas distâncias médias de um ponto de teste aos pontos de cada classe
Existe algum algoritmo de classificação que atribua um novo vetor de teste ao cluster de pontos cuja distância média é mínima? Deixe-me escrever melhor: vamos imaginar que temos KKK aglomerados de TkTkT_kaponta cada. Para cada cluster k, calculo a média de todas as distâncias entrex(0)x(0)x(0) e x(i)x(i)x(i), Onde x(i)x(i)x(i) é …

2
Na classificação binária do Processo Gaussiano, por que as funções sigmóides são preferidas às funções Gaussianas?
Atualmente, estou estudando "Processos Gaussianos para Aprendizado de Máquina" e, no capítulo 3, eles afirmam que o posteriorp(y∗|X,y,x∗)p(y∗|X,y,x∗)p(y_*|X,\mathbf{y},\mathbf{x}_*) (eq. 3.10) e a variável latente posterior p(f∗|X,y,x∗)p(f∗|X,y,x∗)p(f_*|X,\mathbf{y},\mathbf{x}_*)(eq. 3.9) geralmente não pode ser resolvido analiticamente, devido às probabilidades sigmóides em (3.9) e à função sigmóide em (3.10). Para evitar que as pessoas …

1
No PCA, existe uma maneira sistemática de descartar variáveis ​​para maximizar a segregação de duas populações?
Estou tentando investigar, usando a análise de componentes principais, se é possível adivinhar com boa confiança de qual população ("Aurignaciana" ou "Gravetiana") veio um novo ponto de dados. Um ponto de dados é descrito por 28 variáveis, a maioria das quais são frequências relativas de artefatos arqueológicos. As demais variáveis …


1
Por que reduzir um modelo de regressão para um modelo de classificação por discretização de saída melhora um modelo?
Em problemas de regressão, se a saída for discretizada em posições / categorias / clusters e usada como etiquetas, o modelo será reduzido a um modelo de classificação. Minha pergunta é: qual é a motivação teórica ou aplicada por trás dessa redução? Nas minhas experiências particulares em prever a localização …





Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.