tl; dr
- Qual é a maneira recomendada de lidar com
discrete
dados ao realizar a detecção de anomalias? - Qual é a maneira recomendada de lidar com
categorical
dados ao realizar a detecção de anomalias? - Esta resposta sugere o uso de dados discretos para filtrar apenas os resultados.
- Talvez substitua o valor da categoria pela chance de observação da observação?
Introdução
Esta é a primeira vez que publico aqui, por isso, se algo não parecer tecnicamente correto, seja na formatação ou no uso de definições corretas, estou interessado em saber o que deveria ter sido usado.
Em diante.
Participei recentemente da aula de Machine Learning de Andrew Ng
Para detecção de anomalias, fomos ensinados a determinar quais são os parâmetros de distribuição Normal / Gaussiano para um determinado recurso / variável, dentro de um conjunto de dados e, em seguida, determinar a probabilidade de um conjunto escolhido de exemplos de treinamento / valor da observação, considerando que distribuição gaussiana específica e, em seguida, obtendo o produto das probabilidades dos recursos.
Método
Escolha características / variáveis que pensamos explicar a atividade em questão: { x 1 , x 2 , … , x i }
Ajuste os parâmetros do gaussiano para cada recurso: σ2=1
Para cada exemplo de treinamento, , calcule: p ( x ) = n ∏ j = 1 p ( x j ; μ j , σ 2 j )
Em seguida, sinalizamos como uma anomalia ( ), dada: y = { 1
Isso nos fornece o método com o qual determinar se um exemplo requer inspeção adicional.
Minhas perguntas)
Isso parece bom para variáveis / recursos contínuos, mas dados discretos não são abordados.
E as variáveis fictícias, por exemplo, um recurso de sinalizador de gênero, possivelmente chamado [IsMale]
que pode ter o valor ? Para levar em consideração um recurso fictício, usaríamos a distribuição binomial para calcular ?p ( x )
E os dados categóricos, como a cor do carro? Embora possamos mapear as cores para valores numéricos, por exemplo, , a distribuição de um recurso categórico pode ser quase uniforme (ou seja, chance igualmente provável de ser uma das cores) e, além disso, como O mapeamento numérico que ocorre (por exemplo, com o valor , etc.) não é ordinal, faz sentido tentar transformar qualquer distribuição não normal de frequências para que as cores sejam distribuídas normalmente (isso importa mesmo que não seja ordinal? ?)? Por exemplo, para mim, não faria sentido fazer uma transformação porque os dados não são contínuos nem ordinais. Então talvez seja melhor encontrar uma distribuição discreta isso se encaixa no recurso, em vez de "torturar" os dados para se ajustar ao gaussiano?
Perguntas: (atualizado: 24-11-2015)
As variáveis binárias podem ser modeladas com uma distribuição de probabilidade binomial e se tornar outro fator no cálculo de ?As variáveis categóricas devem ser modeladas com uma distribuição de probabilidade discreta em vez de uma gaussiana e se tornar outro fator no cálculo de ?Existe outro método que leva em consideração o que estou perguntando aqui e que posso pesquisar / aprender mais?- Qual é a maneira recomendada de lidar com
discrete
dados ao realizar a detecção de anomalias? - Qual é a maneira recomendada de lidar com
categorical
dados ao realizar a detecção de anomalias?
Edit: 2017-05-03
- Esta resposta sugere o uso de dados discretos para filtrar apenas os resultados.
- Talvez substitua o valor da categoria pela chance de observação da observação?