Existem muitas maneiras de executar a classificação ingênua de Bayes (NBC). Uma técnica comum na NBC é recodificar os valores dos recursos (variáveis) em quartis, de modo que valores inferiores ao percentil 25 sejam atribuídos a 1, 25 a 50º a 2, 50 a 75º a 3 e superiores ao percentil 75 a 4. Assim, um único objeto depositará uma contagem no compartimento Q1, Q2, Q3 ou Q4. Os cálculos são feitos apenas nesses compartimentos categóricos. As contagens de compartimento (probabilidades) são baseadas no número de amostras cujos valores variáveis caem dentro de um determinado compartimento. Por exemplo, se um conjunto de objetos tiver valores muito altos para o recurso X1, isso resultará em muitas contagens no compartimento para Q4 de X1. Por outro lado, se outro conjunto de objetos tiver valores baixos para o recurso X1, esses objetos depositarão muitas contagens na bandeja para Q1 do recurso X1.
Na verdade, não é um cálculo muito inteligente, é uma maneira de discretizar valores contínuos para discretos e explorar a partir daí. O índice de Gini e o ganho de informações podem ser facilmente calculados após discretização para determinar quais recursos são mais informativos, ou seja, max (Gini).
No entanto, esteja ciente de que existem muitas maneiras de executar a NBC e muitas são bem diferentes umas das outras. Então, você só precisa indicar qual deles implementou em uma palestra ou artigo.