Eu tenho uma pergunta que me ocupa por um tempo.
O teste de entropia é frequentemente usado para identificar dados criptografados. A entropia atinge seu máximo quando os bytes dos dados analisados são distribuídos uniformemente. O teste de entropia identifica dados criptografados, porque esses dados têm uma distribuição uniforme, como dados compactados, que são classificados como criptografados ao usar o teste de entropia.
Exemplo: a entropia de algum arquivo JPG é 7,9961532 Bits / Byte, a entropia de algum contêiner TrueCrypt é 7,9998857. Isso significa que, com o teste de entropia, não consigo detectar uma diferença entre dados criptografados e compactados. MAS: como você pode ver na primeira figura, obviamente os bytes do arquivo JPG não são distribuídos uniformemente (pelo menos não tão uniformes quanto os bytes do truecrypt-container).
Outro teste pode ser a análise de frequência. A distribuição de cada byte é medida e, por exemplo, é realizado um teste do qui-quadrado para comparar a distribuição com uma distribuição hipotética. como resultado, recebo um valor-p. Quando executo esse teste em JPG e TrueCrypt-data, o resultado é diferente.
O valor p do arquivo JPG é 0, o que significa que a distribuição de uma exibição estatística não é uniforme. O valor p do arquivo TrueCrypt é 0,95, o que significa que a distribuição é quase perfeitamente uniforme.
Minha pergunta agora: alguém pode me dizer por que o teste de entropia produz falsos positivos como esse? É a escala da unidade na qual o conteúdo da informação é expresso (bits por byte)? Por exemplo, o valor p é uma "unidade" muito melhor, devido a uma escala mais fina?
Muito obrigado por todas as respostas / idéias!
JPG-Image TrueCrypt-Container