Qual é a diferença entre os métodos de compressão global e universal?


12

Entendo que os métodos de compactação podem ser divididos em dois conjuntos principais:

  1. global
  2. local

O primeiro conjunto funciona independentemente dos dados que estão sendo processados, ou seja, eles não dependem de nenhuma característica dos dados e, portanto, não precisam executar nenhum pré-processamento em nenhuma parte do conjunto de dados (antes da compactação em si). Por outro lado, métodos locais analisam os dados, extraindo informações que geralmente melhoram a taxa de compactação.

Ao ler sobre alguns desses métodos, notei que o método unário não é universal , o que me surpreendeu, pois pensei que "globalidade" e "universalidade" se referiam à mesma coisa. O método unário não depende das características dos dados para produzir sua codificação (isto é, é um método global) e, portanto, deve ser global / universal, não é?

Minhas principais perguntas:

  • Qual é a diferença entre métodos universais e globais?
  • Essas classificações não são sinônimos?

2
Você pode criar um link para / referência onde você lê que o método unário não é universal? O contexto pode ajudar.
Air

3
Não tenho certeza de como isso se relaciona com a ciência de dados. Parece fora de tópico para essa troca de pilhas. Você poderia relacionar isso de volta à ciência de dados?
Slater Victoroff

@ SlaterTyranus Eu ... não tenho certeza também (e isso me fez pensar em outras duas perguntas que eu postei). Minha idéia foi adicionar essa pergunta, já que os métodos de compactação são amplamente utilizados na recuperação de informações (principalmente durante a indexação). Em geral, acho isso relacionado à eficiência, e pode ser colocado no área de habilidades de hackers deste diagrama de Venn . De qualquer forma, acho que seria bom discutir se esse tipo de pergunta está no tópico.
Rubens

@ Rubens Parece uma discussão razoável, na minha opinião, a conversa sobre eficiência se encaixa muito mais em algo como CS teórico do que habilidades explícitas de hackers . Na minha opinião, as habilidades de hackers estão muito mais relacionadas a bancos de dados, implantação e conhecimento de ferramentas.
Slater Victoroff

1
@SvanBalen Dois pontos principais: 1. A teoria da informação é importante em algumas abordagens da ciência de dados, mas irrelevante em muitas outras. 2. Os fundamentos são inerentemente fora de tópico, e fazer uma pergunta detalhada sobre estatística ou álgebra linear seria similarmente fora de tópico, embora ambos sejam estritamente necessários para uma ciência de dados útil.
Slater Victoroff

Respostas:


3

Considere o seguinte pedaço de dados:

1010010110100101

Universal - esses são algoritmos de compactação genéricos que não agregam dados. Uma versão bruta da codificação de comprimento de execução se enquadra nessa categoria. A vantagem é que é muito rápido compactar e descomprimir. A desvantagem é que pode ser extremamente ineficaz com base nos dados a serem compactados.

1111111111111111 -> 16 1 (caso de sorte)

1010010110100101 -> 1010010110100101 (caso de azar)

Local - esse método consideraria segmentos menores de comprimento fixo, digamos 4, procure padrões e os comprima. Por exemplo. Esses dados contêm apenas esses dois tipos de padrões - 1010 e 0101. Esses padrões podem ser representados como 0s e 1s e os dados gerais serão uma tabela representando os mapeamentos e algo como 0101. Isso pode resultar em um tamanho muito menor. tamanho comprimido.

1010010110100101 -> 1010 0101 1010 0101 -> 0101 (0 = 1010,1 = 0101)

Global - esse método examinaria todos os dados e encontraria os padrões ótimos / muito melhores para compactar os dados. Os dados de exemplo contêm apenas um padrão 10100101 e representam-no como 00 junto com a tabela de mapeamento. Isso tem o potencial de obter o menor tamanho compactado possível, mas também é computacionalmente o mais pesado.

1010010110100101 -> 10100101 10100101 -> 00 (0 = 10100101)

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.