Melhoria na resolução da imagem CSI: quão real é?


30

Então eu assisti o seguinte clipe de 1 minuto no YouTube da CSI New York . No clipe, usando o que parece ser a gravação de uma câmera bancária convencional, eles ampliam pelo menos 100 e veem a imagem do culpado no reflexo do olho da garota.

Agora, eu pensei que isso era completamente ridículo, tanto que pensei que era realmente muito engraçado.

No entanto, meu amigo argumentou que existem truques muito bons para o aprimoramento de imagens, como "super resolução", um procedimento em que vários quadros de um vídeo produzem uma imagem de resolução única muito mais alta. Ele achou que o programa distorce a verdade um pouco, mas quanto?

Honestamente, eu realmente não sei nada sobre essas coisas, então minha pergunta é:

Quão boa é a melhoria da resolução de imagem moderna? Além disso, a que distância estão os programas de televisão CSI?

Obrigado,

Observação: Este post é cruzado no site dos Céticos. Foi-me dito que eu poderia receber melhores respostas aqui.


10
Eu quase cuspi meu café quando ela assentiu com tanta seriedade e disse "imagem da córnea". Todo o tom dessa cena é tão ridiculamente óbvio - se isso fosse possível nesse nível, seria rotineiro e óbvio, não uma reviravolta surpreendente na trama, pois parece ser apresentada como naquele clipe.
mattdm

2
LOL, quase tão real quanto as imagens de satélite sob demanda zoom-ins em movimentos de ação.
Jakub Sisak GeoGraphics

1
@Bob não na medida em que é feito em filmes, onde eles podem identificar pessoas específicas em um único quadro de filme a partir do espaço (ou de uma aeronave voando 10 km acima). De um drone voando a algumas centenas de metros de altura, usando uma imagem estática, com um pouco de sorte, talvez.
jwenting

1
Eu acho que você ficaria surpreso. Não que eu seja um especialista, mas supostamente o SR-71 pode detectar linhas de estacionamento a partir de 25 km. Concedido você provavelmente não vai ter uma cara , mas você pode identificá-los usando outros petiscos da Intel, como sua entourage / Veículos en.wikipedia.org/wiki/Reconnaissance_aircraft
Jane Panda

1
6" resolução a partir de um quadro de filme sobre o tamanho de um bloco de anotações, sim, e não 0,01" resolução de um quadro do tamanho de um selo postal :)
jwenting

Respostas:


36

Resposta curta: você pode obter resultados muito bons, mas apenas sob certas condições e absolutamente nem perto do que é mostrado no videoclipe vinculado.

Minha empresa, a Amped Software , desenvolve software de processamento de imagem e vídeo para aplicativos forenses e de inteligência, portanto, basicamente, somos a contrapartida do software CSI no mundo real.

Com referência ao problema geral de melhoria da qualidade, posso dizer-lhe que, para o nosso mercado, é um grande problema corresponder às expectativas criadas pelas séries de TV e filmes de Hollywood. Você pode ver em nossa página de amostras que, às vezes, os resultados que conseguimos obter são realmente surpreendentes, mas é importante entender que podemos obtê-los apenas sob algumas condições: se houver informações cobertas por distúrbios, mas existem , somos capazes de recuperá-lo. Se não houver informações, não podemos e não devemos recriá-las. Nesta aplicação específica, é essencial não apenas obter os resultados do ponto de vista visual, mas também seguir um fluxo de trabalho científico que deve ser aceito pelo tribunal .

No ano passado, apresentei uma pesquisa descrevendo problemas e resultados em quase 200 casos em que trabalhei e o resultado final foi o seguinte:

  • em mais de 50% dos casos, não há nada a fazer (por exemplo, recuperar uma placa com 5x2 pixels é completamente impossível com qualquer software no mundo);
  • em cerca de 30% dos casos, podemos obter pouco resultado (por exemplo, restaurar algumas letras de uma placa de carro ou melhorar a aparência geral de um rosto);
  • em 10% dos casos, você obtém bons resultados (você obtém a maior parte da placa, por exemplo).

Observe que todos esses casos tiveram problemas graves de qualidade. Se a qualidade deles era boa, não nos pediam para trabalhar com eles.

No que diz respeito especificamente ao aprimoramento da resolução :

  • ao ampliar uma imagem, você interpola os pixels ausentes: a partir de uma única imagem, você pode melhorar visualmente a aparência da imagem, mas não adiciona nenhum detalhe real ;
  • técnicas de super resolução podem produzir bons resultados sob certas condições: você deve ter quadros suficientes, deslocados por uma quantidade não inteira de pixels e, de preferência, com poucos artefatos de compactação. Na melhor das hipóteses, você pode esperar bons resultados com o zoom 2x e 3x.

O que é mostrado no videoclipe só será possível se o vídeo original tiver sido filmado em vários megapixels e você terá a resolução de aumentar muito o zoom (mais ou menos como no Google Maps). Obviamente, nesse ponto ainda haveria outros problemas, como o foco correto, a condição de pouca luz, o fato de a perspectiva do olho ser diferente da de todo o assunto no vídeo, apenas para mencionar alguns.


11

Você não pode fazer algo do nada, você precisa ter (ou adivinhar) algumas informações para poder aprimorar uma imagem de qualquer maneira. Por exemplo, se você conhece as propriedades da função de desfoque (e não há ruído na imagem), pode desfocar uma foto. No entanto, você raramente sabe que a função de desfoque e o ruído estão sempre presentes, o que limita severamente o que você pode recuperar (a Adobe recentemente demonstrou um filtro desfocado, mas a demonstração foi com desfoque sintético).

Em resumo, CSI é quase pura ficção - os ganhos possíveis na vida real são marginais, nada como o aumento de 5x na resolução apresentado na TV.

Verificação de integridade: se eles pudessem fazer tudo isso, as pessoas não estariam pagando dezenas de milhares por câmeras Hasselblad com mais de 40 MP, seria mais barato simplesmente duplicar o software!

editar: de alguma forma, não notei a pergunta original mencionada super-resolução do vídeo. A super resolução de várias imagens é possível na realidade, mas apenas até as limitações do sensor. Funciona usando um conjunto de imagens com alterações de sub pixel. Isso fornece informações sobre os valores entre os pixels, permitindo criar uma imagem de resolução mais alta. A super-resolução do vídeo funciona porque um assunto em movimento cria o mesmo tipo de turnos; no entanto, a aparência dos objetos não deve mudar muito entre os quadros. A melhor técnica é apenas fornecer os resultados de um sensor de resolução mais alta; você não pode superar os limites do poder de resolução da lente, o que seria bastante limitado com as lentes de especificação de CFTV.

Aqui está um exemplo de super-resolução em boas condições:


(fonte: wikimedia.org )

imagem de photoacute.com

uma melhoria na resolução, sim, mas ainda longe do desempenho do nível CSI.

Para referenciar meu comentário acima, os Hasselblads mais recentes implementam super resolução de deslocamento de sensor, sob o nome "captura múltipla", para que você ainda não consiga vencer os fabricantes de médio formato em seu próprio jogo usando um software inteligente ...


Parece que você tem algumas frases quebradas: "... poder de resolução da lente, o que seria ??" e "?? uma melhoria na resolução, sim, ..."
jrista

@ jrista Obrigado, eu consertei o primeiro, o segundo deveria ser a continuação da frase acima da imagem.
precisa

3

Então é isso que eu tenho até agora:

A área do olho onde eles vêem o basquete é de cerca de 1 milímetro quadrado. Com base na altura da garota, podemos estimar com segurança que esse valor deve ser no máximo 1 milionésimo do número total de pixels na tela. (A largura e a altura da imagem, embora não estejam bem definidas para as fotografias, pois podem estar mais próximas, olhe aproximadamente 3 x 3 metros, o que significaria 10 milhões de milímetros quadrados. O olho, no entanto, pode estar mais próximo da lente da câmera Estou estimando aproximadamente e divido por US $ 10.)

Se a gravação fosse de qualidade HD, isso ainda teria apenas 2 megapixels, portanto, onde vemos a bola de basquete deve ter o tamanho de um único pixel.

Penso que esse raciocínio mostra, sem dúvida, que não é verdade, mas ainda me pergunto: quais são os limites superiores ao aprimoramento de imagem?


1
minha opinião pessoal é que inventar mais de 50% dos pixels criará total fantasia e, muito antes disso, sua imagem se tornará tão ruim que será inútil para identificar pessoas ou itens específicos, exceto pela forma geral.
Jwenting

2

Existe algum software disponível comercialmente por aí, com Super Resolution. Eu não experimentei nenhum desses, mas o material publicitário é muito bom. O software é voltado para vigilância, segurança e forças armadas, mas acho que algumas unidades forenses terão acesso a esse material.

Dois exemplos são: Ikena do MotionDSP e TacitView de 2d3


3
Deve-se notar que a super-resolução requer várias imagens de origem para alimentar o algoritmo com mais dados do que seria de outra forma. Isso funciona com o vídeo, pois você captura continuamente uma sequência contínua de quadros, em que cada quadro subsequente geralmente é semelhante ao anterior. Além disso, quanto mais resolução de fonte, mais comida para o algoritmo consumir. Esse aprimoramento de imagem não seria realmente possível com uma única imagem estática, ou imagens de uma câmera com baixa taxa de quadros e baixa resolução, como o vídeo do youtube parecia indicar.
jrista

Isso é verdade, e o formulário de respostas @ Matt-Grum explica isso com mais detalhes. Também há boas informações na Wikipedia sobre imagens de Super Resolutino e Speckle (também conhecidas como video astronomia). Ambos funcionam em séries de fotos, mas usam técnicas diferentes para criar o produto final.
Håkon K. Olafsen 15/11

Interessante, nunca tinha ouvido falar do termo imagem Speckle antes, embora eu tenha ouvido falar de "empilhamento", como é comumente referido em grupos de astrofotografia.
Jrista

1

O aprimoramento de imagem / vídeo no nível sugerido nos programas de TV simplesmente não é possível e, na verdade, é limitado pelo dispositivo de captura de imagem. Essa é a tecnologia que precisaria evoluir primeiro.

É impossível obter informações de uma coleção de 10 pixels em um objeto reconhecível. No nível de pixel, essa é a quantidade final de informações fornecida na imagem. Você tem apenas 100 blocos de cores nesse zoom finito. Você pode aumentar uma área de 10x10 pixels para 100x100 pixels via interpolação, mas as informações nos pixels de 10x10 são suficientes, e a interpolação depende de suposições baseadas nos 10 x 10 pixels do software. O resultado seria um desfoque de 100 x 100 pixels. Como alternativa, pegue uma imagem de 2000x2000 pixels e interpole-a em 4000x4000 pixels, e alguns borrões não tão claros na imagem original podem parecer mais nítidos quanto possíveis objetos na imagem maior apenas através da pareidolia - mas mesmo assim isso é um palpite ou suposição. A imagem interpolada daria a "ilusão" de mais detalhes,

O aprimoramento da imagem depende apenas da quantidade máxima de informações capturadas pela fonte de imagem original e o zoom nos pixels é tudo o que existe. Algumas câmeras podem capturar imagens de resolução muito boa, mas nenhum software pode trazer detalhes que não são gravados na imagem original.

Agora, voltando aos programas da CSI, a maioria deles captura suas imagens de câmeras de vigilância padrão, que no início não têm uma resolução particularmente alta na vida real, então quando vejo esse tipo de aprimoramento nos programas, isso me faz rir. - como é impossível, mesmo com a forma mais avançada de software de edição de imagens (e o PhotoShop está bem e verdadeiramente na extremidade superior da escala avançada). O aprimoramento e o zoom da imagem dependem 100% das informações capturadas pelo dispositivo de imagem - portanto, uma câmera de vigilância capaz de capturar, digamos, um reflexo do rosto de uma pessoa no lado da córnea dos olhos de alguém, precisaria ser super poderosa e seria extremamente cara . As filmagens precisariam ter uma definição de pixel escandalosamente alta por quadro (por exemplo, 100 megapixels ou aproximadamente 9,5 terabytes para armazenar 1 segundo de filmagem), o que aumentaria o tamanho do arquivo da filmagem, a ponto de cada câmera de vigilância precisar de um pequeno farm de servidores para armazenar 24 horas de filmagem. Muito caro. A tecnologia de aprimoramento resultante dependeria de dispositivos de captura de imagem capazes de executar esse nível de captura detalhada de vídeo e imagem primeiro, para armazenar os dados de uma maneira conveniente e a um ponto em que isso é barato para implantar nas cidades. O tamanho do arquivo seria tão extraordinariamente grande nas imagens de vídeo (lembre-se de cerca de 9,5 terabytes por segundo) que o software capaz de fazer isso precisaria de um supercomputador extremamente poderoso (pelos padrões atuais) para rodar. Com a tecnologia aumentando na velocidade em que está, isso pode ser possível em algum momento no futuro, provavelmente em nossa vida. Só então eles poderiam fazer isso, mas as imagens não seriam aprimoradas, eles apenas ampliariam imagens super detalhadas. Eu sei disso enquanto trabalho com imagens digitais para viver em tempo integral.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.