Por que as câmeras não capturam o alcance dinâmico como nossos olhos?


29

Quando estou sentado em uma sala sem luzes acesas e olho pela janela, posso ver facilmente o interior da sala, mesmo se focar em uma árvore do lado de fora.

Por que uma câmera não consegue capturar uma imagem semelhante à que meus olhos podem ver? Eu pensaria que as câmeras mais recentes deveriam conseguir capturar facilmente essa faixa dinâmica. Não acredito que a exibição seja um problema se essa faixa dinâmica for capturada, pois pode ser normalizada. Em uma câmera digital, tenho que definir a exposição que capturará apenas a cena externa ou interna corretamente.

Isso é apenas um problema com câmeras digitais ou é o mesmo para câmeras de filme?

Uma pergunta semelhante já foi discutida aqui. Como capturar a cena exatamente como meus olhos podem ver? . Não estou falando de resolução, foco ou detalhes. Estou interessado em exposição ou faixa dinâmica semelhante a quando fixamos nossos olhos em uma única cena.


2
Não vejo por que você diz "a câmera mais nova deve capturar facilmente essa faixa dinâmica". Eles são baseados em uma tecnologia completamente diferente dos nossos olhos, então eu realmente não vejo por que você espera que eles tenham características semelhantes.
Philip Kendall

Então, é toda a faixa dinâmica que cria a maior parte do problema?
LifeH2O

Estou pensando em um experimento, faça a cena em um papel com uma lente e depois capture-a com a câmera. Deve normalizar a faixa dinâmica.
LifeH2O

4
Visita jvsc.jst.go.jp/find/mindlab/english/index.html para ver interativamente como você está enganado pelo cérebro;)
Stormenet

1
@Stormenet: Esse é um inferno de um link!
Chinmay Kanchi

Respostas:


45

A razão pela qual você pode ver uma faixa dinâmica tão grande não é que o olho, como dispositivo óptico, possa realmente capturar essa faixa - o motivo é que seu cérebro pode combinar informações de muitas e "exposições" dos olhos e crie um panorama HDR da cena à sua frente.

O olho é muito ruim do ponto de vista da qualidade da imagem, mas possui uma "taxa de quadros" muito alta e pode alterar a sensibilidade, a direção e o foco muito rapidamente.

O cérebro tira todas essas imagens do olho e cria a imagem que você acha que vê - isso inclui detalhes de imagens com diferentes sensibilidades e até detalhes totalmente compostos com base no que você esperava ver. (Essa é uma das razões pelas quais existem ilusões de ótica - o cérebro pode ser enganado ao "ver" coisas que realmente não existem).

Assim, você pode ver com a câmera da mesma maneira que com os olhos, tirar várias exposições em diferentes configurações e carregar tudo no Photoshop, criar um panorama HDR e usar o "preenchimento consciente do conteúdo" para preencher as lacunas.

A propósito, por que as câmeras "deveriam" ser capazes de capturar esse intervalo, mas os monitores não deveriam ser capazes de reproduzi-lo? Se a tecnologia que não existe existir, os monitores poderão reproduzir tudo o que pudermos ver (e eu deveria poder tirar férias em um hotel de baixa gravidade na lua)


1
você me vence por cerca de 4 minutos com uma resposta quase idêntica!
Gratidão #

22

Você pode ter uma pequena vantagem na faixa dinâmica do sensor em relação à câmera, mas a maior parte do que faz a diferença é ter um sofisticado sistema de exposição automática, sacadas , processamento HDR e um sistema de reconhecimento de cena que persiste em várias exposições . O cérebro humano é pelo menos tão importante para o sistema visual quanto o olho .

Apresentado com uma cena com uma faixa dinâmica muito alta, o sistema visual humano leva algum tempo para se adaptar. Isso não é porque temos que ajustar uma configuração de faixa dinâmica, mas porque precisamos analisar as partes muito brilhantes e muito escuras da cena separadamente e colar as partes importantes da imagem. Uma enorme quantidade do que "vemos" na verdade depende de já saber o que está lá; podemos usar poucas indicações de detalhes reais para preencher os espaços em branco (e quando não temos informações reais suficientes, podemos interpolar - mas nem sempre corretamente ).

Conseguir que uma câmera - qualquer câmera - opere nesse nível significará projetar um sistema que "saiba" o que está olhando. Já podemos fazer a versão "burra" disso usando várias técnicas de HDR (no seu exemplo específico, geralmente usando máscaras simples onde a porta seria cortada da exposição à escuridão e uma versão da exposição brilhante inserida em seu lugar). O processo automatizado atual baseia-se inteiramente no brilho (já que não pode analisar o significado ou a importância) e tende a produzir artefatos óbvios. E se você já viu uma imagem bruta combinada com HDR de 32 bits que ainda não foi mapeada por tom (que é basicamente o tipo de coisa que você obteria apenas ao aumentar o alcance dinâmico do sensor), provavelmente já notou que a imagem é muito "plana" e carece de contraste local e global. É saber qual é a cena que nos permite fazer o mapeamento, para decidir onde o contraste é localmente importante. Até que a câmera possa tomar o mesmo tipo de decisão, ela não será capaz de produzir uma imagem parecida com a que seu cérebro vê.


9

Tem a ver com a maneira como o cérebro interpreta as informações fornecidas pelos olhos (ou, em outras palavras, é o software, não o hardware).

Só vemos cores e detalhes em um campo muito estreito no centro da nossa visão. Para construir a imagem colorida detalhada que percebemos, o cérebro move esse ponto central sem que saibamos.

Eu não sou um neurobiólogo, mas é lógico que, como o cérebro está criando essa imagem mais ampla a partir de muitos instantâneos, ele também faz alguma normalização no brilho, produzindo uma imagem que aparece aproximadamente o mesmo brilho em todos os lugares, apesar de algumas áreas serem muito mais brilhante na realidade. Basicamente, a capacidade de ver coisas escuras e brilhantes ao mesmo tempo é uma ilusão.

Não há razão para que esse comportamento não possa ser imitado por câmeras digitais, nem há motivos para não tornarmos os sensores capazes de obter um alcance dinâmico muito maior em uma única exposição. De fato, a Fuji fabricou um sensor com photosites de sensibilidade extra baixa para capturar detalhes extras de destaque.

O problema se resume à incapacidade de exibir imagens de alto alcance dinâmico. Para exibir essas imagens em um monitor padrão de faixa dinâmica baixa, é necessário executar um processamento especial chamado mapeamento de tom, que possui seu próprio conjunto de desvantagens. Para a maioria dos consumidores, as câmeras de faixa dinâmica alta seriam simplesmente mais complicadas.


3

Resumo:

  • Deus criou nossos olhos.

  • Nós fazemos câmeras.

  • Ainda não alcançamos Deus.

  • MAS a melhor câmera disponível é sobre o requisito que você descreve.

  • Existem maneiras de conseguir o que você deseja. Você simplesmente decidiu defini-los como não o que deseja. Essa é a sua escolha.

O nível de luz em uma sala escura com uma janela aberta para uma cena externa pode ser tão baixo quanto 0,1 lux (0,1 lúmen por metro quadrado). O nível de luz da cena externa pode variar de 10 a milhares de lux na situação que você descreve.

Em 100 lux externo e 0,1 lux interno, a proporção é de 1000: 1 ou pouco menos de 10 bits de faixa dinâmica. Muitas câmeras modernas podem diferenciar as diferenças tonais nas duas extremidades desse intervalo. Se o nível de luz da árvore estivesse saturando o sensor, você teria cerca de 4 bits de nível disponíveis dentro da sala = 16 níveis de iluminação. para que você possa ver algum grau de detalhe com o nível mais brilhante, EXCETO QUE o nível de luz do ambiente é tão baixo que os olhos teriam problemas com ele.

Se o nível de luz da árvore for de 1000 lux (= 1% da luz do sol), você precisará de cerca de 13 bits de alcance dinâmico. As melhores câmeras full frame de 35 mm disponíveis resolveriam isso. O ajuste da câmera precisaria ser focado e você teria cerca de zero informação tonal dentro da sala. Esse nível de iluminação externa é mais alto do que você obteria se não fosse uma situação noturna iluminada.

Muitas DSLRs modernas de médio a alto nível têm processamento HDR embutido que permite obter faixas dinâmicas muito maiores combinando várias imagens. Mesmo uma foto HDR de 2 imagens acomodaria facilmente sua cena. Minha Sony A77 oferece HDR de +/- 6 EV 3 quadros. Isso fornecerá mais de 20 bits de faixa dinâmica - permitindo variações tonais muito adequadas nas extremidades superior e inferior do seu exemplo.


11
Como alternativa, pode-se dizer que a evolução teve um avanço de quinhentos milhões de anos em nossos engenheiros, e não seria razoável esperar que a
alcançemos daqui a

4
Isso é um toque teológica ...
Rowland Shaw

2
Acho que isso não responde à pergunta - apenas diz "porque os olhos estão melhores". OK. Como eles conseguem isso?
Mattdm 01/10/12

1
@ naught101 - "apanhados" é uma medida bastante delicada :-). O olho em si é um pouco inferior, de várias maneiras, ao melhor que podemos gerenciar. Mas ainda administra alguns feitos prodigiosos. por exemplo, o olho escuro adaptado pode detectar um único fóton! Mas, o que torna a vida terrivelmente difícil para os pretendentes é que o olho é apenas parte de um sistema integrado de múltiplos órgãos - e o cérebro leva algumas batidas, até agora.
Russell McMahon

1
@ RowlandShaw - apenas se você desejar que seja assim. Outros ofereceram sua própria visão de mundo da tradução apropriada disso. Uma declaração como essa pode ser uma metáfora para o que você deseja que seja (Cthulu, FSM, Ever-looshin, ...) ou não.
Russell McMahon

2

É apenas o problema das câmeras digitais ou o mesmo para as câmeras de filme?

Nenhuma das respostas tocou isso ainda, diretamente pelo menos ... sim, também é um problema com o filme. O famoso filme de transparência em cores Fuji Velvia, por exemplo, possui uma faixa dinâmica realmente podre (ótimas cores!) O filme de transparência em geral sofre com isso. Por outro lado, os filmes negativos podem ter uma faixa dinâmica muito boa, quase tão boa quanto as melhores câmeras digitais atuais. Porém, ele é tratado de maneira um pouco diferente - enquanto o digital tem uma resposta linear à luz, o filme tende a ter uma curva de contraste "S" marcada embutida. Os pretos e quase pretos, e brancos e quase brancos, estão agrupados mais do que os tons médios.

Lembre-se de que, como geralmente as fotos do filme acabam sendo impressas em tinta em um plano de fundo de papel branco, há um limite não muito generoso de quanto alcance dinâmico se deseja capturar em primeiro lugar! Capturar, digamos, um intervalo dinâmico de trinta paradas e depois enviá-lo para ... qual é o DR de uma impressão fotográfica? Cinco paradas? Seis? ... a mídia de saída ficaria ... estranha, para dizer o mínimo. Suspeito que esse fator seja mais do que quaisquer obstáculos insuperáveis ​​da química que limitem a faixa dinâmica do filme fotográfico. Não é tanto que não podemos fazê-lo, é mais que ativamente não queremos fazê-lo.


2

Material suficiente para encher um livro - mas a essência é que os olhos humanos veem o brilho logaritmicamente, enquanto as câmeras "veem" o brilho linearmente.

Portanto, se você assumir uma condição em que o brilho varia de 1 a 10000 (número escolhido aleatoriamente), na base de log 10, o olho humano verá o brilho de 0 a 5 enquanto a câmera, linearmente, o visualiza de 1 a 10000. um sensor que pode cobrir uma faixa tão grande é difícil, pois há interferências de ruído em medições baixas e derramamento excessivo em medições de brilho mais alto. Dito isto, acredito que há uma câmera RED que pode gravar 18 pontos de alcance dinâmico - não tenho certeza se é apenas um protótipo ou modelo de produção.

A propósito, a diferença logarítmica vs. linear é também o motivo pelo qual o brilho duplica ou reduz pela metade por uma diferença de parada.

Mas isso é suficiente para um tópico de pesquisa - portanto, este é apenas um breve indicador.


Esse efeito logarítmico no olho humano nivela a faixa dinâmica e o cérebro lida com isso, porque só o faz dessa maneira por toda a sua vida. Se a câmera também nivelar a faixa dinâmica, quando você visualizar o resultado, obterá um nivelamento duplo, e seu cérebro estará acostumado apenas a um nivelamento simples. Se você visse o mundo com um dispositivo que fizesse isso e continuasse a exibição por dias, você se acostumaria a isso normalmente. Remova o dispositivo depois disso e o mundo pareceria duro e excessivamente contrastante.
Skaperen

@ Skaperen Acho que não chamaria necessariamente um logaritmo que achataria a faixa dinâmica. Se você escalar o brilho logaritmicamente e linearmente em uma comparação lado a lado, o logarítmico pode parecer mais plano, mas a questão é quantas casas decimais vemos? Tecnicamente, as duas imagens ainda conteriam as mesmas informações apenas em escalas diferentes - e o dimensionamento não altera as informações contidas, desde que você não incorra em erros de arredondamento.
DetlevCM

2

O olho não captura o alcance dinâmico. Comprime a faixa dinâmica e, em seguida, o "pós-processamento" no cérebro cria a ilusão de faixa dinâmica. Um intervalo dinâmico compactado é o motivo pelo qual você pode ver sombras e áreas iluminadas ao mesmo tempo. O "ganho", por assim dizer, é acionado automaticamente nas partes da retina que estão sentindo as sombras, tornando-as mais brilhantes e reduzidas onde a retina está vendo áreas iluminadas. O cérebro ainda sabe que está olhando para uma sombra, criando uma sensação de que está escuro lá. Está acontecendo um tipo de expansão nos dados compactados, por assim dizer, para que você não saiba que o intervalo dinâmico foi compactado.

Os sensores nas câmeras digitais podem facilmente superar a retina na faixa dinâmica bruta. O problema é que você não controla a exposição por área. As câmeras possuem configurações de ganho (geralmente apresentadas na terminologia do filme como configurações ISO), que são globais.

O que os olhos fazem, por assim dizer, é como usar "ISO 100" para uma área clara e "ISO 800" para uma área escura ao mesmo tempo.

Se a câmera pudesse ajustar o ganho para áreas específicas de pixels com base no brilho, isso seria indubitavelmente útil, mas sabemos que, ao aplicar esses efeitos de nível de ganho no pós-processamento, o cérebro não é realmente enganado por elas. Não parece natural. Parece natural apenas quando seu próprio olho está fazendo isso em coordenação com seu próprio cérebro.


2

Essa é uma pergunta interessante se você der uma chance, em vez de mencionar as razões óbvias pelas quais as câmeras já foram criadas da maneira que são feitas.

Vamos considerar a opção mais próxima. O Mapeamento de tons é um método no qual um filtro passa-baixo é aplicado aos valores do expoente da imagem RGBe. Isso desempenha um papel importante na maneira como os olhos vêem alguma coisa. Mas vamos considerar que nossos olhos estão absorvendo longos fluxos de imagens. Eles funcionam muito mais como câmeras de vídeo do que com câmeras fotográficas.

O mapeamento de tons poderia ser bastante aprimorado se fosse construído como um sombreador GLSL executado em tempo real com uma câmera de vídeo especializada que pudesse capturar um fluxo constante de imagens HDR.

Em um exemplo muito mais simplificado, as fotos "HDR" do iPhone são compostas por uma imagem de baixa e alta exposição conduzida por um processo de mapeamento de tons que funciona razoavelmente bem se você ainda não experimentou. Muitas outras câmeras de consumo fazem coisas semelhantes.

Há também o assunto fascinante de como a intuição / intenção / livre-arbítrio afeta a forma como seus olhos estão sendo calibrados ao longo do tempo. Se você estiver olhando para uma parede escura e pensar em virar a cabeça em direção a uma janela iluminada, seu cérebro pode dizer aos olhos para seguir em frente e começar a fechar as pupilas. Uma câmera com exposição automática pode fazer a mesma coisa, mas somente após a entrada de muita luz. As pessoas que trabalham no cinema passam muito tempo fazendo com que o tempo das configurações das câmeras de filme flua sem problemas, para que se sintam naturais em uma cena complicada. (ou iluminar uma cena de maneira que as configurações das câmeras não precisem ser ajustadas). Mas, novamente, a única razão pela qual esse tipo de coisa funciona é porque o diretor sabe o que vai acontecer com a câmera antes que ela aconteça.


0

O maior problema seria reproduzir a imagem capturada.

Não está fora do campo da tecnologia criar um sensor e configuração de imagem que capturem uma faixa extremamente ampla de níveis de brilho em uma única imagem. No final, é apenas uma questão de contagem de fótons, que é uma tecnologia que se adapta aos níveis necessários. As câmeras atuais usam principalmente as configurações de exposição para modular a quantidade de brilho que o sensor vê, embora mais desse trabalho possa ser feito no sensor, talvez resultando em maior ruído de erro, mas você certamente pode obter uma faixa mais ampla de um sensor fotográfico do que o que está atualmente disponível no mercado.

Mas o problema é este: depois de ter essa foto, o que você faz com ela? Até os displays de alta qualidade ainda usam cores de 24 bits, o que significa apenas 256 tons por canal de cores permitidos. As impressoras atuais são igualmente limitadas, se não mais. Portanto, nada poderia ser feito com essa imagem sem primeiro o processamento para reduzir o alcance do que as câmeras existentes produzem.

Você provavelmente já viu esse problema antes: a maioria dos formatos RAW atuais já armazena uma faixa mais ampla do que pode ser reproduzida, e a faixa de cores já precisa ser compactada ou cortada antes de poder ver a imagem. Adicionar ainda mais alcance à saída RAW seria apenas o mesmo. A câmera provavelmente seria muito mais cara, mas as fotos não seriam significativamente melhores porque você ainda precisa reduzir o alcance para cores de 24 bits antes de poder vê-la.

Ainda assim, talvez com o software certo e o tipo certo de usuário, você possa obter algo maravilhoso disso. Provavelmente não seria muito diferente da fotografia HDR atual, mas você não precisaria tirar várias imagens.


2
Não são os bits por cor que são o problema - que define o número de matizes distintos, mas não diz nada sobre a faixa geral.
Mattdm 01/10/12

@mattdm true; mas a faixa geral é uma função do dispositivo de saída independente dos dados da imagem. O brilho e a taxa de contraste na minha tela são uma função e são conhecidos apenas pela minha tela e não são influenciados pela câmera que eu costumava tirar a foto. Então, novamente, os dispositivos de saída são o fator limitante, não as câmeras. No entanto, os bits por cor faz influenciar a faixa no sentido de que aumentando o seu alcance sem aumentar o número de níveis dentro do intervalo de apenas dá-lhe uma imagem mais brilhante / mais escuro, sem que lhe permite ver mais nada dentro dela.
tylerl
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.