Considere o seguinte experimento de biologia celular. Estamos comparando diferentes tratamentos de células cultivadas. Cada tratamento é replicado em vários poços (microtitulação) , indexados pela variável . Para medir a resposta ao tratamento no poço , é registrado um total de micrografias ou campos não sobrepostos . Então, para cada campo no poço , um total de células é identificado computacionalmente, pelo qual cada célula (no poço , campo ) é representada por um conjunto de pixels. Finalmente, associado a cada pixel está uma medida (derivada das intensidades de vários sinais de fluorescência registrados naquele pixel).
O problema é agregar todas as medições de pixel para produzir uma "medida razoável" do efeito do tratamento nas células tratadas com ele, bem como alguma medida da "propagação" de .
A abordagem padrão para esses problemas é usar a média como "a medida" e a variação (ou desvio padrão) como "o spread". Nesse caso, no entanto, existem várias maneiras não equivalentes pelas quais meios e variações podem ser calculados.
Por enquanto, os meios, em um extremo, pode-se simplesmente adicionar o em todos os pixels (desconsiderando sua distribuição nas células, campos e poços) e dividir essa soma pelo número total de pixels ( para o tratamento ):
No extremo oposto, podemos calcular a média em cada nível: primeiro calcule a média de para cada célula, depois calcule a média da para cada campo e assim por diante:
Em geral, essas duas expressões não serão iguais. Além disso, existem várias variações no meio. Pela minha conta, existem 8 maneiras de fazer isso (incluindo as duas acima); Eu listei tudo em toda a sua glória no final deste post. Por exemplo, pode-se calcular isso (número 6 na lista abaixo):
... onde é o número total de células (somadas a todos os campos de) bem . (A receita codificada por esta expressão diz: "calcule o valor médio de para cada célula, ou seja, ; então, para cada poço , calcule a média dessas médias sobre todas as células no poço independentemente da distribuição nos campos -, ou seja, ; e, finalmente, a média do em todos os poços , ")
Diante de todas essas diferentes maneiras de "usar médias" para medir o efeito do tratamento , a pergunta imediata é, obviamente, qual escolher? Uma versão mais nítida da pergunta seria: como determinar em quais cenários uma determinada variante seria apropriada / informativa / útil?
E, de maneira mais geral: existem armadilhas na computação de médias de médias (de médias ...)?
Obrigado!
(correções bem-vindas)