Médias das médias (das médias, das médias…)


8

Considere o seguinte experimento de biologia celular. Estamos comparando diferentes tratamentos de células cultivadas. Cada tratamento é replicado em vários poços (microtitulação) , indexados pela variável . Para medir a resposta ao tratamento no poço , é registrado um total de micrografias ou campos não sobrepostos . Então, para cada campo no poço , um total de células é identificado computacionalmente, pelo qual cada célula (no poço , campo ) é representada por um conjunto deTtw{1,2,,W}wFwfwCwfcwfPwfc pixels. Finalmente, associado a cada pixel está uma medida (derivada das intensidades de vários sinais de fluorescência registrados naquele pixel).pxwfcp

O problema é agregar todas as medições de pixel para produzir uma "medida razoável" do efeito do tratamento nas células tratadas com ele, bem como alguma medida da "propagação" de .xwfcpXttXt

A abordagem padrão para esses problemas é usar a média como "a medida" e a variação (ou desvio padrão) como "o spread". Nesse caso, no entanto, existem várias maneiras não equivalentes pelas quais meios e variações podem ser calculados.

Por enquanto, os meios, em um extremo, pode-se simplesmente adicionar o em todos os pixels (desconsiderando sua distribuição nas células, campos e poços) e dividir essa soma pelo número total de pixels ( para o tratamento ):xwfcpPt

1Pw=1Wf=1Fwc=1Cwfp=1Pwfcxwfcp

No extremo oposto, podemos calcular a média em cada nível: primeiro calcule a média de para cada célula, depois calcule a média da para cada campo e assim por diante:xwfcxwfcpxwfxwfc

1Ww=1W[1Fwf=1Fw[1Cwfc=1Cwf[1Pwfcp=1Pwfcxwfcp]]]

Em geral, essas duas expressões não serão iguais. Além disso, existem várias variações no meio. Pela minha conta, existem 8 maneiras de fazer isso (incluindo as duas acima); Eu listei tudo em toda a sua glória no final deste post. Por exemplo, pode-se calcular isso (número 6 na lista abaixo):

1Ww=1W[1Cwf=1Fwc=1Cwf[1Pwfcp=1Pwfcxwfcp]]

... onde é o número total de células (somadas a todos os campos de) bem . (A receita codificada por esta expressão diz: "calcule o valor médio de para cada célula, ou seja, ; então, para cada poço , calcule a média dessas médias sobre todas as células no poço independentemente da distribuição nos campos -, ou seja, ; e, finalmente, a média do em todos os poços , ")Cw=fc1wxwfcpxwfc=[pxwfcp]/PwfcpwxwfcCwwxw=[fcxwfc]/CwxwW[wxw]/W

Diante de todas essas diferentes maneiras de "usar médias" para medir o efeito do tratamento , a pergunta imediata é, obviamente, qual escolher? Uma versão mais nítida da pergunta seria: como determinar em quais cenários uma determinada variante seria apropriada / informativa / útil?t

E, de maneira mais geral: existem armadilhas na computação de médias de médias (de médias ...)?

Obrigado!


(correções bem-vindas)
1.1Pw=1Wf=1Fwc=1Cwfp=1Pwfcxwfcp2.1Ww=1W[1Pwf=1Fwc=1Cwfp=1Pwfcxwfcp]wherePw=f=1Fwc=1Cwfp=1Pwfc13.1Fw=1Wf=1Fw[1Pwfc=1Cwfp=1Pwfcxwfcp]whereF=w=1Wf=1Fw1,Pwf=c=1Cwfp=1Pwfc14.1Cw=1Wf=1Fwc=1Cwf[1Pwfcp=1Pwfcxwfcp]whereC=w=1Wf=1Fwc=1Cwf15.1Ww=1W[1Fwf=1Fw[1Pwfc=1Cwfp=1Pwfcxwfcp]]6.1Ww=1W[1Cwf=1Fwc=1Cwf[1Pwfcp=1Pwfcxwfcp]]whereCw=f=1Fwc=1Cwf17.1Fw=1Wf=1Fw[1Cwfc=1Cwf[1Pwfcp=1Pwfcxwfcp]]8.1Ww=1W[1Fwf=1Fw[1Cwfc=1Cwf[1Pwfcp=1Pwfcxwfcp]]]


1
Você pode fazer uma anova aninhada para identificar se algum dos efeitos do tratamento é significativo. Uma boa referência é Biometria de Sokal e Rholf.
precisa saber é o seguinte

Todas as equações na parte inferior da pergunta são iguais, porque a média aritmética é uma função linear. A fração é escalar, portanto pode ser movida para fora da soma em cada caso. A ordem das somas não é importante. Todos são equivalentes a .
1WFCPw,f,c,pW,F,C,Pxwfcp
precisa saber é o seguinte

@ naught101: Eu discordo completamente. Para começar, a expressão no seu comentário nem é consistente com a notação que usei na minha pergunta.
Kj3

Você já tentou calculá-los? Observe que há um ponto que eu errei: você menciona variação e, nesse caso (médias de variação vs. variação de médias) certamente é diferente, porque a variação não é um operador linear (possui uma soma de quadrados).
precisa saber é o seguinte

Respostas:


5

Esta não é uma resposta direta à sua pergunta ('Que tipo de média escolher'), mas uma recomendação para evitar o cálculo das médias:

Seu cenário parece um caso para modelos hierárquicos / multiníveis (MLM), pois os dados são perfeitamente aninhados. Você tem três níveis de efeitos aleatórios: pixels (Nível 1) aninhados nas células (L2), aninhados nos campos (L3), aninhados nos poços (L4). Os tratamentos devem ser tratados como efeitos fixos.

Você está interessado apenas no efeito do tratamento; o método MLM cuida das diferentes variações de cada nível e fornece também uma estimativa de quanto a variação é explicada por qual nível. Portanto, você não "perde" nenhuma variação ao tratar um valor médio como "a medida", mas estima o modelo no nível dos dados brutos.

Esse método, no entanto, exige um número suficiente de grupos para cada efeito aleatório (ou seja, pixels suficientes, células suficientes, campos suficientes, poços suficientes). Como você não está interessado em interações entre níveis, as recomendações gerais dizem algo como 10 a 30 unidades no mínimo (é claro, dependendo do cenário específico, etc .; veja, por exemplo, aqui ).


O primeiro link que você forneceu (modelos hierárquicos / multiníveis) parece estar quebrado agora.
STEKO
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.