Tukey Median Polish, o algoritmo é usado na normalização RMA de microarrays. Como você deve saber, os dados de microarranjos são bastante barulhentos, portanto, eles precisam de uma maneira mais robusta de estimar as intensidades das sondas, levando em consideração as observações de todas as sondas e microarranjos. Este é um modelo típico usado para normalizar intensidades de sondas entre matrizes.
i = 1 , … , I
Yeu j= μEu+ αj+ ϵeu j
i = 1 , … , euj = 1 , … , J
Onde é o l o g transformada intensidade PM para o i t h sonda sobre o j t h matriz. ε i j são o ruído de fundo e que pode ser assumido que correspondem ao ruído em regressão linear normal. No entanto, uma suposição distributiva em ε pode ser restritiva, portanto, usamos Tukey Median polonês para obter as estimativas para ^ μ i e ^ α j . Essa é uma maneira robusta de normalizar as matrizes, pois queremos separar o sinal, a intensidade devida à sonda, do efeito da matriz,Yeu jl o gEut hjt hϵeu jϵμEu^αj^ . Podemos obter o sinal normalizando o efeito do array ^ α j para todos os arrays. Assim, ficamos apenas com os efeitos da sonda mais algum ruído aleatório.ααj^
O link que citei antes usa o polonês mediano de Tukey para estimar os genes diferencialmente expressos ou genes "interessantes", classificando pelo efeito da sonda. No entanto, o artigo é bastante antigo, e provavelmente naquela época as pessoas ainda estavam tentando descobrir como analisar dados de microarranjos. O artigo de métodos bayesianos empíricos não paramétricos de Efron foi publicado em 2001, mas provavelmente pode não ter sido amplamente utilizado.
No entanto, agora entendemos muito sobre microarrays (estatisticamente) e temos quase certeza de sua análise estatística.
Os dados do microarray são bastante barulhentos e o RMA (que usa o polonês médio) é um dos métodos de normalização mais populares, devido à sua simplicidade. Outros métodos populares e sofisticados são: GCRMA, VSN. É importante normalizar, pois o interesse é efeito sonda e não efeito matriz.
Como você espera, a análise poderia ter se beneficiado de alguns métodos que tiram proveito do empréstimo de informações entre genes. Estes podem incluir métodos bayesianos ou bayesianos empíricos. Pode ser que o jornal que você está lendo seja antigo e essas técnicas não estavam disponíveis até então.
Em relação ao seu segundo ponto, sim, eles provavelmente estão modificando os dados experimentais. Mas acho que essa modificação é para uma causa melhor, portanto justificável. A razão de ser
a) Os dados do Microarray são bastante barulhentos. Quando o interesse é o efeito da sonda, a normalização dos dados por RMA, GCRMA, VSN etc. é necessária e pode estar aproveitando qualquer estrutura especial nos dados. Mas eu evitaria fazer a segunda parte. Isso ocorre principalmente porque se não conhecermos a estrutura antecipadamente, é melhor não impor muitas suposições.
b) A maioria dos experimentos de microarranjos é de natureza exploratória, ou seja, os pesquisadores estão tentando restringir alguns conjuntos de genes "interessantes" para análises ou experimentos adicionais. Se esses genes tiverem um sinal forte, modificações como normalizações não devem (substancialmente) afetar os resultados finais.
Portanto, as modificações podem ser justificadas. Mas devo observar que exagerar nas normalizações pode levar a resultados errados.