O uso de polimento médio para seleção de recursos

Em um artigo que estava lendo recentemente, me deparei com o seguinte bit na seção de análise de dados:

A tabela de dados foi então dividida em tecidos e linhas celulares, e as duas subtabelas foram polidas separadamente por mediana (as linhas e colunas foram ajustadas iterativamente para ter mediana 0) antes de serem reunidas em uma única tabela. Finalmente, selecionamos o subconjunto de genes cuja expressão variou pelo menos 4 vezes da mediana nesta amostra definida em pelo menos três das amostras testadas

Devo dizer que realmente não sigo o raciocínio aqui. Eu queria saber se você poderia me ajudar a responder às duas perguntas a seguir:

Por que é desejável / útil ajustar a mediana nos conjuntos de dados? Por que isso deve ser feito separadamente para diferentes tipos de amostras?
Como isso não está modificando os dados experimentais? Essa é uma maneira conhecida de escolher um número de genes / variáveis de um grande conjunto de dados ou é bastante adhoc?

Obrigado,

feature-selection median genetics

— posdef
fonte

Você pode elaborar quais tipos de dados você está olhando? Acho que, a julgar pelo que você citou - para mim - o método parece muito ad hoc.

— suncoolsu

@suncoolsu: são dados de microarray, se você estiver familiarizado com o conceito. Se não, eu poderia resumir como; quais genes são expressos, em que extensão nas amostras estudadas. Aqui está uma explicação melhor: en.wikipedia.org/wiki/Gene_expression_profiling

— posdef

@suncoolsu Quase definitivamente os dados da Análise de Expressão Gênica.

— kriegar

Ok - eu não tinha certeza, o seqüenciamento de próxima geração também está ficando popular.

— suncoolsu

Respostas:

Tukey Median Polish, o algoritmo é usado na normalização RMA de microarrays. Como você deve saber, os dados de microarranjos são bastante barulhentos, portanto, eles precisam de uma maneira mais robusta de estimar as intensidades das sondas, levando em consideração as observações de todas as sondas e microarranjos. Este é um modelo típico usado para normalizar intensidades de sondas entre matrizes.

Y_{Eu j} = μ_{Eu} + α_{j} + ϵ_{Eu j}

$Y_{ij} = \mu_{i} + \alpha_{j} + \epsilon_{ij}$

Eu = 1 1, \dots, Eu j = 1 1, \dots, J

$i=1,\ldots,I \qquad j=1,\ldots, J$

Onde é o transformada intensidade PM para o sonda sobre o matriz. são o ruído de fundo e que pode ser assumido que correspondem ao ruído em regressão linear normal. No entanto, uma suposição distributiva em pode ser restritiva, portanto, usamos Tukey Median polonês para obter as estimativas para e . Essa é uma maneira robusta de normalizar as matrizes, pois queremos separar o sinal, a intensidade devida à sonda, do efeito da matriz, $Y_{ij}$ $log$ $i^{th}$ $j^{th}$ $\epsilon_{ij}$ $\epsilon$ $\hat{\mu_i}$ $\hat{\alpha_j}$ . Podemos obter o sinal normalizando o efeito do array para todos os arrays. Assim, ficamos apenas com os efeitos da sonda mais algum ruído aleatório. $\alpha$ $\hat{\alpha_j}$

O link que citei antes usa o polonês mediano de Tukey para estimar os genes diferencialmente expressos ou genes "interessantes", classificando pelo efeito da sonda. No entanto, o artigo é bastante antigo, e provavelmente naquela época as pessoas ainda estavam tentando descobrir como analisar dados de microarranjos. O artigo de métodos bayesianos empíricos não paramétricos de Efron foi publicado em 2001, mas provavelmente pode não ter sido amplamente utilizado.

No entanto, agora entendemos muito sobre microarrays (estatisticamente) e temos quase certeza de sua análise estatística.

Os dados do microarray são bastante barulhentos e o RMA (que usa o polonês médio) é um dos métodos de normalização mais populares, devido à sua simplicidade. Outros métodos populares e sofisticados são: GCRMA, VSN. É importante normalizar, pois o interesse é efeito sonda e não efeito matriz.

Como você espera, a análise poderia ter se beneficiado de alguns métodos que tiram proveito do empréstimo de informações entre genes. Estes podem incluir métodos bayesianos ou bayesianos empíricos. Pode ser que o jornal que você está lendo seja antigo e essas técnicas não estavam disponíveis até então.

Em relação ao seu segundo ponto, sim, eles provavelmente estão modificando os dados experimentais. Mas acho que essa modificação é para uma causa melhor, portanto justificável. A razão de ser

a) Os dados do Microarray são bastante barulhentos. Quando o interesse é o efeito da sonda, a normalização dos dados por RMA, GCRMA, VSN etc. é necessária e pode estar aproveitando qualquer estrutura especial nos dados. Mas eu evitaria fazer a segunda parte. Isso ocorre principalmente porque se não conhecermos a estrutura antecipadamente, é melhor não impor muitas suposições.

b) A maioria dos experimentos de microarranjos é de natureza exploratória, ou seja, os pesquisadores estão tentando restringir alguns conjuntos de genes "interessantes" para análises ou experimentos adicionais. Se esses genes tiverem um sinal forte, modificações como normalizações não devem (substancialmente) afetar os resultados finais.

Portanto, as modificações podem ser justificadas. Mas devo observar que exagerar nas normalizações pode levar a resultados errados.

— suncoolsu
fonte

+1 Esta é uma resposta muito melhor do que minha tentativa. Obrigado.

— kriegar

@posdef. Gostaria de saber se havia algum estatístico envolvido na análise estatística do artigo.

— suncoolsu

obrigado pela sua resposta completa. Eu acho que o fato de esta ser uma etapa de pré-processamento não está bem explicado (ou apenas assumido como bem conhecido) no artigo. Falando nisso, o artigo foi publicado em 2000 (na Nature), então presumo que eles tenham pelo menos algum estatístico examinando seus métodos, se não estiverem envolvidos na escrita. Mas é claro que só podemos especular .. :)

— posdef

@posdef. Ok- legal responde a muitas perguntas. 2000 foi o momento em que as pessoas ainda estavam descobrindo como analisar dados de microarrays. FDR não era extravagante, naquela época :-)

— suncoolsu

Você pode encontrar algumas dicas nas páginas 4 e 5 deste

y_{Eu, j} = m + {uma}_{Eu} + b_{j} + e_{Eu, j}

$y_{i,j} = m + a_i + b_j + e_{i,j}$

m

$m$

a_{i}

$a_i$

b_{j}

$b_j$

e_{i, j}

$e_{i,j}$

$m$ $a_i$ $b_j$

A vantagem de usar a mediana é a robustez para um pequeno número de discrepantes; a desvantagem é que você está descartando informações potencialmente úteis se não houver discrepâncias.

— Henry
fonte

a_{i}

$a_i$

b_{j}

$b_j$

e_{i, j}

$e_{i,j}$

n_{i, j} = n_{i} q_{j} + e_{i, j}

$n_{i,j} = n_i \,q_j + e_{i,j}$

l o g (n_{i, j}) = l o g (n) + l o g (p_{i}) + l o g (q_{j}) + e_{i, j}

$log(n_{i,j}) = log(n) + log(p_i) + log(q_j) + e_{i,j}$

@ Henry Que informações são "jogadas fora" com polonês médio quando não há "outliers" (e o que exatamente você quer dizer com "outlier")? Afinal, você pode reconstruir os dados exatamente por meio da mediana geral, das medianas de linha e coluna e dos resíduos, os quais constituem a saída do polonês mediano. Se você quer dizer que os resíduos são descartados, em que sentido o "polonês médio" (equivalente ao OLS) é diferente nesse aspecto?

— whuber

@ whuber: Os resíduos são mantidos em ambos os casos. O polonês médio leva em consideração a que distância as observações estão do centro (em certo sentido, equilibra os pesos dos resíduos) enquanto o polonês médio apenas olha se eles estão acima ou abaixo do centro (em certo sentido, equilibra o números de resíduos). Portanto, as informações de peso não são usadas ao usar a mediana como centro; isso pode ser bom quando alguns dos pesos / resíduos substanciais são tão duvidosos que o resultado do centro não pode ser confiável, mas envolve o uso de informações, se não.

— Henry

@ Henry Se você pode recuperar todos os dados originais do polonês, como as "informações" não são "usadas"? Aliás, o polonês médio não se comporta como você parece descrever: seus resíduos são as diferenças de valores , e não de classificação, dos dados.

— whuber

Parece que você está lendo um artigo que possui algumas análises de expressão diferencial de genes. Depois de fazer algumas pesquisas envolvendo chips de microarray, posso compartilhar o pouco conhecimento (espero que correto) que eu tenho sobre o uso de polonês médio.

O uso do polimento médio durante a etapa de compactação do pré-processamento de microarrays é uma maneira padrão de livrar dados de outliers com chips apenas de sondas de correspondência perfeita (pelo menos para RMA).

O polonês médio para dados de microarray é onde você tem o efeito de chip e o efeito de sonda como suas linhas e colunas:

para cada conjunto de sondas (composto pelo número n da mesma sonda) em x chips:

         chip1    chip2    chip3   ...  chipx
probe1      iv       iv       iv   ...     iv
probe2      iv       iv       iv   ...     iv 
probe3      iv       iv       iv   ...     iv
...
proben      iv       iv       iv   ...     iv

onde iv são valores de intensidade

Devido à variabilidade das intensidades da sonda, quase todas as análises de dados de microarranjos são pré-processadas usando algum tipo de correção e normalização de fundo antes da sumarização.

Aqui estão alguns links para os tópicos da lista de discussão da bioC que falam sobre o uso do polonês médio versus outros métodos:

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html

Os dados de tecidos e linhas celulares são geralmente analisados separadamente porque quando as células são cultivadas, seus perfis de expressão mudam drasticamente a partir das amostras de tecido coletadas. Sem ter mais papel, é difícil dizer se o processamento das amostras separadamente era adequado ou não.

As etapas de normalização, correção de segundo plano e sumarização no pipeline de análise são todas modificações dos dados experimentais, mas em seu estado não processado, os efeitos de chip, efeitos de lote, efeitos de processamento ofuscariam qualquer sinal para análise. Esses experimentos com microarrays geram listas de genes candidatos a experimentos de acompanhamento (qPCR, etc) para confirmar os resultados.

Quanto a ser ad hoc, pergunte a 5 pessoas qual diferença de dobra é necessária para que um gene seja considerado diferencialmente expresso e você terá pelo menos três respostas diferentes.

— kriegar
fonte

Obrigado pelas atualizações da sua resposta, acho que estou começando a ter uma idéia agora. Então, se eu entendi direito, o polimento mediano é usado para avaliar a variabilidade técnica em relação à sonda e ao chip? ... antes do experimento ser somado até 1 matriz contendo valores de expressão para genes sob diferentes condições?

— 22411 pos posff

@posdef do meu entendimento sim. Para cada conjunto de sondas em um chip (sondas da mesma sequência), existem sondas espalhadas. plmimagegallery.bmbolstad.com para algumas pseudo imagens de chips. Além da variabilidade dentro de um único chip, há variabilidade entre os chips. Devido à variabilidade técnica, os algoritmos são executados nos valores de intensidade bruta para obter um único "valor de expressão" para o conjunto de análises. A matriz desses valores é então ajustada para determinar se os genes são expressos diferencialmente sob diferentes condições.

— kriegar