Introdução ao biclustering

9

Eu tenho feito algumas pesquisas casuais na Internet sobre biclusters. (Eu li o artigo da Wiki várias vezes.) Até agora, parece que existem poucas definições ou terminologia padrão.

Fiquei me perguntando se havia algum documento ou livro padrão que alguém interessado em algoritmos para encontrar biclusters deveria ler.
É possível dizer qual é o estado da arte no campo? Fiquei intrigado com a noção de encontrar biclusters usando algoritmos genéticos, por isso gostaria de receber comentários sobre essa abordagem em particular no contexto de outras abordagens.
Normalmente, em cluster, o objetivo é particionar o conjunto de dados em grupos em que cada elemento está em algum grupo. Os algoritmos bicluster também procuram colocar todos os elementos em um grupo específico?

clustering data-mining

— Henry B.
fonte

16

Como nunca o usei diretamente, posso compartilhar apenas alguns trabalhos que tive e pensamentos gerais sobre essa técnica (que abordam principalmente as perguntas 1 e 3).

Meu entendimento geral do biclustering vem principalmente de estudos genéticos (2-6), nos quais procuramos explicar agrupamentos de genes e agrupamento de indivíduos: em resumo, estamos procurando amostras de grupos que compartilhem perfis similares de expressão gênica (isso pode estar relacionado estado da doença, por exemplo) e genes que contribuem para esse padrão de criação de perfil de genes. Uma pesquisa sobre o estado da arte para conjuntos de dados biológicos "maciços" está disponível nos slides de Pardalos, Biclustering . Observe que existe um pacote R, biclust , com aplicativos para dados de microarray.

De fato, minha ideia inicial foi aplicar essa metodologia ao diagnóstico clínico, pois permite colocar características ou variáveis em mais de um cluster, o que é interessante de uma perspectiva semeiológica, porque os sintomas que se agrupam permitem definir a síndrome , mas alguns sintomas podem sobreposição em diferentes doenças. Uma boa discussão pode ser encontrada em Cramer et al., Comorbidade: uma perspectiva de rede (Behavioral and Brain Sciences 2010, 33, 137-193).

Uma técnica um pouco relacionada é a filtragem colaborativa . Uma boa revisão foi disponibilizada por Su e Khoshgoftaar ( Avanços em Inteligência Artificial , 2009): Uma Pesquisa de Técnicas de Filtragem Colaborativa . Outras referências estão listadas no final. Talvez a análise do conjunto de itens frequentes , como exemplificado no problema da cesta de mercado , também esteja ligada a ele, mas nunca o investiguei. Outro exemplo de agrupamento é quando queremos agrupar simultaneamente palavras e documentos, como na mineração de texto, por exemplo, Dhillon (2001). Co-agrupando documentos e palavras usando o particionamento de gráfico espectral bipartido . Proc. KDD , pp. 269–274.

Sobre algumas referências gerais, aqui está uma lista não muito exaustiva que espero que seja útil:

Jain, AK (2010). Agrupamento de dados: 50 anos além K-means . Cartas de reconhecimento de padrões , 31 , 651–666
Carmona-Saez et al. (2006). Biclustering de dados de expressão gênica por fatoração matricial não-suave e não-negativa . BMC Bioinformatics , 7 , 78.
Prelic et al. (2006). Uma comparação sistemática e avaliação de métodos de biclustering para dados de expressão gênica . Bioinformática , 22 (9) , 1122-1129. www.tik.ee.ethz.ch/sop/bimax
DiMaggio et al. (2008). Biclustering via reordenação ótima de matrizes de dados em biologia de sistemas: métodos rigorosos e estudos comparativos . BMC Bioinformatics , 9 , 458.
Santamaria et al. (2008). BicOverlapper: Uma ferramenta para visualização de bicluster . Bioinformtics , 24 (9) , 1212-1213.
Madeira, SC e Oliveira, AL (2004) Algoritmos Bicluster para análise de dados biológicos: uma pesquisa . IEEE Trans. Comput. Biol. Bioinform. , 1 , 24-45.
Badea, L. (2009). Clustergrams generalizados para sobreposição de biclusters . IJCAI
Symeonidis, P. (2006). Filtragem colaborativa de biclusters mais próximos . WEBKDD

— chl
fonte

11

Ótima resposta. Se eu tivesse outro voto, votaria nesta resposta novamente.

— Henry B.

@chl O primeiro link para os slides do Pardalos parece estar morto. Alguém sabe de um local alternativo?

— Erik

@Erik A maior parte do material dos slides pode ser encontrada em Biclustering Consistente via Programação Fracionária 0-1 do mesmo autor. (I verificado o conteúdo dos slides com a minha cópia do link morto.)

— chl

4

Aqui está uma boa pesquisa / revisão:

Stanislav Busygin, Oleg Prokopyev e Panos M. Pardalos. Biclustering na mineração de dados . Computers & Operations Research, 35 (9): 2964–2987, setembro de 2008.

— kc2001
fonte