Quais são algumas utilidades de matrizes densas nas estatísticas?

OK, eu não sou estatístico (nem de perto). Sou um pesquisador de computação de alto desempenho e queria alguns casos de teste para matrizes densas grandes (maiores que 5000 x 5000). Eu pedi aqui e em alguns outros lugares, mas nunca recebi nenhuma resposta de um estatístico. Estou muito interessado em experimentar meus códigos em um problema de estatística. Você poderia sugerir uma aplicação nas estatísticas em que é necessário resolver $Ax=b$ para x onde $A$ é denso e quadrado.

Eu apreciaria muito se você também pudesse me dar aplicações onde A não tem estrutura, isto é, sem simetria, sem definição positiva etc. Mas isso não é totalmente necessário. Uma matriz grande e densa com uma boa aplicação é suficiente.

Sinto muito se esta pergunta parece aberta ou vaga, mas não consigo imaginar um lugar melhor para fazer essa pergunta.

large-data matrix

— Comunidade
fonte

Um exemplo bastante básico que me vem à mente é o pacote lme4 do R para modelagem de efeitos mistos, que depende de matrizes esparsas de design para lidar com muitos efeitos aleatórios. No entanto, sinto que você está mais interessado em informações esparsas, estou certo?

— Chl

Não, eu quero uma matriz densa A. Idealmente, deve ser quase completo densa sem simetria

Quando você diz 'resolver

A x = b

$Ax=b$ para denso

A

$A$ ', você quer dizer' resolver

A x = b

$Ax=b$ para

x

$x$ , Onde

A

$A$ é denso?

— onestop

Sim. Desculpe pelos atalhos ruins. Isso é o que eu quero dizer. Por exemplo, A = rand (5000, 5000); b = margem (5000,1); resolver (A, x, b); Suponha que rand dê uma distribuição uniforme entre 1 e 2

Existem geradores de problemas de regressão, por exemplo, no scikit-learn samples_generator , e certamente existem outros. Mas, me corrija, claro

A x = b

$Ax = b$ é bem rápido com Lapack e coisas do gênero; acho que existe mais mercado para métodos robustos, sistemas grandes / esparsos / subdeterminados ... De qualquer forma, você também pode solicitar metaoptimização .

— Denis

Respostas:

Você pode achar o Java Matrix Benchmark útil. O mercado de matrizes não parece ter o que você deseja, embora tenha muitos exemplos.

— Jean-Victor Côté
fonte

Embora este não respondeu completamente a minha pergunta, ela me levar a uma resposta possível: math.nist.gov/MatrixMarket/data/misc/xlatmr/xlatmr.html

Aqui é grande, embora não tenha certeza se é denso o suficiente para você. From http://www.grouplens.org/node/73

MovieLens 100k - Consiste em 100.000 classificações de 1000 usuários em 1700 filmes.
MovieLens 1M - Consiste em 1 milhão de classificações de 6000 usuários em 4000 filmes.
MovieLens 10M - Consiste em 10 milhões de classificações e 100.000 aplicativos de tags aplicados a 10.000 filmes por 72.000 usuários.

— Jack Tanner
fonte

1. A densidade é de importância primária e duvido que a matriz formada seja densa. 2. Como isso é relevante para Ax = b? Preciso de aplicações estatísticas, não estatísticas aleatórias de grande porte.

O aplicativo estatístico é a filtragem colaborativa - dada uma matriz de usuários x filmes, preveja a classificação que um usuário atribuirá a um filme que ainda não assistiu. Pense na recomendação de produtos no estilo Amazon.com. Grandes matrizes dessas preferências de itens de usuário tendem a ser esparsas, mas você pode cortar as coisas realmente de cauda longa.

— 11262 Jack Tanner

"Grandes matrizes dessas preferências de itens de usuário tendem a ser esparsas" A densidade é de primordial importância. Não tenho certeza do que é cauda longa, mas, no entanto, duvido que isso levaria a uma matriz densa e não estruturada.

Não sei se o aplicativo que você está procurando faria sentido em um contexto estatístico. O que você está interessado é uma análise de regressão linear. $A\in R^{m\times n}$ é uma matriz de $m$ medições em que cada linha é uma única medição de $n$ variáveis. Duas aplicações potenciais com possível $n>5000$ venha à minha mente. 1) análise de microarray de DNA e 2) análise de dados funcionais de ressonância magnética. Em qualquer caso, será difícil encontrar conjuntos de dados com $m>5000$ pessoas (medidas) nele.

No entanto, sua exigência de $m=n$ restringe o sentido de tal análise de uma maneira principal. Depois de todas as estatísticas, deduzirmos alguma verdade subjacente, digamos, verdade a partir de dados ruidosos , ou seja, o modelo estatístico implícito na sua pergunta é

b = a^{T} x + ϵ

$b=a^Tx + \epsilon$ Onde

a

$a$ é uma única medida,

x

$x$ são os parâmetros assumidos que você tenta encontrar com sua análise e

ϵ

$\epsilon$ é alguma forma de barulho. Agora você diz isso

A

$A$ precisa ser invertível, ou seja, precisa ser de classificação completa, ou seja, medições

a

$a$ não deve repetir, ou seja, você só tem uma única observação corrompida por ruído

b

$b$ por

a

$a$ e essa é uma situação muito ruim para tentar estimar parâmetros

x

$x$ , especialmente no caso em que o número de parâmetros exceda (ou seja igual a) o número de medições. Em seguida, seu modelo simplesmente ajusta o ruído nos dados que são chamados de sobreajuste.

— sbitzer
fonte