Se eu pegasse todo o conjunto de dados e dividisse o número total de bolas que lançaram um batedor pelo número total de bolas lançadas, posso ver que eu teria a probabilidade média de um lançador lançar um batedor - será em torno de 0,03 (esperançosamente Eu ainda não errei?)
Infelizmente, talvez isso já não seja exatamente o que você está procurando.
Suponha que tenhamos um único jogador e dois batedores: Don Bradman e eu. (Sei muito pouco sobre críquete, por isso, se estou fazendo algo fora daqui, avise-me.) Os jogos são parecidos com:
- Don vai para o taco e sai na 99ª tigela.
- Vou para o bastão e saio imediatamente.
- Don vai para o taco e sai na 99ª tigela.
- Vou para o bastão e saio imediatamente.
Nesse caso, existem quatro saídas em 200 taças, portanto a probabilidade marginal de um jogador conseguir um batedor é estimado em 4/200 = 2%. Mas, na verdade, a probabilidade de Don ficar de fora é mais de 1%, enquanto a minha é de 100%. Portanto, se você escolher um batedor e um jogador aleatoriamente, a probabilidade de que esse jogador jogue esse batedor desta vez é mais (50% de chance de você escolher Don) * (1% de chance de ele sair) + (50% de chance que você escolheu eu) * (100% de chance de sair) = 50,05%. Mas se você escolher um campo aleatoriamente, haverá 2% de chance de sair. Então, você precisa pensar cuidadosamente sobre qual desses modelos de amostragem está pensando.
De qualquer forma, sua proposta não é louca. Mais simbolicamente, deixe ser o jogador e m o batedor; deixe f ( b , m ) ser a probabilidade de que b fica m para fora. Então você está dizendo:bmf( b , m )bm
f(b,m)=Em′[f(b,m′)]Eb′[f(b′,m)]Eb′,m′[f(b′,m′)].
Isso tem a propriedade desejada que:
é igualmente consistente se você usar apenas mais deboum.
Eb,m[f(b,m)]=Eb,m′[f(b,m′)]Eb′,m[f(b′,m)]Eb′,m′[f(b′,m′)]=Eb,m[f(b,m)];
bm
Observe que, neste caso, podemos atribuir
Seu pressuposto é que você pode observarg(b)eh(m)razoavelmente bem a partir dos dados. Contanto que (a) você tenha jogos suficientes [o que você faz] e (b) todos os jogadores se jogam com frequências razoavelmente semelhantes, então tudo bem.
C: = Eb , m[ f( b , m ) ]g( B ) : = Em[ f( b , m ) ] / C--√h ( m ) : = Eb[ f( b , m ) ] / C--√para que f( b , m ) = g( B )h ( m ) .
g( B )h ( m )
Para elaborar um pouco sobre (b): imagine que você tem dados de vários jogos profissionais e vários jogos meus jogando com meus amigos. Se não houver sobreposição, talvez eu pareça muito bem em comparação com meus amigos, então talvez você pense que sou muito melhor que o pior jogador profissional. Isso é obviamente falso, mas você não tem dados para refutá-lo. Se você tiver uma pequena sobreposição, onde joguei contra um jogador profissional uma vez e fui destruído, os dados suportam a classificação de mim e de meus amigos como piores do que os profissionais, mas seu método não explica isso. Tecnicamente, o problema aqui é que você está assumindo que possui uma boa amostra para, por exemplo, Eb′[ f( b′, m ) ], mas sua distribuição é tendenciosa.b′
É claro que seus dados não ficarão tão ruins assim, mas dependendo da estrutura da liga ou o que for, podem ter alguns elementos desse problema.
Você pode tentar contornar isso com uma abordagem diferente. O modelo proposto para é na verdade uma instância de modelos de fatoração de matriz de baixo escalão, comuns na filtragem colaborativa , como no problema da Netflix . Há, de escolher a função g ( b ) e h ( m ) ser de dimensão r , e representam f ( b , m ) = g ( b ) T h ( m ) . Você pode interpretar r > 1fg( B )h ( m )rf( b , m ) = g( B )Th ( m )r > 1como complexificar seu modelo de uma única pontuação de "qualidade" para ter pontuações em várias dimensões: talvez certos jogadores se saiam melhor contra certos tipos de batedores. (Isso foi feito, por exemplo, para jogos da NBA .)
A razão pela qual eles são chamados fatoração matricial é porque, se você criar uma matriz com tantas linhas quanto jogadores e tantas colunas quanto batedores, poderá escrever isso comoF
onde vocêfatorouumN×M
⎡⎣⎢⎢⎢⎢⎢f( b1 1, m1 1)f( b2, m1 1)⋮f( bN, m1 1)f( b1 1, m2)f( b2, m2)⋮f( bN, m2)……⋱…f( b1 1, mM)f( b2, mM)⋮f( bN, mM)⎤⎦⎥⎥⎥⎥⎥F= ⎡⎣⎢⎢g( b1 1)⋮g( bN)⎤⎦⎥⎥G⎡⎣⎢⎢h ( m1 1)⋮h ( mM)⎤⎦⎥⎥THT
N× Mmatriz
em um
N × r um
L e um
H × R um
H .
FN× rGM× rH
Obviamente, você não consegue observar diretamente. O modelo usual é que você observe entradas ruidosas de F aleatoriamente; no seu caso, você começa a observar um empate a partir de uma distribuição binomial com um número aleatório de ensaios para cada entrada de F .FFF
Você pode construir um modelo de probabilidade como, digamos:
Geu k∼ N( 0 , σ2G)Hj k∼ N( 0 , σ2H)Feu j= GTEuHjReu j∼ Bi n o m i a l ( neu j, Feu j)
neu jReu jσGσH
nFeu j[ 0 , 1 ]GH