Existe uma maneira de detectar o viés do mecanismo de pesquisa?

Cada vez mais os mecanismos de busca são considerados guardiões da informação, mas o critério usado pelos mecanismos de busca para classificar os resultados é opaco para os usuários. Como os usuários podem ter certeza de que seus resultados não são tendenciosos ou adulterados de alguma forma para beneficiar algum interesse em detrimento da qualidade dos resultados de pesquisa?

Os governos exigem rotineiramente que os provedores de pesquisa removem ou diminuam a classificação de sites considerados politicamente indesejáveis. As empresas podem pagar aos provedores para aumentar determinados resultados, em detrimento de outros, para aumentar suas receitas. Os firewalls podem interferir nos resultados antes de serem transmitidos de volta aos usuários.

Mesmo mudanças aparentemente inócuas nos algoritmos de classificação que podem não aparecer na superfície parecem tendenciosas, na verdade podem ser projetadas de maneira desonesta para prejudicar sites que compartilham algum atributo comum (não relacionado à qualidade real).

É possível detectar o viés do mecanismo de pesquisa, por exemplo, monitorando os resultados por um período de tempo e avaliando se alguma "variável oculta" (talvez uma afiliação política) é um fator determinante na mudança na classificação do site?

Um provedor furtivo pode gradualmente diminuir o ranking dos sites segmentados (e talvez sites aleatórios, além de distrair os usuários). Quais são os limites de quanto preconceito um provedor pode introduzir sem detecção? Ou é possível ocultar sempre essa interferência selecionando desviantes critérios de classificação ponderada que produzem incidentalmente o resultado pretendido (por meio de "rastreamento de dados").

Isso muda se o critério de classificação for tornado público? Precisamos de código aberto os critérios utilizados pelos mecanismos de pesquisa?

Isso me lembra o resultado de que detectar se um instrumento financeiro complexo como um CDO foi violado ou não pelo vendedor é equivalente a resolver o problema do subgráfico mais denso:

http://www.cs.princeton.edu/~rongge/derivative.pdf

Obrigado!

ds.algorithms data-mining

— mão.
fonte

essa é uma pergunta interessante, mas eu a revisaria certificando-se de fazer apenas uma pergunta relacionada à história. O mais óbvio é fazer disso uma solicitação de referência e perguntar "alguém já olhou para isso?". Se você tem certeza de que ninguém tem, algo como "como isso pode ser modelado formalmente?" pode ser uma boa pergunta. Se você mantiver muitas perguntas por perto, com algumas delas potencialmente não relacionadas à história, ela poderá ser encerrada como "não uma pergunta real".

— Artem Kaznatcheev

Observe que tornar público um esquema de classificação o abre para ataques de spammers. Uma variante interessante seria: "existe um equivalente de 'chave pública' para classificações"

— Suresh Venkat

O @SureshVenkat "tornar público um esquema de classificação abre para o ataque" parece que você está sugerindo <s> segurança </s> imparcialidade através da obscuridade;).

— Artem Kaznatcheev

não, mas foi por isso que perguntei sobre versões de chave pública de esquemas de classificação.

— Suresh Venkat

Como as partes que não participam do processo de busca são usuários mal-intencionados, uma solução normal é modelar o processo como um jogo com usuários egoístas. Se modelados corretamente, podemos descobrir se é benéfico para os mecanismos de pesquisa fazer uma coisa dessas ou não. Em seguida, podemos projetar um mecanismo para impedir tal violação.

— Helium

Obviamente, essa é uma pergunta muito aberta, mas, para permanecer no tópico, aqui está uma abordagem da teoria da CS à idéia de "justiça" e como aplicá-la.

"Justiça pela conscientização" Dwork, Hardt, Pitassi, Reingold, Zemel http://arxiv.org/abs/1104.3913

— Aaron Roth
fonte