Existem projetos em andamento que usam o Stack Exchange para aprendizado de máquina?

22

Existem projetos de IA em andamento que usam o Stack Exchange para aprendizado de máquina?

machine-learning ai-design

— Techidiot
fonte

6

Certamente parece ter havido projetos de pesquisa envolvendo alguma forma de mineração de texto / recuperação de informações / etc. e sites StackExchange.

Alguns exemplos que consegui encontrar no google / google scholar (é improvável que esteja perto de uma lista exaustiva):

TÁCITO: Uma ferramenta de análise, rastreamento e interpretação de texto de código-fonte aberto descreve vários rastreadores de texto para uma variedade de sites (incluindo sites de Stack Exchange, mas também Twitter, Reddit, etc.). À primeira vista, isso parece ser principalmente sobre rastreamento, não sobre fazer mais nada com os dados posteriormente. A pesquisa de outros artigos que citam este no Google Scholar pode produzir resultados interessantes, mas pode levar a artigos que usaram isso para rastreamento e fizeram mais com os dados posteriormente.
O joio do trigo: caracterização e modelagem de perguntas excluídas no estouro de pilha descreve a pesquisa sobre a qualidade das perguntas de estouro de pilha em algum sentido (especificamente, prevendo se as perguntas serão excluídas, por exemplo). Não tenho 100% de certeza se esse também é o tipo de coisa em que você está interessado; é o Stack Exchange + Machine Learning, como está implícito no título da sua pergunta, mas não necessariamente sobre a retenção de informações das respostas, como está implícito no texto da sua pergunta.
Stackoverflow de mineração de texto: uma visão sobre os desafios e as dificuldades relacionadas aos assuntos enfrentados pelos alunos de ciência da computação também descreve a mineração de texto nas perguntas e respostas do StackOverflow, embora, de uma rápida olhada, pareça ser principalmente sobre detecção de tópicos etc., não necessariamente sobre perguntas automatizadas respondendo por exemplo.
Diferentes facetas do sistema de resposta automática a perguntas com base em texto parecem ser uma pesquisa relativamente recente sobre o tópico da pesquisa de resposta automática a perguntas. O Stack Exchange é mencionado algumas vezes como um exemplo de fonte de dados para esses sistemas, mas não parece ser usado de outra forma.
Estender o PythonQA com o conhecimento do StackOverflow é especificamente sobre a incorporação de perguntas e respostas do StackOverflow em um sistema automatizado de perguntas e respostas para perguntas sobre a linguagem de programação Python . O artigo fornece um link para mais detalhes ( http://pythonqas2.epl.di.uminho.pt ), mas esse link parece estar inoperante. Suponho que você sempre tente entrar em contato com os autores diretamente se estiver interessado em mais informações sobre isso.

De maneira mais geral, os sistemas de resposta automática a perguntas ainda parecem ser uma área bastante ativa de pesquisa, não um problema trivial / "resolvido". O StackExchange pode ser uma fonte de dados para esses sistemas, mas também existem muitas outras fontes de dados (Wikipedia, Quora, etc.).

— Dennis Soemers
fonte

3

DuckDuckGo aprende respostas a perguntas técnicas do StackExchange. Digite uma pergunta técnica como "projetos em andamento usam stackexchange" no DuckDuckGo e ele fornecerá um resumo destacado da resposta no lado direito. E o duck possui uma API aberta para muitas (100s) mais fontes de dados para resposta a perguntas. Ou você pode ir diretamente para a API stackexchange .

Os projetos podem usar os dados da API aberta do SE, desde que estejam em conformidade com seus TOU . Basicamente, verifique se os usuários podem dizer que os dados vieram do Stack Exchange. A licença de direitos autorais também pode limitar sua capacidade de alterar o conteúdo do texto, digamos um resumo resumido aprendido. Talvez seja por isso que o Duck.com apenas destaque palavras-chave.

A lei de direitos de dados está em andamento, especialmente quando se trata dos dados que você enviou a um site e dos modelos de aprendizado de máquina derivados desses dados. As novas regras europeias de privacidade e dados permitem que você baixe ou exclua todos os dados enviados a um site, como troca de pilhas.

— fogão
fonte