Procurando por exemplo pilhas de infraestrutura / fluxos de trabalho / tubulações

14

Estou tentando entender como todos os componentes de "big data" funcionam juntos em um caso de uso do mundo real, por exemplo, hadoop, monogodb / nosql, storm, kafka, ... Eu sei que essa é uma ampla variedade de ferramentas usadas para tipos diferentes, mas gostaria de saber mais sobre a interação deles em aplicativos, por exemplo, pensando em aprendizado de máquina para um aplicativo, aplicativo da web, loja on-line.

Tenho vistors / sessão, dados de transação, etc, e guardo isso; mas se eu quiser fazer recomendações rapidamente, não consigo executar tarefas de mapa / redução lentas para isso em um grande banco de dados de logs que tenho. Onde posso aprender mais sobre os aspectos de infraestrutura? Eu acho que posso usar a maioria das ferramentas por conta própria, mas conectá-las uma à outra parece ser uma arte própria.

Existem exemplos / casos de uso públicos etc disponíveis? Entendo que os pipelines individuais dependem fortemente do caso de uso e do usuário, mas apenas alguns exemplos provavelmente serão muito úteis para mim.

— chrshmmmr
fonte

Você fez alguma pesquisa sobre isso? Há muitos vídeos do YouTube e apresentações SlideShare que descrevem diferentes arquiteturas

— Stanpol

1

Olá Stanpol, obrigado pela sua resposta - fiz algumas pesquisas iniciais e realmente não encontrei nada além do material da AWS e cloudera - talvez se você puder me dar alguns termos de pesquisa promissores, ficarei feliz em levá-lo a partir daí.

— chrshmmmr

14

Para entender a variedade de maneiras pelas quais o aprendizado de máquina pode ser integrado aos aplicativos de produção, acho útil examinar projetos de código aberto e publicações de artigos / blogs de empresas que descrevem sua infraestrutura.

O tema comum desses sistemas é a separação do treinamento do modelo do aplicativo do modelo. Em sistemas de produção, a aplicação do modelo precisa ser rápida, da ordem de 100s de ms, mas há mais liberdade na frequência com que os parâmetros do modelo ajustados (ou equivalente) precisam ser atualizados.

As pessoas usam uma ampla variedade de soluções para treinamento e implantação de modelos:

Crie um modelo, exporte e implante-o com PMML
- O AirBnB descreve o treinamento de modelos em R / Python e a implantação de modelos PMML via OpenScoring.
- Padrão é um projeto relacionado ao Cascading que pode consumir PMML e implantar modelos preditivos.
Construa um modelo no MapReduce e acesse valores em um sistema customizado
- Conjecture é um projeto de código aberto da Etsy que permite o treinamento de modelos com o Scalding , um wrapper scala mais fácil de usar no MapReduce e implantação via Php.
- O Kiji é um projeto de código aberto do WibiData que permite a pontuação em tempo real (aplicativo), bem como a funcionalidade para persistência de dados do usuário e modelos de treinamento nesses dados via Scalding.
Use um sistema online que permita a atualização contínua dos parâmetros do modelo.
- O Google lançou um excelente artigo sobre uma filtragem colaborativa on-line que eles implementaram para lidar com recomendações no Google Notícias.

— j_houg
fonte

7

Uma das explicações mais detalhadas e claras da configuração de um pipeline de análise complexo é do pessoal da Twitch .
Eles fornecem motivações detalhadas de cada uma das opções de arquitetura para coleta, transporte, coordenação, processamento, armazenamento e consulta de dados.
Leitura convincente! Encontre aqui e aqui .

— tchakravarty
fonte

Isso é incrível, exatamente o que eu estava procurando! Muito obrigado :)

— chrshmmmr

@chrshmmmr De nada. Não se esqueça de votar / marcar como aceito se isso ajudou!

— tchakravarty

3

Esses links parecem realmente muito úteis, mas, novamente, são links, e acho que devemos nos esforçar para manter as respostas independentes da estabilidade das fontes externas. Portanto, seria bom se você levasse dois ou três minutos para adicionar, por exemplo, o diagrama desse link , publicando-o juntamente com uma descrição rápida. Algo nas linhas de: "Por exemplo, este é o fluxo de trabalho de um sistema .... <img>. Mais informações podem ser encontradas em <link>."

— Rubens

1

@ Rubens Vou propor uma edição daqui a pouco. fgnu: vai fazê-lo, só precisa de um pouco mais a reputação de respostas realmente upvote, mas eu certamente irá honrar a sua contribuição :)

— chrshmmmr

@ Rubens Isso não seria mais do que reproduzir as informações no link. Eu faria se houvesse algo que eu sentisse que acrescentaria à explicação já dada lá.

— tchakravarty

3

O Airbnb e o Etsy publicaram recentemente informações detalhadas sobre seus fluxos de trabalho.

— Trey
fonte

1

O capítulo 1 de Practical Data Science with R ( http://www.manning.com/zumel/ ) apresenta uma grande análise do processo de ciência de dados, incluindo funções da equipe e como elas se relacionam com tarefas específicas. O livro segue os modelos estabelecidos no capítulo, referenciando quais etapas / pessoal esta ou aquela tarefa em particular seria executada.

— d8aninja
fonte