Estou tentando entender como todos os componentes de "big data" funcionam juntos em um caso de uso do mundo real, por exemplo, hadoop, monogodb / nosql, storm, kafka, ... Eu sei que essa é uma ampla variedade de ferramentas usadas para tipos diferentes, mas gostaria de saber mais sobre a interação deles em aplicativos, por exemplo, pensando em aprendizado de máquina para um aplicativo, aplicativo da web, loja on-line.
Tenho vistors / sessão, dados de transação, etc, e guardo isso; mas se eu quiser fazer recomendações rapidamente, não consigo executar tarefas de mapa / redução lentas para isso em um grande banco de dados de logs que tenho. Onde posso aprender mais sobre os aspectos de infraestrutura? Eu acho que posso usar a maioria das ferramentas por conta própria, mas conectá-las uma à outra parece ser uma arte própria.
Existem exemplos / casos de uso públicos etc disponíveis? Entendo que os pipelines individuais dependem fortemente do caso de uso e do usuário, mas apenas alguns exemplos provavelmente serão muito úteis para mim.