É aconselhável considerar não apenas a correlação do engajamento de recursos com o custo, mas também o retorno do custo do engajamento de recursos. O desafio típico é que esses retornos são quase sempre cumulativos ou atrasados. Um caso de acumulação é quando o recurso é o ajuste ou aprimoramento contínuo de um processo cuja ausência retarda a geração de receita. Um caso de atraso ocorre quando os recursos de pesquisa incorrem em custos sem impacto na receita por um período de tempo, mas a geração de receita que começa se a pesquisa fornece resultados produtivos pode ser um fator substancial acima do custo total dos resultados entregues.
A razão pela qual os dados de despesas por si só podem levar a um aprendizado inadequado da rede é porque uma rede treinada para reduzir, por exemplo, as despesas de marketing, irá zerá-las. Isso geralmente causaria uma tendência decrescente de lead de vendas até que os negócios se dobrassem. Sem incluir os retornos nas informações de treinamento, nenhum aprendizado útil pode ocorrer.
Um MLP básico (perceptron de múltiplas camadas) não aprenderá as características temporais dos dados, os aspectos de acumulação e atraso. Você precisará de uma rede com estado. O tipo de rede com sucesso mais consistente para esse tipo de aprendizado até o momento da redação deste documento é o tipo de rede LSTM (memória de curto prazo) ou uma de suas variantes derivadas. Os dados da receita e do saldo devem ser usados em conjunto com os dados da despesa para treinar a rede a prever resultados de negócios para qualquer sequência de engajamentos de recursos propostos (plano orçamentário totalmente detalhado).
A função de perda deve equilibrar adequadamente o termo de classificação com os objetivos financeiros de médio e longo prazo. O caixa disponível negativo deve produzir um aumento pronunciado na função de perda, para que se evite riscos básicos à reputação e o custo do crédito.
É difícil determinar antecipadamente quais colunas nos seus dados têm fortes correlações com o retorno do investimento. Você pode excluir imediatamente as colunas que estejam em conformidade com qualquer um dos seguintes critérios.
- Sempre vazio
- Outras constantes, aquelas que têm o mesmo valor para cada linha
- Aqueles que sempre podem ser derivados de outras colunas
Os dados podem ser reduzidos de outras maneiras
- Descrição completa dos dados, caracterizando tendências de maneiras simples
- Usando índices para especificar cadeias longas com 100% de precisão, atribuindo um número a cada cadeia
- Compressão
- Caso contrário, reduzir a redundância nos dados
Os RBMs (máquinas Boltzmann restritas) podem extrair recursos dos dados e os PCAs podem iluminar as colunas com baixo conteúdo de informações, mas o significado das colunas em termos de correlação com a receita não será identificado usando esses dispositivos em sua forma básica.