Várias perguntas sobre modelos estatísticos de séries temporais financeiras de "pessoa que aprende máquinas"

Para explicar por que tenho essa pergunta estúpida, você encontrará abaixo. Tenho que dizer que sou mais uma pessoa que aprende máquinas. Enquanto eu trabalhava em problemas de bioinformática, tudo estava bem. Quando ouvi palavras como "regressão" ou "curtose e assimetria", no primeiro caso, apenas sorri, no segundo caso, apenas fiz alguns movimentos desajeitados com os ombros, tentando dizer algo como: "sim, ouvi falar e até sabe como calcular, mas por que na Terra alguém vai precisar? ".

A situação mudou drasticamente quando, há um ano, tentei aplicar meu conhecimento de aprendizado de máquina a algumas séries temporais financeiras.

Comecei com a idéia de fazer uma rede bayesiana a partir de sinais fornecidos por "técnicos" "análises" "indicadores". A ideia falhou. Também foi um pouco agradável encontrar pelo menos dois tópicos com idéias semelhantes neste site (que usavam redes neurais em vez de bayesianas).

Em seguida, depois de muito esforço, fui capaz de construir uma mistura de kNN e regressão simbólica que treinei em dados de 1 hora de 2000 a 2006 e testei em dados de 2007. Esse modelo atualmente deu um grande lucro. Mas quando apliquei nos dados mais recentes, percebi que sua precisão caiu drasticamente por causa da crise econômica e não funciona mais porque algo mudou no mercado e preciso de mais dados novos, que só posso obter em um período de 2 a 5. anos.

Bem, muitas coisas foram tentadas mais tarde e se tudo começou como "apenas por diversão", não era mais divertido. Até encontrar palestras on-line de Ruey S. Tsay sobre ARIMA, GARCH, TAR e todas as outras coisas completamente novas para mim.

Basicamente, encontrei um mundo totalmente novo e realmente aprecio isso. No momento, consegui encaixar meu primeiro modelo ARIMA e o ajustei para reduzir o erro rms duas vezes, olhando para ACF, PACF, jogando com sazonalidade e assim por diante.

Bem, a diversão está de volta, eu tinha muito e espero ter ainda mais. Mas eu tinha algumas perguntas e encontrei este ótimo site. Leia quase todos os tópicos sobre o ARIMA e outras técnicas relacionadas aqui, juntamente com muitos outros tópicos gerais relacionados a abordagens semelhantes. Com certeza estará lendo mais. Ainda estou pensando em uma abordagem mental de aprendizado de máquina, o que leva a muitas perguntas estúpidas, para a maioria das quais encontro respostas neste site.

Então, após essa longa introdução, aqui estão minhas perguntas estúpidas restantes:

Embora a abordagem de aprendizado de máquina esteja mais preocupada em encontrar "padrão" nos dados, eu a encontro em contradição com modelos estatísticos para séries temporais financeiras que usam extensivamente a teoria da caminhada aleatória (o que torna a existência de padrões pelo menos questionável). Percebo que sua descrição muito ingênua e incorreta, mas o que estou tentando dizer, é que a maioria das técnicas de aprendizado de máquina está em contradição conceitual com a abordagem estatística do problema. Não estou dizendo que alguma abordagem seja melhor, apenas estou dizendo que eles têm contradições. Isso está correto e qual é o tamanho dessa contradição?
Eu realmente gostei da descrição e da idéia do modelo TAR, que para mim parece um casamento de aprendizado de máquina com estatísticas. Este é um modelo que quero experimentar a seguir depois de adicionar o GARCH ao meu ARIMA. Mas eu tenho algumas perguntas sobre isso:
- O TAR definitivamente usa abordagens estatísticas e de aprendizado de máquina. Portanto, tendo em mente minha primeira pergunta, não há um erro ao tentar encontrar um padrão para um conjunto de modelos, que são basicamente construídos com base na teoria que exclui padrões? Ou é apenas uma idéia de como combinar dois modelos que estudam diferentes aspectos do mesmo problema, em um modelo ainda mais poderoso?
- Ao pesquisar por palavra-chave "ARIMA" neste site, você acessa 15 páginas de tópicos, enquanto para o TAR há apenas um. Além disso, por que as pessoas pararam de aplicar o AR? Por que não expandir essa idéia para modelos mais complexos (como o ARIMA)? É porque o TAR não deu a melhoria esperada sobre o RA?
Eu sei que os métodos MCMC e outras coisas de aprendizado de máquina estão atualmente sendo misturados com modelos estatísticos. Pessoalmente, também sou um grande fã dos modelos Hidden Markov e dos campos aleatórios condicionais. Você conhece alguma mistura de algum desses métodos com modelos estatísticos?

machine-learning arima finance

— GrayR
fonte

Observe que o ARIMA geralmente tem mais a ver com representação do que com um modelo diferente do AR. Geralmente, você pode reorganizar um modelo ARIMA em um modelo AR. Acho que você enfrenta problemas de estimativa, se não puder (tenho certeza de que os modelos de séries temporais não invertíveis são difíceis de ajustar). Além disso, muitas das suas diferenças estão mais na terminologia do que nos modelos. Um campo aleatório condicional é basicamente um modelo misto. Modelos ocultos de Markov são muito semelhantes aos Filtros de Kalman, etc. etc.

— probabilityislogic

@probabilityislogic obrigado pelo seu comentário. Sim, eu percebo que há muito em comum. É muito tentador para mim, na verdade, apenas dizer que toda a abordagem estatística é a mesma do aprendizado de máquina, simplesmente como alguns métodos novos. Estou com medo de perder algo importante nesse caso, por isso estou me concentrando nas diferenças, para perceber mais sobre as maneiras corretas e erradas de aplicar esses modelos. É fácil para mim ver a semelhança, é as diferenças que tenho medo de perder.

— GrayR

Em relação à questão 1, as séries temporais não tratam principalmente de passeios aleatórios. As séries temporais estacionárias têm uma estrutura de correlação modelada, por exemplo, nos modelos ARMA. A análise de séries temporais também analisa efeitos e tendências periódicos (chamamos essas séries de não-estacionárias). A procura de padrões nos dados não é incompatível com as estatísticas, desde que haja reconhecimento de que existe um padrão + um componente aleatório e o componente aleatório deve ser considerado na análise. Em relação à pergunta 2, não vejo por que você chama o TAR de uma mistura de aprendizado de máquina e estatística. Eu vejo isso apenas como um modelo de série temporal mais complicado que inclui um parâmetro de limite e um modelo de 2 RA. Acho que também não vejo uma grande distinção entre aprendizado de máquina e estatística. Eu vejo o aprendizado de máquina como parte do reconhecimento / classificação estatístico de padrões, que se enquadra no domínio da análise multivariada. Parece-me que o TAR poderia ser facilmente estendido para colocar um limite em um modelo ARMA. Não sei se foi tentado ou por que talvez não tenha sido desenvolvido. Talvez alguém que trabalhe com esse tipo de modelo de série temporal possa responder a essa pergunta.

— Michael R. Chernick
fonte