Os modelos ARIMA são, em teoria, a classe mais geral de modelos para prever uma série de tempo que pode ser feita para ser estacionária por diferenciação se necessário, talvez em conjunto com transformações não-lineares Tais como registrar ou desinflar, se necessário Uma variável aleatória que é uma série temporal é estacionária se suas propriedades estatísticas são todas constantes ao longo do tempo Uma série estacionária não tem tendência, suas variações em torno de sua média têm uma amplitude constante, e ele se move de forma consistente Ou seja, seus padrões de tempo aleatórios de curto prazo sempre se parecem em um sentido estatístico. A última condição significa que suas correlações de autocorrelações com seus próprios desvios anteriores da média permanecem constantes ao longo do tempo ou, de forma equivalente, que seu espectro de poder permanece constante ao longo do tempo. Variável desta forma pode ser vista como usual como uma combinação de sinal e ruído, eo sinal se um é aparente poderia ser um patt De reversão média rápida ou lenta, ou oscilação sinusoidal, ou alternância rápida no sinal, e também poderia ter uma componente sazonal Um modelo ARIMA pode ser visto como um filtro que tenta separar o sinal do ruído, eo sinal é então Extrapolada para o futuro para obter previsões. A equação de previsão de ARIMA para uma série de tempo estacionária é uma equação de tipo linear de regressão linear, na qual os preditores consistem em atrasos da variável dependente e / ou atrasos dos erros de previsão Isso é. Valor predito de Y Uma soma constante e ou ponderada de um ou mais valores recentes de Y e / ou uma soma ponderada de um ou mais valores recentes dos erros. Se os preditores consistem apenas em valores defasados de Y é um modelo autoregressivo auto-regredido puro, Que é apenas um caso especial de um modelo de regressão e que poderia ser equipado com software de regressão padrão. Por exemplo, um modelo AR 1 auto-regressivo de primeira ordem para Y é um modelo de regressão simples no qual a variável independente i Se apenas alguns dos preditores são defasagens dos erros, um modelo ARIMA não é um modelo de regressão linear, porque não há como especificar o erro do último período s Como uma variável independente, os erros devem ser calculados periodicamente quando o modelo é ajustado aos dados. Do ponto de vista técnico, o problema com o uso de erros retardados como preditores é que as previsões do modelo não são funções lineares do Assim, os coeficientes em modelos ARIMA que incluem erros retardados devem ser estimados por métodos de otimização não-linear escalada em vez de simplesmente resolver um sistema de equações. A sigla ARIMA significa Auto-Regressive Integrated Média Móvel As baixas das séries estacionalizadas na equação de previsão são chamadas de termos autorregressivos, os atrasos dos erros de previsão são chamados de termos de média móvel e uma série de tempo que precisa ser Ser diferenciado para ser feito estacionário é dito ser uma versão integrada de uma série estacionária Random-pé e modelos de tendência aleatória, modelos autorregressivos e modelos de suavização exponencial são todos os casos especiais de modelos ARIMA. Um modelo ARIMA não sazonal é classificado como um ARIMA P, d, q modelo, where. p é o número de termos autorregressivos. d é o número de diferenças não sazonais necessárias para a estacionariedade, e. q é o número de erros de previsão defasados na equação de previsão. A equação de previsão é construída da seguinte forma Notemos que a segunda diferença de Y o caso d 2 não é a diferença de dois períodos atrás. Em vez disso, é a diferença de primeira diferença da primeira diferença que é O análogo discreto de uma segunda derivada, ou seja, a aceleração local da série em vez de sua tendência local. Em termos de y, a equação de previsão geral é. Aqui os parâmetros de média móvel s são definidos de modo que seus sinais sejam negativos na equação Seguindo a convenção introduzida por Box e Jenkins Alguns autores e softwares, incluindo a linguagem de programação R, definem-nos de modo que eles tenham mais sinais ao invés. Quando os números reais são conectados à equação, não há ambigüidade, mas é importante saber qual convenção O software usa quando você está lendo a saída Muitas vezes os parâmetros são indicados por AR 1, AR 2,, e MA 1, MA 2, etc Para identificar o modelo ARIMA apropriado para Y você começa por determinar a ordem de diferenciação d que necessitam Para estacionarizar a série e remover as características grosseiras da sazonalidade, talvez em conjunto com uma transformação estabilizadora de variância, como registrar ou desinflar Se você parar neste ponto e prever que a série diferenciada é constante, você apenas montou uma caminhada aleatória ou aleatória No entanto, a série estacionária pode ainda ter erros autocorrelacionados, sugerindo que algum número de termos AR p 1 e ou algum número de termos MA q 1 também são necessários Na equação de previsão. O processo de determinar os valores de p, d e q que são melhores para uma dada série de tempo será discutido em seções posteriores das notas cujos links estão no topo desta página, mas uma prévia de alguns Dos tipos de modelos não-temporais ARIMA que são comumente encontrados é dado abaixo. ARIMA 1,0,0 modelo auto-regressivo de primeira ordem se a série é estacionária e autocorrelacionada, talvez ele pode ser previsto como um múltiplo de seu próprio valor anterior, mais um Constante A equação de previsão neste caso é a que é Y regressa sobre si mesma retardada por um período. Este é um modelo de constante ARIMA 1,0,0 Se a média de Y for zero, então o termo constante não seria incluído. Se a inclinação O coeficiente 1 é positivo e menor que 1 em magnitude deve ser menor que 1 em magnitude se Y estiver parado, o modelo descreve o comportamento de reversão de média no qual o valor do próximo período deve ser predito como sendo 1 vezes mais distante da média como Valor do período s Se 1 for negativo, Prediz comportamento de reversão de média com alternância de sinais, ou seja, também prevê que Y estará abaixo do próximo período médio se estiver acima da média desse período. Em um modelo autorregressivo de segunda ordem ARIMA 2,0,0, haveria um Y t-2 termo à direita também, e assim por diante Dependendo dos sinais e magnitudes dos coeficientes, um modelo ARIMA 2,0,0 poderia descrever um sistema cuja reversão média ocorre de forma sinusoidal oscilante, como o movimento De uma massa em uma mola que é sujeita a choques aleatórios. ARIMA 0,1,0 passeio aleatório Se a série Y não é estacionário, o modelo mais simples possível para ele é um modelo de caminhada aleatória, que pode ser considerado como um caso limitativo de Um modelo AR 1 no qual o coeficiente autorregressivo é igual a 1, ie uma série com reversão média infinitamente lenta. A equação de predição para este modelo pode ser escrita como. qual o termo constante é a variação média período-período, isto é, a longo prazo Este modelo pode ser montado como uma interceptação sem Em que a primeira diferença de Y é a variável dependente Uma vez que inclui apenas uma diferença não sazonal e um termo constante, é classificada como modelo ARIMA 0,1,0 com constante O modelo randômico-sem-desvio seria Um modelo ARIMA 0,1,0 sem constante. ARIMA 1,1,0 modelo auto-regressivo de primeira ordem diferenciado Se os erros de um modelo randômico randômico são autocorrelacionados, talvez o problema possa ser corrigido adicionando um atraso da variável dependente ao Isto é, regressando a primeira diferença de Y sobre si mesma retardada por um período Isto resultaria na seguinte equação de previsão que pode ser rearranjada para. Este é um modelo autorregressivo de primeira ordem com uma ordem de diferenciamento não sazonal e um termo constante --em um modelo ARIMA 1,1,0.ARIMA 0,1,1 sem alisamento exponencial simples constante Outra estratégia para corrigir erros autocorrelacionados em um modelo de caminhada aleatória é sugerida pelo modelo de suavização exponencial simples. Por exemplo, aqueles que exibem flutuações barulhentas em torno de uma média de variação lenta, o modelo de caminhada aleatória não funciona tão bem quanto uma média móvel de valores passados. Em outras palavras, ao invés de tomar a observação mais recente como a previsão da próxima observação , É melhor usar uma média das últimas observações para filtrar o ruído e estimar com mais precisão a média local O modelo de suavização exponencial simples usa uma média móvel exponencialmente ponderada de valores passados para alcançar este efeito A equação de previsão para a O modelo de suavização exponencial simples pode ser escrito em um número de formas matematicamente equivalentes, uma das quais é a chamada forma de correção de erro, na qual a previsão anterior é ajustada na direção do erro que ela cometeu. Porque e t-1 Y t - 1 - t-1 por definição, isso pode ser reescrito como. que é uma equação de previsão ARIMA 0,1,1-sem-constante com 1 1 - Isso significa que você pode ajustar um smoo exponencial simples Coisa, especificando-o como um modelo ARIMA 0,1,1 sem constante, eo coeficiente MA 1 estimado corresponde a 1-menos-alfa na fórmula SES Lembre-se que no modelo SES, a idade média dos dados no 1- As previsões de período antecipado é de 1, o que significa que tenderão a ficar para trás em relação a tendências ou pontos de viragem em cerca de 1 períodos. Consequentemente, a idade média dos dados nas previsões de um período de 1 período de um ARIMA 0,1,1 - 1 1 - 1 Assim, por exemplo, se 1 0 8, a idade média é 5 Como 1 se aproxima de 1, o modelo ARIMA 0,1,1-sem constante se torna uma média móvel de muito longo prazo e Quando 1 se aproxima de 0, torna-se um modelo randômico-sem-deriva. Qual é a melhor maneira de corrigir a autocorrelação adicionando termos AR ou adicionando termos MA Nos dois modelos anteriores discutidos acima, o problema de erros autocorrelacionados em um modelo de caminhada aleatória Foi fixado de duas maneiras diferentes adicionando um valor defasado da série diferenciada à equação ou adicionando um valor defasado do foreca St erro Qual abordagem é a melhor Uma regra para esta situação, que será discutida em mais detalhes mais adiante, é que a autocorrelação positiva geralmente é melhor tratada pela adição de um termo AR para o modelo e autocorrelação negativa é geralmente melhor tratada por Adicionando um termo MA Na série econômica e de negócios, a autocorrelação negativa surge frequentemente como um artefato de diferenciação. Em geral, a diferenciação reduz a autocorrelação positiva e pode até causar uma mudança de autocorrelação positiva para negativa. Assim, o modelo ARIMA 0,1,1, em Cuja diferenciação é acompanhada por um termo MA, é mais freqüentemente usado do que um modelo ARIMA 1,1,0. ARIMA 0,1,1 com suavização exponencial simples constante com crescimento Ao implementar o modelo SES como um modelo ARIMA, você realmente ganha alguns Flexibilidade Em primeiro lugar, permite-se que o coeficiente de MA 1 estimado seja negativo, isto corresponde a um factor de alisamento maior do que 1 num modelo SES, o que normalmente não é permitido pelo procedimento de ajustamento do modelo SES Sec Você tem a opção de incluir um termo constante no modelo ARIMA se desejar, para estimar uma tendência média não-zero. O modelo ARIMA 0,1,1 com constante tem a equação de previsão. As previsões deste modelo são qualitativamente semelhantes às do modelo SES, exceto que a trajetória das previsões de longo prazo é tipicamente uma linha inclinada cuja inclinação é igual a mu em vez de uma linha horizontal. ARIMA 0,2,1 ou 0, 2,2 sem suavização exponencial linear constante Modelos lineares de suavização exponencial são modelos ARIMA que usam duas diferenças não sazonais em conjunção com os termos MA A segunda diferença de uma série Y não é simplesmente a diferença entre Y e ela mesma retardada por dois períodos, mas sim A primeira diferença da primeira diferença - ou seja, a mudança na mudança de Y no período t Assim, a segunda diferença de Y no período t é igual a Y t - Y t-1 - Y t-1 - Y T-2 Y t-2Y t-1 Y t-2 Uma segunda diferença de uma função discreta é analogou S para uma segunda derivada de uma função contínua mede a aceleração ou curvatura na função em um determinado ponto no tempo. O modelo ARIMA 0,2,2 sem constante prevê que a segunda diferença da série é igual a uma função linear da última Dois erros de previsão. que podem ser rearranjados como. quando 1 e 2 são os coeficientes MA 1 e MA 2 Este é um modelo de alisamento exponencial linear geral essencialmente o mesmo que o modelo de Holt s eo modelo de Brown s um caso especial Ele usa ponderação exponencial Médias móveis para estimar um nível local e uma tendência local na série As previsões de longo prazo deste modelo convergem para uma linha reta cuja inclinação depende da tendência média observada no final da série. ARIMA 1,1,2 sem Este modelo é ilustrado nos slides acompanhantes em modelos ARIMA extrapola a tendência local no final da série, mas aplaina-lo em horizontes de previsão mais longos para introduzir um Ote do conservadorismo, uma prática que tem suporte empírico Veja o artigo sobre Por que a Tendência de Damped trabalha por Gardner e McKenzie eo artigo da regra de ouro por Armstrong et al para detalhes. É geralmente aconselhável ficar com modelos em que pelo menos um de p E q não é maior do que 1, ou seja, não tente encaixar um modelo como o ARIMA 2,1,2, uma vez que isso é susceptível de levar a problemas de overfitting e de fatores comuns que são discutidos com mais detalhes nas notas sobre a matemática Estrutura de modelos ARIMA. Implementação de folha de cálculo Modelos ARIMA como os descritos acima são fáceis de implementar em uma planilha A equação de predição é simplesmente uma equação linear que se refere a valores passados de séries de tempo originais e valores passados dos erros Assim, você pode configurar Uma planilha de previsões ARIMA armazenando os dados na coluna A, a fórmula de previsão na coluna B e os dados de erros menos as previsões na coluna C A fórmula de previsão em uma célula típica na coluna B seria simplesmente um expressio linear N referindo-se a valores nas linhas precedentes das colunas A e C, multiplicados pelos coeficientes AR ou MA apropriados armazenados em outras células na planilha. Média Móvel Médio Progressivo ARMA p, q Modelos para Análise de Série de Tempo - Parte 3.Esta é a terceira e Post final na mini-série sobre modelos de média móvel ARREA Autoregressive para análise de séries de tempo Nós introduzimos modelos autorregressivos e modelos de média móvel nos dois artigos anteriores Agora é hora de combiná-los para produzir um modelo mais sofisticado. Em última análise, isso nos levará Para os modelos ARIMA e GARCH que nos permitirão prever retornos de ativos e previsão de volatilidade. Esses modelos formam a base para sinais de negociação e técnicas de gerenciamento de risco. Se você já leu Parte 1 e Parte 2 você terá visto que tendemos a seguir um Padrão para a nossa análise de um modelo de série de tempo eu vou repeti-lo brevemente here. Rationale - Por que estamos interessados neste modelo particular. Definição - Uma definição matemática para reduzir ambig. Correlograma - Traçando um correlogram da amostra para visualizar um behaviour dos modelos. Simulação e ajuste - Adaptando o modelo às simulações, a fim assegurar-se nós ve entendido o modelo corretamente. Dados financeiros reativos - Aplicar o modelo aos preços reais dos ativos históricos. Previsão de valores subseqüentes para construir sinais de negociação ou filters. In para seguir este artigo é aconselhável dar uma olhada nos artigos anteriores sobre análise de séries de tempo Eles podem ser encontrados aqui. Bayesian Information Criterion. In Parte 1 deste artigo série nós Olhou para o Akaike Critério de Informação AIC como um meio de nos ajudar a escolher entre melhores modelos de séries temporais diferentes. Uma ferramenta estreitamente relacionada é o Bayesian Information Criterion BIC Essencialmente, tem um comportamento semelhante ao AIC em que penaliza os modelos por ter muitos parâmetros Isso Pode conduzir a overfitting A diferença entre o BIC e AIC é que o BIC é mais rigoroso com a sua penalização de parâmetros adicionais. Bayesian Infor Se tomarmos a função de verossimilhança para um modelo estatístico, que tem k parâmetros, e L maximizar a probabilidade, então o critério de informação bayesiano é dado por. Onde n é o número de pontos de dados na série de tempo. Nós estaremos usando O AIC e BIC abaixo ao escolher ARMA adequada p, q models. Ljung-Box Test. In Parte 1 deste artigo série Rajan mencionado no Disqus comentários que o teste Ljung-Box foi mais apropriado do que usando o Akaike Critério de Informação do Bayesiano Critério de informação para decidir se um modelo ARMA foi um bom ajuste para uma série temporal. O teste Ljung-Box é um teste de hipóteses clássico que é projetado para testar se um conjunto de autocorrelações de um modelo de série de tempo ajustado diferem significativamente de zero O teste faz Não testar cada atraso individual para aleatoriedade, mas sim testa a aleatoriedade sobre um grupo de lags. Ljung-Box Test. We definir a hipótese nula como Os dados da série de tempo em cada lag são iid que é, as correlações Entre os valores da série de população são zero. Definimos a hipótese alternativa como Os dados da série de tempo não são iid e possuem correlação serial. Nós calculamos a seguinte estatística de teste Q. Quando n é o comprimento da amostra de série de tempo, o chapéu k é a amostra A autocorrelação a lag k eh é o número de defasagens no teste. A regra de decisão sobre se rejeitar a hipótese nula é verificar se Q chi 2, para uma distribuição de qui-quadrado com h graus de liberdade no 100 1- Alfa percentil. Enquanto os detalhes do teste pode parecer um pouco complexo, podemos de fato usar R para calcular o teste para nós, simplificando o procedimento um pouco. A média móvel movediça ARMA Modelos de ordem p, q. Now que nós discutimos a BIC e o teste de Ljung-Box, estamos prontos para discutir o nosso primeiro modelo misto, ou seja, a Média Móvel Autoregressiva de ordem p, q, ou ARMA p, q. Até à data, consideramos processos autorregressivos e processos de média móvel. Considera seu próprio pa Como o impulso e a reversão média na negociação de ações. O último modelo é usado para caracterizar a informação de choque em uma série, como um anúncio de ganhos surpresa ou evento inesperado Tais como o derramamento de óleo BP Deepwater Horizon. Portanto, um modelo ARMA tenta capturar ambos estes aspectos ao modelar séries de tempo financeiro. Note que um modelo ARMA não leva em conta a volatilidade clustering, um fenômeno empírico chave de muitas séries de tempo financeiro Não é um modelo condicionalmente heteroscedástico Para isso teremos de esperar pelos modelos ARCH e GARCH. O modelo ARMA p, q é uma combinação linear de dois modelos lineares e, portanto, é ainda linear. Médio Movente Médio Progressivo de ordem p, qA Modelo de série temporal, é um modelo de média móvel autorregressiva de ordem p, q ARMA p, q, if. Begin xt alpha1 x alfa2 x ldots wt beta1 w beta2 w ldots betaq w end. Where é ruído branco com E wt 0 e variância sigma 2.If consideramos o operador de mudança para trás ver um artigo anterior, em seguida, podemos reescrever o acima como uma função Theta e phi de. Podemos ver diretamente que, ao definir p neq 0 e q 0, recuperamos o modelo AR p Similarmente, se colocarmos p 0 e q neq 0, recuperamos o modelo MA q. Uma das principais características do modelo ARMA É que é parcimonioso e redundante em seus parâmetros. Ou seja, um modelo ARMA geralmente requer menos parâmetros do que um modelo AR p ou MA q sozinho. Além disso, se reescrevemos a equação em termos do BSO, então os polinômios theta e phi podem Às vezes compartilham um fator comum, conduzindo assim a um modelo mais simples. Simulações e Correlograms. As com os modelos autorregressive e média movente nós simularemos agora várias séries de ARMA e tentamos caber modelos de ARMA a estas realizações Eu levo isto para fora porque eu quero Assegurar que entendamos O procedimento de montagem, incluindo como calcular intervalos de confiança para os modelos, bem como garantir que o procedimento realmente recuperar estimativas razoáveis para os parâmetros ARMA original. Na Parte 1 e Parte 2 construímos manualmente as séries AR e MA por desenho N amostras A partir de uma distribuição normal e, em seguida, elaborar o modelo de série de tempo específico usando atrasos dessas amostras. No entanto, há uma maneira mais simples de simular AR, MA, ARMA e ARIMA dados, simplesmente usando o método em R. Vamos começar com O modelo mais simples possível ARMA não-trivial, ou seja, o modelo ARMA 1,1 Ou seja, um modelo autorregressivo de ordem um combinado com um modelo de média móvel de ordem um tal modelo tem apenas dois coeficientes, alfa e beta, que representam a primeira Atrasos da série de tempo em si e os termos de ruído de choque branco tal modelo é dado por. Precisamos especificar os coeficientes antes da simulação Vamos tomar alpha 0 5 e beta -0 5. A saída é a seguinte. F um modelo ARMA 1,1, com alfa 0 5 e beta 0 5. Vamos também traçar o correlograma. Correlograma de um modelo ARMA 1,1, com alfa 0 5 e beta 0 5. Podemos ver que não há significância Autocorrelação, o que é de esperar de um modelo ARMA 1,1. Finalmente, vamos tentar determinar os coeficientes e seus erros padrão usando a função arima. Podemos calcular os intervalos de confiança para cada parâmetro usando os erros padrão. Os intervalos de confiança Conter os verdadeiros valores dos parâmetros para ambos os casos, no entanto, devemos notar que os 95 intervalos de confiança são uma consequência muito grande dos erros padrão razoavelmente grandes. Vamos agora tentar um modelo ARMA 2,2 Ou seja, um modelo de AR 2 combinado com Um modelo MA 2 Precisamos especificar quatro parâmetros para este modelo alfa1, alfa2, beta1 e beta2 Vamos tomar alpha1 0 5, alpha2 -025 beta1 0 5 e beta2 -0 3. A saída do nosso modelo ARMA 2,2 é Como segue. Realisation de um modelo ARMA 2,2, com alfa1 0 5, alfa2 -025, beta1 0 5 e beta2 - 0 3.E a autocorelação correspondente. Correlograma de um modelo ARMA 2,2, com alfa1 0 5, alpha2 -025, beta1 0 5 e beta2 -0 3. Agora podemos tentar ajustar um modelo ARMA 2,2 para os dados . Podemos também calcular os intervalos de confiança para cada parâmetro. Observe que os intervalos de confiança para os coeficientes para a componente média móvel beta1 e beta2 não contêm realmente o valor original do parâmetro. Isto delineia o perigo de tentar ajustar os modelos aos dados, mesmo quando Sabemos que os valores dos parâmetros verdadeiros. No entanto, para fins de negociação só precisamos ter um poder preditivo que excede o acaso e produz lucro suficiente acima dos custos de transação, a fim de ser rentável no longo prazo. Agora que temos visto alguns exemplos de simulados ARMA modelos que precisamos de mecanismo para escolher os valores de p e q ao se ajustar aos modelos de dados financeiros reais. Choosing o melhor ARMA p, q Model. In para determinar qual a ordem p, q do modelo ARMA é apropriado para uma série , Precisamos usar o AIC ou BIC através de um subconjunto de valores para p, q e, em seguida, aplicar o teste Ljung-Box para determinar se um bom ajuste foi alcançado, para valores particulares de p, q. Para mostrar este método vamos simular em primeiro lugar um Em particular ARMA p, processo q Vamos então loop sobre todos os pares valores de p em eq em e calcular o AIC Vamos selecionar o modelo com o menor AIC e, em seguida, executar um teste Ljung-Box sobre os resíduos para determinar se temos conseguido Um bom ajuste. Vamos começar simulando uma série ARMA 3,2. Vamos agora criar um final de objeto para armazenar o melhor ajuste de modelo eo menor valor de AIC Nós loop sobre as várias combinações p, q e usar o objeto atual para armazenar o Ajuste de um modelo ARMA i, j para as variáveis de loop i e j. Se o AIC atual for menor que qualquer AIC previamente calculado, nós definimos o AIC final para este valor atual e selecionamos essa ordem. Ao término do loop, temos a ordem Do modelo ARMA armazenado e o ARIMA p, d, q encaixa-se com o componente d integrado ajustado para 0 armazenado como. Let s saída AIC, ordem e ARIMA coeficientes. Podemos ver que a ordem original do modelo ARMA simulado foi recuperado, nomeadamente com p 3 e q 2 Podemos traçar o corelograma dos resíduos do modelo para ver Se eles parecem uma realização de discreto ruído branco DWN. Correlograma dos resíduos do melhor ajuste ARMA p, q Modelo, p 3 e q 2.O corelograma realmente parece uma realização de DWN Finalmente, realizamos a Ljung-Box Teste para 20 defasagens para confirmar isso. Observe que o valor de p é maior que 0 05, que afirma que os resíduos são independentes no nível 95 e, portanto, um ARMA 3,2 modelo fornece um ajuste bom modelo. Claramente, este deve ser o No entanto, este é precisamente o procedimento que vamos usar quando chegarmos a ajustar ARMA p, q modelos para o índice S P500 na seção seguinte. Financial Data. Now que nós já delineou o procedimento para a escolha O modelo de série de tempo ideal para uma série simulada, é rather strai Ghtforward para aplicá-lo aos dados financeiros Para este exemplo vamos escolher mais uma vez o S P500 US Equity Index. Vamos fazer o download dos preços de fechamento diários usando o quantmod e, em seguida, criar o log retorna stream. Let s executar o mesmo procedimento de montagem como para A série simétrica ARMA 3,2 acima no log retorna série do S P500 usando o modelo AIC. The melhor ajuste tem ordem ARMA 3,3.Let s traçar os resíduos do modelo ajustado para o S P500 log diário retorna fluxo. Correlograma dos resíduos do melhor ajuste ARMA p, q Modelo, p 3 e q 3, para o S P500 diário log retorna stream. Notice que existem alguns picos significativos, especialmente em maior atraso Isso é indicativo de um ajuste pobre Let s Execute um teste de Ljung-Box para ver se temos evidências estatísticas para isso. Como suspeitamos, o valor p é menor que 0 05 e, como tal, não podemos dizer que os resíduos são uma realização de ruído branco discreto. Portanto, há autocorrelação adicional Nos resíduos que não é explicado pelo Modelo ARMA 3,3 ajustado. Como vimos tudo ao longo desta série de artigos, vimos evidências de agrupamento de volatilidade de heterocedasticidade condicional na série S P500, especialmente nos períodos em torno de 2007-2008 Quando usamos um modelo GARCH mais tarde no artigo Nós veremos como eliminar essas autocorrelações. Na prática, os modelos ARMA nunca são geralmente bons ajustes para retornar log equities Nós precisamos levar em conta a heterocedasticidade condicional e usar uma combinação de ARIMA e GARCH O próximo artigo irá considerar ARIMA e mostrar como O componente integrado difere do modelo de ARMA que nós temos considerado neste artigo. Começando com a negociação quantitativa. A média mensal movente ARRA p, q Modelos para a análise da série de tempo - parte 2. Na parte 1 nós consideramos o modelo autorregressivo da ordem p , Também conhecido como o modelo AR p Nós o introduzimos como uma extensão do modelo de caminhada aleatória, numa tentativa de explicar correlação serial adicional em tim financeiro E. Entretanto, percebemos que não era suficientemente flexível para realmente capturar toda a autocorrelação nos preços de fechamento da Amazon Inc AMZN eo S P500 US Equity Index A principal razão para isso é que ambos esses ativos são condicionalmente heteroskedastic o que significa Que não são estacionários e têm períodos de variação variável ou agrupamento de volatilidade, o que não é levado em conta pelo modelo AR p. Em futuros artigos, acabaremos por construir até os modelos ARIMA ARREMAR, Heteroskedastic das famílias ARCH e GARCH Estes modelos nos fornecerão nossas primeiras tentativas realistas de prever os preços dos ativos. Neste artigo, no entanto, vamos introduzir a Média Móvel do modelo de ordem q, conhecido como MA q Este é um componente Do modelo ARMA mais geral e, como tal, precisamos compreendê-lo antes de avançar. Eu recomendo que você leia os artigos anteriores no Time Series Anal Ysis coleção se você não tiver feito Eles podem ser encontrados aqui. Moving Médio MA Modelos de ordem qA Moving Average modelo é semelhante a um modelo Autoregressive, exceto que em vez de ser uma combinação linear de valores de séries temporais passado, é um linear Isto é em contraste com um modelo de AR p, onde os choques de ruído branco são vistos apenas indiretamente através de um modelo de AR. Regressão em termos anteriores da série. Uma diferença fundamental é que o modelo de MA só verá os últimos q choques para qualquer modelo MA q, enquanto que o modelo AR p terá todos os choques anteriores em conta, embora de uma forma decrescentemente fraca. Matematicamente, o MA q é um modelo de regressão linear e é similarmente estruturado para AR p. Moving Modelo Médio de ordem qA modelo de série de tempo, é um modelo de média móvel de ordem q MA q, if. Begin xt wt beta1 w ldots betaq w end. Where é ruído branco com E wt 0 e variância sigma 2.If consideramos o operador de mudança para trás ver um artigo anterior, então podemos reescrever o acima como uma função phi de. Começar xt 1 beta1 beta2 2 ldots betaq q wt phiq wt end. We fará uso da função phi em artigos posteriores. Segunda Ordem Properties. As com AR p a média de um processo de MA q é zero Isso é fácil de ver como o Média é simplesmente uma soma de meios de termos de ruído branco, que são todos eles mesmos zero. Begin text enspace mux E xt sum E wi 0 fim begin texto enspace sigma 2w 1 beta 21 ldots beta 2q final do texto enspace rhok esquerda q end right. Where beta0 1.We re agora vai gerar alguns dados simulados e usá-lo para criar correlogramms Isso fará com que a fórmula acima para rhok um pouco mais concreto. Simulações e Correlograms. Let s começar com um processo MA 1 Se definimos beta1 0 6 obtemos o seguinte modelo. Como com os modelos AR p no artigo anterior, podemos usar R Para simular tal série e traçar então o correlogram Desde que nós tivemos muita prática na série precedente do artigo da análise da série de tempo de realizar lotes, eu escreverei o código de R completamente, um pouco do que rachando ele acima. A saída é como Segue-se. Realização do modelo MA 1, com beta1 0 6 e Correlograma Associado. Como vimos acima na fórmula para rhok, para kq, todas as autocorrelações devem ser zero Desde q 1, deveríamos ver um pico significativo em k 1 e então insignificante No entanto, devido à amostragem Bias nós devemos esperar ver 5 picos marginalmente significativos em um gráfico de autocorrelação de amostra. Isto é precisamente o que o correlogram mostra-nos neste caso Temos um pico significativo em k 1 e, em seguida, picos insignificantes para k 1, exceto em k 4 onde temos Um pico marginalmente significativo. Na verdade, esta é uma maneira útil de ver se um modelo de MA q é apropriado Ao dar uma olhada no correlograma de uma série particular, podemos ver quantos atrasos seqüenciais não-zero existem Se q tais lags existem então Podemos legitimamente tentar caber um modelo de MA q para uma série particular. Desde que temos provas de nossos dados simulados de um processo de MA 1, vamos agora tentar e ajustar um modelo MA 1 para os nossos dados simulados Infelizmente, não há Um comando ma equivalente ao comando ar de modelo autorregressivo em R. Instead, devemos usar o comando arima mais geral e definir os componentes auto-regressivos e integrados a zero Fazemos isso criando um 3-vetor e definindo os dois primeiros componentes o autogressivo a Nd parâmetros integrados, respectivamente a zero. Recebemos alguma saída útil do comando arima Primeiro, podemos ver que o parâmetro foi estimado como hat 0 602, que é muito perto do valor verdadeiro de beta1 0 6 Em segundo lugar, os erros-padrão São calculados para nós, tornando simples calcular os intervalos de confiança Em terceiro lugar, recebemos uma variância estimada, log-verossimilhança e Critério de Informação Akaike necessário para a comparação de modelos. A principal diferença entre arima e ar é que arima estima um termo de interceptação porque ele faz Não subtrair o valor médio da série Portanto, precisamos ter cuidado ao realizar previsões usando o comando arima Vamos voltar a este ponto mais tarde. Como uma rápida verificação, vamos calcular os intervalos de confiança para hat. We pode ver que o 95 Intervalo de confiança contém o verdadeiro valor de parâmetro de beta1 0 6 e assim podemos julgar o modelo um bom ajuste Obviamente, isso deve ser esperado desde que nós simulamos os dados no primeiro Lugar. Como as coisas mudam se modificarmos o sinal de beta1 para -0 6 Vamos fazer a mesma análise. A saída é a seguinte. Realização do modelo MA 1, com beta1 -0 6 e Correlograma Associado. Podemos ver que a K 1 temos um pico significativo no correlograma, exceto que ele mostra correlação negativa, como d d esperar de um modelo MA 1 com primeiro coeficiente negativo Mais uma vez todos os picos além k 1 são insignificantes Vamos ajustar um modelo MA 1 e estimar o parâmetro. Hat -0 730, o que é uma pequena subestimação de beta1 -0 6 Finalmente, vamos calcular o intervalo de confiança. Podemos ver que o verdadeiro valor de parâmetro de beta1 -06 está contido dentro do intervalo de confiança de 95, fornecendo evidências de Um bom ajuste de modelo. Vamos executar o mesmo procedimento para um processo de MA 3. Desta vez, devemos esperar picos significativos em k, e picos insignificantes para k 3. Vamos usar os seguintes coeficientes beta1 0 6, beta2 0 4 E beta3 0 2 Vamos simular um processo MA 3 a partir deste modelo Ive aumentou o número de amostras aleatórias para 1000 nesta simulação, o que torna mais fácil ver a verdadeira estrutura de autocorrelação, à custa de tornar a série original mais difícil de interpretar. A saída é a seguinte. Realização do modelo MA 3 e correlograma associado. Como esperado os três primeiros picos são significativos No entanto, assim é o quarto Mas podemos legitimamente sugerem que isso pode ser devido ao viés de amostragem como esperamos ver 5 de Os picos sendo sinal Ificant além de k q. Vamos agora ajustar um modelo MA 3 aos dados para tentar estimar parâmetros. As estimativas hat 0 544, hat 0 345 e hat 0 298 estão próximas dos valores verdadeiros de beta1 0 6, beta 2 0 4 e Beta3 0 3, respectivamente Podemos também produzir intervalos de confiança usando os respectivos erros padrão. Em cada caso, os 95 intervalos de confiança contêm o verdadeiro valor do parâmetro e podemos concluir que temos um bom ajuste com o nosso modelo MA 3, como seria de se esperar. Dados Financeiros. Na Parte 1, consideramos Amazon Inc AMZN eo S P500 US Equity Index Nós ajustamos o modelo AR p para ambos e descobrimos que o modelo foi incapaz de capturar efetivamente a complexidade da correlação serial, especialmente no elenco do S P500, onde os efeitos de longa memória parecem estar presentes. Eu não vou traçar os gráficos novamente para os preços e autocorrelação, em vez disso eu vou referir-lo para o post anterior. Amazon Inc AMZN. Let s começar por tentar ajustar uma seleção de MA q modelos para AMZN, ou seja, com q em como na parte 1, vamos usar q Uantmod para baixar os preços diários para AMZN e depois convertê-los em um log retorna fluxo de fechar prices. Now que temos o log retorna fluxo podemos usar o comando arima para ajustar MA 1, MA 2 e MA 3 modelos e, em seguida, estimar o Parâmetros de cada Para MA 1 temos. Podemos traçar os resíduos do log diário retorna e o modelo ajustado. Residuals de MA 1 modelo ajustado para AMZN Daily Log Preços. Notice que temos alguns picos significativos em lags k 2, k 11, k 16 e k 18, indicando que o modelo MA 1 é improvável que seja um bom ajuste para o comportamento do log AMZN retorna, uma vez que isso não parece uma realização de ruído branco. Vamos tentar um modelo MA 2. Ambas as estimativas para os coeficientes beta são negativas Let s plotar os resíduos uma vez mais. Resíduos de MA 2 modelo ajustado para AMZN Diário Log Preços. Podemos ver que há quase zero autocorrelação nos primeiros poucos retardos No entanto, temos cinco marginalmente Picos significativos nos retornos k 12, k 16, k 19, k 25 e k 27 Este é su Ggestive que o modelo MA 2 está capturando um monte de autocorrelação, mas não todos os efeitos de memória longa Como sobre um modelo de MA 3.Uma vez mais, podemos traçar o residuals. Residuals de MA 3 modelo ajustado para AMZN Daily Log Preços O gráfico de MA 3 residual parece quase idêntico ao do modelo MA 2 Isso não é surpreendente, como estamos acrescentando um novo parâmetro para um modelo que aparentemente explicou muito das correlações em defasagens mais curtas, mas que não terá muito De um efeito nos retornos a mais longo prazo. Todas essas evidências são sugestivas do fato de que um modelo de MA q provavelmente não será útil para explicar toda a correlação serial isoladamente, pelo menos para AMZN. Se você se lembrar, na Parte 1 nós Viu que a primeira ordem diferenciada diária log retorna estrutura do S P500 possuía muitos picos significativos em vários desfasamentos, tanto curto como longo Isso forneceu evidências de heterocedasticidade condicional, ou seja, agrupamento de volatilidade e efeitos de memória longa. Conclui-se que o AR p Mo Del foi insuficiente para capturar toda a autocorrelação presente. Como vimos acima do modelo de MA q foi insuficiente para capturar correlação serial adicional nos resíduos do modelo ajustado para a série de preços de log diária diferenciada de primeira ordem Vamos agora tentar ajustar a MA q modelo para o S P500.One pode perguntar por que estamos fazendo isso é se sabemos que é improvável que seja um bom ajuste Esta é uma boa pergunta A resposta é que precisamos ver exatamente como ele não é bom ajuste, Porque este é o processo final que iremos seguir quando nos depararmos com modelos muito mais sofisticados, que são potencialmente mais difíceis de interpretar. Vamos começar obtendo os dados e convertendo-os em uma série de primeira ordem diferenciada de logaritmicamente transformados preços de fechamento diários como em O artigo anterior. Agora vamos montar um MA 1, MA 2 e MA 3 modelo para a série, como fizemos acima para AMZN Vamos começar com MA 1. Vamos fazer um gráfico dos resíduos deste modelo equipado. Residuais de MA 1 Modelo Fi O primeiro pico significativo ocorre em k 2, mas há muitos mais em k em. Esta não é claramente uma percepção de ruído branco e por isso devemos rejeitar o modelo MA 1 como um potencial bom ajuste para o S P500.Does a situação melhorar com MA 2.Once novamente, vamos s fazer um lote dos resíduos deste modelo equipado MA 2.Residuals de MA 2 modelo equipado para S P500 diário Log Prices. While o pico em k 2 desapareceu Como esperamos, ainda estamos com os picos significativos em muitos intervalos mais longos nos resíduos Uma vez mais, encontramos o modelo MA 2 não é um bom ajuste. Devemos esperar, para o modelo MA 3, ver menos correlação serial Em k 3 do que para o MA 2, mas mais uma vez também devemos esperar nenhuma redução em mais lags. Finalmente, vamos fazer um gráfico dos resíduos deste modelo equipado MA 3.Residuals de MA 3 modelo equipado para S P500 Diário Log Isto é precisamente o que vemos no correlograma dos resíduos. Assim, o MA 3, como com os outros modelos acima, não é Ta bom ajuste para o S P500. Agora examinamos dois modelos principais de séries de tempo em detalhe, a saber, o modelo Autogressivo de ordem p, AR p e então Média Móvel de ordem q, MA q Vimos que eles são ambos capazes de explicar Afastando parte da autocorrelação nos resíduos de primeira ordem diferem diariamente os preços dos logs de ações e índices, mas a volatilidade de clusters e os efeitos de memória longa persistem. É finalmente o momento de voltar nossa atenção para a combinação desses dois modelos, a Autoregressive Moving Média da ordem p, q, ARMA p, q para ver se ele vai melhorar a situação qualquer further. However, vamos ter que esperar até que o próximo artigo para uma discussão completa. Apenas Começando com Quantitative Trading.
No comments:
Post a Comment