Em
analise de dados
, um
correlograma
e uma imagem da estatistica da
correlacao
. Em analise de
series temporais
, por exemplo, um correlograma, tambem conhecido como
diagrama de autocorrelacao
, e um diagrama das autocorrelacoes da amostra
versus
(os intervalos de tempo).
Se a
relacao cruzada
for usada, o resultado e chamado de correlograma cruzado. O correlograma e uma ferramenta comumente usado para checar a
aleatoriedade
de um
conjunto de dados
. Esta aleatoriedade e verificada ao computar autocorrelacoes para valores de dados em intervalo de tempo variantes. Em caso de aleatoriedade, tais autocorrelacoes devem ser proximas de zero para quaisquer e todas as separacoes de intervalo de tempo. Em caso de nao aleatoriedade, entao uma ou mais autocorrelacoes devem ser significantemente diferentes de zero.
Alem disso, correlogramas sao usados no estagio da
identificacao de modelo
para os modelos de serie temporal
autorregressivos de medias moveis
de Box-Jenkins. Autocorrelacoes devem ser proximas de zero para aleatoriedade. Se o analista nao verificar a aleatoriedade, entao, a validade de muitas conclusoes estatisticas se torna suspeita. O correlograma e uma forma adequada de checar tal aleatoriedade.
Por vezes,
corgramas
, matrizes coloridas de forcas de correlacao em analise multivariada,
[
1
]
tambem sao chamados de correlogramas.
[
2
]
[
3
]
O correlograma pode ajudar a fornecer respostas para as seguintes questoes:
[
4
]
- Os dados sao aleatorios?
- A observacao esta relacionada a uma observacao adjacente?
- A observacao esta relacionada a uma observacao duplamente removida?
- A serie temporal observada e
ruido branco
?
- A serie temporal observada e
senoide
?
- A serie temporal observada e autorregressiva?
- Qual e o modelo apropriado para a serie temporal observada?
- O modelo
e valido e suficiente?
- A formula
e valida?
O estimador de covariancia nao centrada e dado pela media do produto de amostras que se encontram a distancia de
:
[
5
]
Para obter o estimador centrado, e necessario subtrair o produto das medias das amostras que se encontrem nos pares distanciados por
:
em que
e
A partir da covariancia, podemos calcular o correlograma:
Dado que a covariancia tem relacao direta com o variograma, em que
e o patamar,
tambem o correlograma tem relacao direta com a variancia
- .
A aleatoriedade, ao lado do modelo fixo, da variacao fixa e da distribuicao fixa, e um dos quatro pressupostos que subjazem tipicamente todos os processos de mensuracao. O pressuposto da aleatoriedade e criticamente importante por tres razoes:
[
4
]
- A maioria dos
testes estatisticos
padrao depende de aleatoriedade. A validade das conclusoes dos testes e diretamente ligada a validade do pressuposto de aleatoriedade.
- Muitas formulas estatisticas comumente usadas dependem do pressuposto de aleatoriedade, sendo a mais comum destas a formula que determina o
desvio padrao
da media amostral:
- em que
e o desvio padrao dos dados. Ainda que amplamente usada, os resultados do uso desta formula nao tem valor a nao ser que o pressuposto de aleatoriedade se aplique.
- Para dados univariados, o modelo padrao e
- Se os dados nao forem aleatorios, este modelo e incorreto e invalido e os valores estimados para tais parametros (tal como a constante) se tornam invalidos e desprovidos de sentido.
O coeficiente de autocorrelacao no intervalo
e dado por
em que
e a funcao autocovariancia
e
e a funcao variancia
O valor resultante de
estara entre
e
.
[
6
]
Algumas fontes podem usar a seguinte formula para a funcao autocovariancia:
Ainda que esta definicao tenha menos
vies
, a formulacao
tem algumas propriedades estatisticas desejaveis e e a forma mais comumente usada em literatura estatistica.
[
7
]
No mesmo grafo, e possivel definir limites superiores e inferiores para autocorrelacao com
nivel de significancia
:
com
como a autocorrelacao estimada no intervalo
.
Se a autocorrelacao for maior do que o limite superior ou menor do que o limite inferior, a
hipotese nula
de que nao ha autocorrelacao em e alem de um dado intervalo e rejeitada ao nivel de significancia
. O teste e de tipo aproximado e assume que a serie temporal e gaussiana.
[
6
]
Na descricao acima,
e o quantil da
distribuicao normal
,
e o desvio padrao, que pode ser computado pela formula de M. S. Bartlett para processos
:
- para
Na imagem acima, e possivel rejeitar a hipotese nula de que nao ha autocorrelacao entre os pontos de tempos que sao adjacentes (intervalo igual a 1). Para outros periodos, nao e possivel rejeitar a hipotese nula de nenhuma autocorrelacao.
Note que ha duas formulas distintas para gerar os
intervalos de confianca
:
- 1. Se o correlograma estiver sendo usando para testar aleatoriedade, isto e, ver se nao ha dependencia de tempo nos dados, a seguinte formula e recomendada:
- em que
e o tamanho da amostra,
e a funcao quantil da distribuicao normal padrao e
e o nivel de significancia. Neste caso, os intervalos de confianca tem amplitude fixa que depende do tamanho da amostra.
- 2. Correlogramas tambem sao usados no estagio de identificacao de modelo para ajuste de
modelos autorregressivos integrados de media movel
. Neste caso, um modelo de media movel e pressuposto para os dados e os seguintes intervalos de confianca devem ser gerados:
- em que
e o intervalo. Neste caso, os intervalos de confianca aumentam conforme o intervalo aumenta.
- ↑
Friendly, Michael (1 de novembro de 2002).
≪Corrgrams≫
.
The American Statistician
.
56
(4): 316?324.
ISSN
0003-1305
.
doi
:
10.1198/000313002533
- ↑
Wright, Kevin.
≪Plot a Correlogram [R package corrgram version 1.12]≫
- ↑
robk@statmethods.net, Robert Kabacoff -.
≪Quick-R: Correlograms≫
.
www.statmethods.net
. Consultado em 18 de julho de 2017
- ↑
a
b
Hanke, John E.; Wichern, Dean W. (12 de fevereiro de 2014).
Business Forecasting
(em ingles). [S.l.]: Pearson Higher Ed.
ISBN
9780133796087
- ↑
Soares, Amilcar.
Geoestatistica para as ciencias da terra e do ambiente
. [S.l.]: Instituto Superior.
ISBN
9789728469467
- ↑
a
b
Box, George E. P.; Jenkins, Gwilym M. (1976).
Time series analysis: forecasting and control
(em ingles). [S.l.]: Holden-Day.
ISBN
9780816211043
- ↑
Chatfield, Chris (30 de marco de 2016).
The Analysis of Time Series: An Introduction, Sixth Edition
(em ingles). [S.l.]: CRC Press.
ISBN
9780203491683