Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.88 MB, 63 trang )
Hình 3.3. Biểu diễn thay đổi chuỗi thời gian theo từng khoảng thời gian
- Thành phần mùa (thời vụ): để chỉ chiều hướng tăng hay giảm của giá trị y được
tính theo giai đoạn thời gian (khoảng thời gian ngắn). Ví dụ: số lượng trẻ em mắc các
bệnh về hơ hấp tăng lên vào dịp cao điểm rét đậm, rét hại ở nước ta.
Hình 3.4. Biểu diễn chu kỳ chuỗi thời gian
- Thành phần chu kì (dài hạn): biểu thị bằng sự tăng, giảm của dữ liệu chuỗi thời
gian xoay quanh xu hướng. Thường trong chuỗi dữ liệu dài hạn thì khó đốn chu kì.
- Thành phần ngẫu nhiên: Đây là thành phần ngược với chu kỳ, thành phần ngẫu
nhiên chỉ sự thay đổi bất thường của giá trị trong chuỗi thời gian và thường khơng dự
đốn được sự thay đổi của dữ liệu. Những tác động gây ra sự thay đổi dữ liệu thường
do các yếu tố bên ngoài tác động.
Hình 3.5. Sơ đồ chuỗi thời gian với định lượng 𝐘(𝐭) theo diễn biến thời gian t
20
Với sơ đồ Hình 3.5 ta có Yt là giá trị định lượng trên chuỗi thời gian được tính tại
thời điểm t, qua đó ta có thể xác định được các mơ hình sau:
- Mơ hình cộng: 𝑌𝑡 = 𝑇𝑡 + 𝑆𝑡 + 𝐶𝑡 + 𝐼𝑡 .
(3.1)
- Mơ hình nhân: 𝑌𝑡 = 𝑇𝑡 𝑆𝑡 𝐶𝑡 𝐼𝑡 .
(3.2)
Trong đó: T là thành phần xu hướng (Trend); S là thành phần mùa (Seasonality); C
là thành phần chu kỳ (Cyclical); I là thành phần ngẫu nhiên (Irregular).
Mơ hình nhân được sử dụng nhiều hơn. Nếu thành phần chu kỳ và mùa không ảnh
hưởng đến mức chung của chuỗi thời gian thì nên sử dụng mơ hình cộng, ngược lại mơ
hình nhân được sử dụng nếu thành phần mùa phụ thuộc xu hướng và chu kỳ.
3.2. Tính dừng của dữ liệu chuỗi thời gian
Dữ liệu chuỗi thời gian có thể được tạo ra từ một q trình và kết quả của nó là tập
dữ liệu theo thời gian. Q trình đó, sinh ra một tập dữ liệu tổng thể và một tập hợp dữ
liệu con được trích xuất từ tập dữ liệu tổng thể đó gọi là một tập dữ liệu mẫu. Một tính
chất quan trọng của dữ liệu chuỗi thời gian là tính dừng [4]. Một chuỗi giá trị trên thời
gian t là Yt được coi là dừng khi kỳ vọng, phương sai và hiệp phương sai ở các độ trễ
khác nhau giữ nguyên theo diễn biến thời gian [4]. Chuỗi Yt được coi là dừng khi thỏa
mãn:
- 𝐸(𝑌𝑡 ) = 𝜇(∀𝑡).
(3.3)
- 𝑉𝑎𝑟(𝑌𝑡 ) = 𝐸 (𝑌𝑡 − 𝜇)2 = 𝜎 2 (∀𝑡).
(3.4)
- 𝐶𝑜𝑣 (𝑌𝑡 , 𝑌𝑡+𝑘 ) = 𝐸 [(𝑌𝑡+𝑘 − 𝜇)(𝑌𝑡 − 𝜇)] = 𝑌𝑘 (∀𝑡 ).
(3.5)
hiệp phương sai giữa Yt và Yt + k không phụ thuộc thời gian t mà phụ thuộc độ trễ
thời gian k giữa hai thời đoạn.
3.2.1. Kiểm tra tính dừng chuỗi thời gian
3.2.1.1. Kiểm tra trực quan trên trên đồ thị biểu diễn chuỗi thời gian
Chuỗi yt, nếu đồ thị 𝑌 = 𝑓(𝑡) cho trung bình và phương sai của Yt khơng đổi theo
thời gian thì chuỗi có tính dừng. Quan sát đồ thị chuỗi dữ liệu thời gian nếu thấy trung
bình có xu hướng tăng hoặc giảm theo từng khoảng thời gian thì có thể dự đốn rằng
chuỗi là không dừng. Phương pháp này giúp ta đánh giá trực quan, ban đầu về tính
dừng của chuỗi thời gian. Tuy nhiên, với những chuỗi thời gian có xu hướng khơng rõ
ràng, phương pháp này khó khả thi và kết quả kiểm tra đôi khi không đúng.
3.2.1.2. Kiểm tra dựa trên sơ đồ tự tương quan và tự tương quan riêng phần
3.2.1.2.1. Sơ đồ tự tương quan ACF (Autocorelation Function)
Sử dụng dùng hàm tự tương quan ACF, trong đó: độ trễ k ký hiệu bằng ρk, xác định
bằng công thức như sau:
21
𝐴𝐶𝐹 (𝑘 ) = 𝑝𝑘
𝑐𝑜𝑣(𝑌𝑡, 𝑌𝑡−𝑘)
𝑉𝑎𝑟(𝑌𝑡)
(3.6)
Giá trị ρk có giá trị từ -1 đến 1, là hệ số tương quan giữa Yt và Yt-k. Hàm tự tương
quan đo lường sự phụ thuộc tuyến tính giữa các cặp quan sát Yt và Yt-k . Ví dụ: ρ1 là hệ
số tương quan giữa Yt và Yt-1, ρi là hệ số tương quan giữa Yt và Yt-i... Nếu vẽ đồ thị ρk
với độ trễ k, đồ thị này sẽ cho ra một lược đồ tương quan ACF.
3.2.1.2.2. Sơ đồ tự tương quan riêng phần PACF (Partial Autocorrelation
Function)
Ta có hệ số tự tương quan ρk với 𝑘 ≥ 2, cho thấy sự kết hợp tuyến tính giữa Yt và
Yt+k. Tuy vậy, mức độ kết hợp tuyến tính giữa chúng có thể do tác động của một số
biến khác. Trong trường hợp này là do ảnh hưởng từ các biến Yt-1, …, Yt-k+1. Do vậy,
ta sử dụng hàm tương quan PACF để đo độ kết hợp giữa Yt và Yt-k , với hệ số tương
quan riêng ρkk ước lượng theo công thức Durbin:
𝑃𝐴𝐶𝐹 (𝑘 ) = 𝑝𝑘𝑘 =
𝑝𝑘 − ∑𝑘−1
𝑗=1 𝑝𝑘−1 𝑗 𝑝
𝑘−𝑗
𝑘−1
1 − ∑𝑗=1 𝑝𝑘−1 𝑗 𝑝
𝑗
(3.7)
Hệ số tương quan riêng phần thể hiện mối quan hệ giữa hai biến khi tất cả những
biến khác giữ nguyên giá trị. Nếu chuỗi dừng thì các kk cũng có phân phối chuẩn
𝑁(0, 1⁄𝑛), do đó kiểm định giả thiết đối với ρkk tương tự như đối với ρk.
3.2.2. Biến đổi chuỗi không dừng thành chuỗi dừng
Với chuỗi thời gian ban đầu khơng có tính dừng, trước khi xây dựng mơ hình
ARIMA ta phải biến chuỗi thành có tính dừng, phương pháp là lấy sai phân cấp d với
d = 1 hoặc d = 2,...
Ta có cơng thức: 𝑌𝑡 = 𝑌𝑡−1 + 𝑢𝑡 , giá trị ut là nhiễu trắng.
Ta có cơng thức sai phân cấp 1 của yt như sau: 𝐷 (𝑌𝑡 ) = 𝑌𝑡 − 𝑌𝑡−1 = 𝑢𝑡 , trong đó
với ut là nhiễu trắng nên 𝐷(𝑌𝑡 ) là chuỗi dừng.
Nếu lấy sai phân cấp 1 chuỗi thời gian Yt nhưng chưa cho kết quả là chuỗi dừng thì
tiếp tục lấy sai phân cấp 2, 3… Có thể nói, ln có một giá trị d để sai phân cấp d của
Yt là chuỗi dừng. Khi đó, Yt là liên kết bậc d, ký hiệu là I(d). Sai phân của cấp d được
tính như sau:
+ Cấp 1: 𝐷 (𝑌𝑡 ) = 𝑌𝑡 − 𝑌𝑡−1
(3.8)
+ Cấp 2: 𝐷(𝐷 (𝑌𝑡 )) = 𝐷 2 (𝑌𝑡 ) = (𝑌𝑡 − 𝑌𝑡−1 ) − (𝑌𝑡−1 −𝑌𝑡−2 )
(3.9)
+ Tương tự như vậy với sai phân cấp d: 𝐷(𝐷 𝑑−1 (𝑌𝑡 ))
(3.10)
Nếu yt ở dạng logarit thì giá trị 𝐷(𝑌𝑡 ) là phần trăm thay đổi của yt so với trước đó.
3.3. Mơ hình ARIMA
22
3.3.1. Mơ hình tự hồi quy AR (Autoregressive process)
Ý tưởng mơ hình AR(p) là hồi quy số liệu của nó trong quá khứ ở những chu kì
trước.
𝑌𝑡 = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑎2 𝑌𝑡−2 + ⋯ + 𝑎𝑝 𝑌𝑡−𝑝 + 𝑢𝑡 ;
(3.11)
trong đó:
Yt : quan sát dừng hiện tại;
Yt-1, Yt-2,...: là quan sát dừng ở thời điểm trong quá khứ;
a0, a1, a2, …: các tham số phân tích hồi quy;
ut : sai số dự báo ngẫu nhiên của giai đoạn hiện tại, với ut giá trị trung bình được
mong đợi bằng 0.
Hàm tuyến tính Yt là của chuỗi quan sát dừng những thời điểm trong quá khứ: Yt-1,
Yt-2…
Khi phân tích hồi quy Yt theo các giá trị trong chuỗi thời gian, chuỗi dừng có độ
trễ, chúng ta sẽ được mơ hình AR. Số quan sát dừng ở các thời điểm quá khứ được sử
dụng trong mơ hình tự hồi quy là bậc p của mơ hình AR. Nếu sử dụng 2 quan sát dừng
ở quá khứ, ta có mơ hình tương quan bậc hai AR(2).
- Mơ hình AR(1) : 𝑌𝑡 = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑢𝑡
(3.12)
- Mơ hình AR(2) : 𝑌𝑡 = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑎2 𝑌𝑡−2 + 𝑢𝑡
(3.13)
3.3.2. Mơ hình trung bình trượt MA (Moving Average)
Hàm tuyến tính yt phụ thuộc vào các biến sai số dự báo quá khứ và hiện tại. Mơ
hình trung bình trượt là một trung bình trọng số của những sai số mới nhất.
𝑌𝑡 = 𝑏0 + 𝑢𝑡 + 𝑏1 𝑢𝑡−1 + 𝑏2 𝑢𝑡−2 + ⋯ + 𝑏𝑞 𝑢𝑡−𝑞
(3.14)
trong đó:
Yt : quan sát dừng hiện tại;
ut : sai số dự báo;
ut-1, ut-2,... : sai số dự báo quá khứ;
b0, b1, b2,... : giá trị trung bình của yt và các hệ số bình quân di động;
q : là bậc của MA.
- Mơ hình MA(1) : 𝑌𝑡 = 𝑏0 + 𝑢𝑡 + 𝑏1 𝑢𝑡−1
(3.15)
- Mơ hình MA(2) : 𝑌𝑡 = 𝑏0 + 𝑢𝑡 + 𝑏1 𝑢𝑡−1 + 𝑏2 𝑢𝑡−2
(3.16)
3.3.3. Mơ hình trung bình trượt và tự hồi quy ARMA (Autoregressive Moving
Average)
23
Để biểu diễn sơ đồ Y không chỉ riêng AR hoặc MA mà có thể kết hợp cả hai, sự
kết hợp ta được mơ hình ARMA, còn gọi là mơ hình trung bình trượt tự hồi quy.
Yt là q trình ARMA(1, 1) nếu Y có thể biểu diễn dưới dạng:
Yt = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑢𝑡 + 𝑏0 + 𝑏1 𝑢𝑡−1 (u là nhiễu trắng)
(3.17)
Tóm lại, Yt là q trình ARMA (p, q) nếu Yt có thể biểu diễn dưới dạng:
Yt = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑎2 𝑌𝑡−2 + … + 𝑎𝑝 𝑌𝑡−𝑝 + 𝑢𝑡 + 𝑏0 + 𝑏1 𝑢𝑡−1 +
(3.18)
𝑏2 𝑢𝑡−2 + . . . + 𝑏𝑞 𝑢𝑡−𝑞
3.3.4. Mơ hình trung bình trượt tự hồi quy ARIMA (Autoregressive
Intergrated Moving Average)
Một chuỗi thời gian có thể tn theo nhiều mơ hình khác nhau. Tuy nhiên, cả ba
mơ hình AR, MA, ARMA đều u cầu chuỗi phải có tính dừng [4]. Nhưng thực tế có
nhiều chuỗi thời gian khơng có tính dừng. Vậy làm thế nào để áp dụng được các mơ
hình trong thực tế ? Câu trả lời ở đây là sử dụng phương pháp lấy sai phân biến đổi
một chuỗi không dừng thành chuỗi dừng, trước khi sử dụng mơ hình ARMA.
Nếu chuỗi Yt có đồng liên kết bậc d trên mơ hình ARMA (p, q) cho chuỗi sai phân
bậc d, thì chúng ta có mơ hình ARIMA (p, d, q). Với bậc tự hồi quy p, số lần lấy sai
phân d để chuỗi Yt được xác định là chuỗi dừng, bậc trung bình trượt q (p và q là bậc
tương ứng của chuỗi dừng).
- Trong mơ hình ARIMA (p, d, q), khi d = 0 và q = 0 thì ta có AR(p).
- Trong mơ hình ARIMA (p, d, q), khi d = 0 và p = 0 thì ta có MA(q).
- Với ARIMA(1,1,1) nghĩa là Yt có sai phân bậc 1 là một chuỗi dừng. Chuỗi sai
phân dừng này có thể biểu diễn dưới dạng ARMA (1,1).
∆𝑌𝑡 = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑎0 𝑢𝑡 + 𝑎1 𝑢𝑡−1 (u là nhiễu trắng)
(3.19)
Như vậy, xác định được các giá trị p, d, q ta sẽ mơ hình hóa được chuỗi ARIMA.
Ta thấy, mơ hình ARIMA chỉ sử dụng các giá trị trong quá khứ của chuỗi chứ không
dùng thêm biến độc lập khác.
3.3.5. Dự báo dữ liệu chuỗi thời gian
Dự báo chuỗi thời gian là phương pháp dự báo sử dụng các giá trị lịch sử của các
nhân tố chẳng hạn như giá và sản lượng, lạm phát, lợi nhuận trong quá khứ,… để dự
báo giá trị hiện tại hoặc dự báo sự thay đổi của giá trị hiện [4]. Gồm có loại dự báo
chính là dự báo định tính và dự báo định lượng. Chuỗi thời gian thuộc lớp dự báo định
lượng vì kết quả của mơ hình là một giá trị định lượng, nên được sử dụng khá phổ biến
trong nghiên cứu kinh tế học như GDP, lạm phát, tăng trường hay nghiên cứu giá cả
thị trường. Trong loại hình này một vài nguyên tắc dự báo cơ bản thường được dùng là
AR, MA,…
24
Phương pháp Box-Jenkins được xem là một trong những kỹ thuật có hiệu quả cao
trong việc đưa ra các dự báo chính xác và có độ tin cậy cao. Sức mạnh của nó là ở chỗ
nó đưa ra những thơng tin giúp nhà phân tích chuỗi thời gian lựa chọn mơ hình phù
hợp với dữ liệu quan sát được. Đối với các phương pháp khác, nhà phân tích giả thiết
một mơ hình nào đó rồi tiến hành ước lượng các tham số của mơ hình. Trong giai đoạn
đầu tiên, ta nhận dạng một mơ hình thử nghiệm bằng cách so sánh các hàm tự tương
quan mẫu và tự tương quan riêng phần mẫu của chuỗi thời gian dừng với các hàm tự
tương quan và tự tương quan riêng lí thuyết của các mơ hình ARMA.
ARIMA là một mơ hình dự báo phổ biến và linh hoạt sử dụng dữ liệu trong quá
khứ để đưa ra các dự báo [7]. Loại mơ hình này là một kỹ thuật dự báo cơ bản có thể
được sử dụng làm nền tảng cho các mơ hình phức tạp hơn. Dựa vào những đặc điểm
đó, trong phần thực nghiệm học viên quyết định sử dụng mơ hình ARIMA để thực
nghiệm trên tập dữ liệu chuỗi thời gian.
Các bước chính trong phương pháp Box‐Jenkins:
Bước 1: Nhận dạng mơ hình
Dữ liệu q khứ được sử dụng để nhận dạng thử một mơ hình ARIMA thích hợp.
Bước 2: Ước lượng mơ hình
Dữ liệu q khứ được sử dụng để ước lượng các tham số của mô hình thử nghiệm.
Bước 3: Kiểm tra dự đốn xem mơ hình có phù hợp
Các đánh giá khác nhau được dùng để kiểm tra sự thích hợp của mơ hình thử
nghiệm, và nếu cần thiết, gợi ý một mơ hình tốt hơn rồi sau đó mơ hình này lại được
xem như một mơ hình thử nghiệm mới.
Bước 4: Dự báo
Khi đã chọn được mơ hình cuối cùng, nó được sử dụng để dự báo các giá trị tương
lai của chuỗi thời gian.
25
Vẽ biểu đồ
chuỗi giá trị
Có
Nhận dang mơ
hình
Là chuỗi dừng?
Khơng
Lấy sai phân của
chuỗi
Ước lượng mơ
hình
Mơ hình
có phù hợp?
Khơng
Điều chỉnh mơ
hình
Có
Dự báo
Hình 3.6. Các bước chính trong phương pháp Box‐Jenkins
Trên thực tế, nhiều chuỗi thời gian có thể được biểu diễn bằng những mơ hình đơn
giản. Mơ hình với số tham số thường được ưa chuộng hơn. Thông thường đối với các
mô hình ARMA(p, q) ta chỉ cần xét p ≤ 2 và/hoặc q ≤ 2. Có thể cải thiện việc biểu
diễn mơ hình bằng cách sử dụng một phép biến đổi dữ liệu gốc phù hợp. Dữ liệu đã
được biến đổi, nếu chưa có tính dừng, sẽ được sai phân hóa cho đến khi đạt được tính
dừng bởi vì ta bắt buộc phải làm việc với chuỗi thời gian dừng.
Tóm tắt chương 3
Chương 3 đã đi sâu chi tiết phân tích các đặc điểm chuỗi dữ liệu chuỗi thời gian, và
dựa vào đặc điểm của dữ liệu chuỗi thời gian đã đưa ra lựa chọn mơ hình phân tích
phù hợp ARIMA.
Chương 4 học viên tiến hành thực nghiệm tập dữ liệu dịch bệnh cúm do Google
Flu Trends công bố sử dụng R và dựa trên mơ hình ARIMA.
26
CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ
Hiện nay, có nhiều phương pháp ứng dụng trong việc khai phá, phân tích và dự
đốn xu hướng dữ liệu. Kéo theo đó là rất nhiều phần mềm hỗ trợ cho việc phân tích
và dự đốn dữ liệu. Luận văn này sử dụng phần mềm R để làm thực nghiệm trên tập
dữ liệu dịch cúm Google Flu Trends cơng bố.
4.1. Mơ hình thực nghiệm
Trong phần thực nghiệm này, với bộ dữ liệu liên quan đến dịch bệnh cúm như đã
đề cập ở trên, luận văn sẽ giới thiệu từng bước thực nghiệm sử dụng mơ hình ARIMA
và sử dụng R.
Mơ hình ARIMA phổ biến và linh hoạt trong lĩnh vực dự đốn bằng việc sử dụng
những thơng tin trong q khứ để đưa ra dự đốn. Loại mơ hình này là kỹ thuật dự
đốn cơ bản mà có thể được sử dụng giống như một nền tảng cho những mơ hình hồn
thiện hơn.
ARIMA cho hồi quy tự động được tích hợp trung bình trượt và được chỉ định bởi
thứ tự 3 tham số (p, d, q), tiến trình phù hợp mơ hình ARIMA là thỉnh thoảng được đề
cập tới giống như phương thức Box-Jenkins.
Một công cụ tự hồi quy (auto regressive - AR) hướng tới sử dụng những giá trị quá
khứ trong công thức hồi quy cho chuỗi Y, tham số tự hồi quy p chỉ định số lượng của
độ trễ được dùng trong mơ hình.
𝑌𝑡 = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑎2 𝑌𝑡−2 + ⋯ + 𝑎𝑝 𝑌𝑡−𝑝 + 𝑢𝑡
(4.2)
Một cơng cụ trung bình trượt (moving average - MA) nêu ra lỗi của mơ hình giống
như sự kết hợp thành phần lỗi trước đây et. Theo đó q xác định số lượng giới hạn gồm
có trong mơ hình.
𝑌𝑡 = 𝑏0 + 𝑒𝑡 + 𝑏1 𝑒𝑡−1 + 𝑏2 𝑒𝑡−2 + ⋯ + 𝑏𝑞 𝑒𝑡−𝑞
(4.3)
Mặt khác, tự hồi quy và cơng cụ trung bình trượt thể hiện một mơ hình ARIMA
theo mùa có thể được viết bằng sơ đồ tuyến tính:
𝑌𝑡 = 𝑎0 + 𝑎1 𝑌𝑡−1 + 𝑎2 𝑌𝑡−2 + … + 𝑎𝑝 𝑌𝑡−𝑝 + 𝑢𝑡 + 𝑏0 + 𝑏1 𝑢𝑡−1
(4.4)
+ 𝑏2 𝑢𝑡−2 + . . . + 𝑏𝑞 𝑢𝑡−𝑞
Lưu ý rằng mơ hình ở trên giả định chuỗi khơng theo mùa, có nghĩa là ta có thể cần
phải khơng hợp lý hóa chuỗi trước khi mơ hình hóa.
Mơ hình ARIMA có thể được chỉ định thơng qua cấu trúc mùa. Trong trường hợp
này, mơ hình được chỉ định với hai tập của tham số (p, d, q) giống như mô tả ở trên và
những tham số mô tả thành phần mùa m.
Phương pháp ARIMA có những hạn chế của nó. Những mơ hình này dựa trực
tiếp vào các giá trị trong quá khứ và hoạt động tốt nhất trên chuỗi dữ liệu dài và
27