Tác giả
Đơn vị công tác
1Đại học Mỏ-Địa Chất,
2Đại học Nông lâm Thái Nguyên,
3Trung tâm Thông tin và Dữ liệu khí tượng thủy văn,
4Học viện Kỹ thuật quân sự
Tóm tắt
Dữ liệu mực nước (water level) tại các trạm trên sông hiện nay chủ yếu được thu thập bằng phương pháp quan trắc thủ công với tần suất thu thập khác nhau tùy thuộc vào từng thời điểm trong năm. Các dữ liệu này cần phải được làm sạch để loại bỏ các điểm bất thường (Outliers), các giá trị thiếu (Missing values), chuẩn hóa về dạng chuỗi thời gian (Time series)…. Trong nội dung của bài báo này, nhóm tác giả sẽ chỉ ra hiện trạng của dữ liệu mực nước thu thập được tại trạm 74129 - Yên Bái trong giai đoạn 9 năm từ 01/01/2011 đến 31/12/2019; Đây là các dữ liệu thực tế, được cung cấp bởi Trung tâm thông tin và Dữ liệu khí tượng thủy văn. Trên cơ sở hiện trạng của tập dữ liệu này, sẽ tiến hành thực nghiệm các phương pháp làm sạch dữ liệu để loại bỏ ngoại lai, thay thế giá trị thiếu bằng phương pháp nội suy và chuẩn hóa dữ liệu về dạng chuỗi thời gian với khoảng thời gian cách đều nhau 3h. Dữ liệu sau khi đã được chuẩn hóa, làm sạch, đảm bảo tính đầy đủ và độ tin cậy sẽ là yếu tố quyết định tới độ chính xác của các mô hình dự đoán, dự báo.
Từ khóa
Trích dẫn bài báo
Đặng Văn Nam, Hoàng Quý Nhân, Ngô Văn Mạnh, Nguyễn Thị Hiền (2020), Các phương pháp chuẩn hóa dữ liệu thủy văn áp dụng cho trạm 74129 - Yên Bái. Tạp chí Khsi tượng Thủy văn, 714, 18-29.
Tài liệu tham khảo
1. Tiêu chuẩn quốc gia (2019), TCVN 12636-2:2019 “Quan trắc khí tượng thủy văn-Phần 2: Quan trắc mực nước và nhiệt độ nước sông”.
2. Shumway, R.H., Stoffer, D.S. (2017), Time Series Analysis and Its Applications: With R Examples. Cham, Switzerland: Springer, 562 p.
3. Brockwell, P.J., Davis, R.A. (2016), Introduction to Time Series and Forecasting. Basel, Switzerland: Springer.
4. Box, G.E., Jenkins, G.M., Reinsel, G.C., Ljung, G.M. (2015), Time Series Analysis: Forecasting and Control. Hoboken, NJ, USA: Wiley.
5. Wang, X., Wang, C. (2019), Time Series Data Cleaning: A Survey, IEEE Access, 1866-1881.
6. Song, S., Cao, Y., Wang, J. (2016), Cleaning timestamps with temporal constraints. Proc. PVLDB, 9 (10), 708-719.
7. Aggarwal, C.C. (2017), Outlier Analysis, Springer International Publishing AG, New York.
8. Akouemo, H.N., Povinelli, R.J. (2014), Time series outlier detection and imputation. 2014 IEEE PES General Meeting | Conference & Exposition. Doi:10.1109/pesgm.2014.6939802.
9. Ranga Suri, N.N.R., Murty, N.M, Athithan, G. (2018), Outlier Detection: Techniques and Applications, IJCSI International Journal of Computer Science Issues, 9 (1), 307-323.
10. Munzer, T. (2014), Visualization Analysis and Design, CRC Press, 428 p.
11. Đặng Văn Nam, Nông Thị Oanh, Ngô Văn Mạnh, Nguyễn Xuân Hoài, Nguyễn Thị Hiền (2020), Phát hiện và xử lý ngoại lai cho dữ liệu nhiệt độ tại các trạm quan trắc 3h của Việt Nam. Tạp chí Khoa học Kỹ thuật Mỏ - Địa chất, 61 (1), 132-146.
12. Zhang, A., Song, S., Wang, J., Yu, P.S. (2017), Time series data cleaning: From anomaly detection to anomaly repairing. Proc. VLDB Endownment, 10 (10), 1046-1057.
13. Choi, J., Dekkers, O.M., le Cessie, S. (2018), A comparison of different methods to handle missing data in the context of propensity score analysis. European Journal of Epidemiology, 34 (1), 23-36.
14. Bonander, C., Strömberg, U. (2018), Methods to handle missing values and missing individuals. European Journal of Epidemiology, 34, 5-7.
15. Erdogan KAYA. Spline Interpolation Techniques. Journal of Technical Science and Technologies, 2 (1), 47-52.
16. Ajao, I.O., Ibraheem, A.G., Ayoola, F.J. (2012), Cubic spline interpolation: A robust method of disaggregating annual data to quarterly series. Journal of Physical Sciens and Environmental Safety, 2 (1), 1-8.