Nghiên cứu ứng dụng thuật toán nhận dạng cấu trúc bảng dựa trên phát hiện đối tượng

Tải file PDF

DOI: 10.36335/VNJHM.2021(727).1-12 988 Lượt tải 1146 Lượt xem 0 Lượt trích dẫn

Tác giả

Ngô Đại Dương ¹ , Hải Hồng Phan ^1* , Phạm Lê Phương ²

Đơn vị công tác

¹ Học Viện Kỹ thuật Quân Sự; hongpth@lqdtu.edu.vn; daiduong28789@hotmail.com

² Trung tâm Thông tin và Dữ liệu KTTV; phuongpl80@gmail.com

*Tác giả liên hệ: hongpth@lqdtu.edu.vn; Tel: +84–372576968

Tóm tắt

Nhận dạng cấu trúc bảng là vấn đề quan trọng trong số hóa tài liệu. Với sự phát triển của các kỹ thuật học sâu hiện nay việc phát hiện bảng đã có nhiều bước tiến lớn, trong khi đó nhận dạng cấu trúc bảng vẫn gặp rất nhiều khó khăn do cấu trúc bảng phức tạp, đặc biệt với dữ liệu thực tế. Bài báo này đề xuất một phương pháp ứng dụng mô hình Cascade mask R–CNN x101FPN deconv để nhận dạng hàng và cột. Bài báo cũng đề xuất sử dụng mô hình Faster R–CNN để nhận dạng các ô trong bảng, từ đó đưa ra cấu trúc bảng. Thuật toán đề xuất được đánh giá trên tập dữ liệu phổ biến như TabStructDB và các tài liệu thu thập được từ các trạm Khí tượng thủy văn. Kết quả thực nghiệm đạt 90% độ chính xác trên các tập dữ liệu này. Thuật toán có khả năng áp dụng hiệu quả vào việc nhận dạng cấu trúc bảng của các tài liệu thông thường; đặc biệt thuật toán có khả năng xử lý với các tài liệu lịch sử và các chữ viết tay, phù hợp với đặc điểm tài liệu của ngành Khí tượng thủy văn. Từ đó góp phần vào việc số hóa tài liệu, lưu trữ và truy xuất thông tin dữ liệu của ngành Khí tượng thủy văn.

Từ khóa

Nhận dạng cấu trúc bảng; Nhận dạng ô; Khí tượng thủy văn.

Trích dẫn bài báo

Dương, N.Đ.; Phan, H.H.; Phương, P.L. Nghiên cứu ứng dụng thuật toán nhận dạng cấu trúc bảng dựa trên phát hiện đối tượng. Tạp chí Khí tượng Thủy văn 2021, 727, 1-12.

Tài liệu tham khảo

1. Pyreddy, P.; Croft, W.B. Tinti: A system for retrieval in text tables title2. Technical report, USA, 1997.

2. Schreiber, S.; Agne, S.; Wolf, I.; Dengel, A.; Ahmed, S. DeepDeSRT: deep learning for detection and structure recognition of tables in document images. Proceeding of the14th IAPR International Conference on Document Analysis and Recognition (ICDAR), 2017.

3. Ren, S.; He, K.; Girshick, R.; Sun, J. Faster R–CNN: Towards real–time object detection with region proposal networks. IEEE Trans. Pattern Anal. Mach. Intell. 2015, 39, 1137–1149.

4. Dai, J.; Li, Y.; He, K.; Sun, J. R–FCN: Object detection via region–based fully convolutional networks. Proceeding of the 30th Conference on Neural Information Processing Systems (NIPS 2016), Barcelona, Spain, 2016, 379–387.

5. Marmot Dataset. Institute of Computer Science and Techonology of Peking University and Institute of Digital Publishing of Founder R&D Center, China, http://www.icst.pku.edu.cn/cpdp/data/ marmot_data.htm, 2010.

6. Göbel, M.; Hassan, T.; Oro, E.; Orsi, G. ICDAR 2013 Table Competition. Proceeding of the 12th International Conference on Document Analysis and Recognition, 2013, 1449–1453.

7. Siddiqui, S.A.; Fateh, I.A.; Rizvi, S.T.R.; Dengel, A.; Ahmed, S. DeepTabStR: Deep Learning based Table Structure Recognition. International Conference on Document Analysis and Recognition (ICDAR), 2019, 1403–1409.

8. Prasad, D.; Gadpal, A.; Kapadni, K.; Visave, M.; Sultanpure, K. CascadeTabNet: An approach for end to end table detection and structure recognition from image–based documents. IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2020.

9. Gao, G.; Huang, Y.; Dejean, H.; Meunier, J.; Yan, Q.; Fang, Y.; Kleber, F.; Lang, E. Icdar 2019 competition on table detection and recognition (ctdar). International Conference on Document Analysis and Recognition (ICDAR), 2019, 1510–1515.

10. Li, M.; Cui, L.; Huang, S.; Wei, F.; Zhou, M.; Li, Z. Tablebank: Table benchmark for image–based table detection and recognition. Proceedings of the 12th Conference on Language Resources and Evaluation, 2020, 1918–1925.

11. Girshick, R.; Donahue, J.; Darrell, T.; Malik, J. Rich feature hierarchies for accurate object detection and semantic segmentation. Proceedings of the IEEE conference on computer vision and pattern recognition, 2014. ISBN:978-1-4799-5118-5.

12. Girshick, R. Fast R–CNN. Proceedings of the IEEE international conference on computer vision, 2015.

13. He, K.; Gkioxari, G.; Dollar, P.; Girshick, R. Mask r–cnn. ICCV. IEEE 2017, 2980–2988.

14. Cai, Z.; Vasconcelos, N. Cascade R–CNN: high quality object detection and instance segmentation. IEEE Trans. Pattern Anal. Mach. Intell. 2019, 43, 1483–1498.

15. Dai, J.; Qi, H.; Xiong, Y.; Li, Y.; Zhang, G.; Hu, H.; Wei, Y. Deformable convolutional networks. IEEE International Conference on Computer Vision (ICCV) 2017, 1, pp. 1-3.

16. He, K.; Zhang, X.; Ren, S.; Sun, J. Deep residual learning for image recognition. Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, 770–778.

17. Lin, T.; Dollár, P.; Girshick, R.; He, K.; Hariharan, B.; Belongie, S. Feature Pyramid Networks for Object Detection. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, 936–944, doi: 10.1109/CVPR.2017.106.

18. Lin, T.Y.; Maire, M.; Belongie, S.; Hays, J.; Perona, P.; Ramanan, D.; Dollár, P.; Zitnick, C.L. Microsoft coco: Common objects in context. In: Fleet D., Pajdla T., Schiele B., Tuytelaars T. (eds) Computer Vision – ECCV 2014. ECCV 2014. Lecture Notes in Computer Science, vol 8693. Springer, Cham. 2014, pp. 740–755. https://doi.org/10.1007/978-3-319-10602-1_48.

19. Rezatofighi, H.; Tsoi, N.; Gwak, J.Y.; Sadeghian, A.; Reid, I.; Savarese, S. Generalized intersection over union: A metric and a loss for bounding box regression. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 658–666.

20. Chen, K.; Wang, J.; Pang, J.; Cao, Y.; Xiong, Y.; Li, X.; Sun, S.; Feng, W.; Liu, Z.; Xu, J.; Zhang, Z.; Cheng, D.; Zhu, C.; Cheng, T.; Zhao, Q.; Li, B.; Lu, X.; Zhu, R.; Wu, Y.; Dai, J.; Wang, J.; Shi, J.; Ouyang, W.; Loy, C.C.; Lin, D. Mmdetection: Open MMLab detection toolbox and benchmark. CoRR, abs/1906.07155, 2019.

Thông tin

Năm xuất bản	1956 - 2025
Tổng số bài báo	3,618
Tổng số trích dẫn	948
h5-index	51
Impact Factor	1.83
Lượt Tải về	1,965,179
Lượt xem	2,652,738
Lượt Tải về/Bài báo	543.17
Lượt trích dẫn/Bài báo	0.26

Người dùng

Đăng nhập Đăng ký

Tìm kiếm bài báo

Bài báo xem nhiều nhất

Đánh giá tác động của mưa trái mùa đến nguồn nước trên các sông chính ở Tây Nguyên

Đánh giá hiệu quả của các công trình kè giảm sóng tại bờ biển Tây tỉnh Cà Mau

Đặc điểm khí hậu tỉnh An Giang

Một số nhận định ban đầu về nguyên nhân gây mất ổn định bờ sông ở huyện Châu Thành tỉnh Hậu Giang

So sánh phân bố lý thuyết RAYLEIGH theo sóng quan trắc tại vùng biển vịnh Nghi Sơn, tỉnh Thanh Hóa

Nghiên cứu phân vùng khí hậu Tây Nguyên

Đánh giá thực trạng xử lý dầu vỏ hạt điều tại Việt Nam và đề xuất qui trình công nghệ tích hợp công nghệ IoT sản xuất dầu vỏ hạt điều tinh chế

Tự động dò tìm bộ thông số tối ưu của mô hình thuỷ văn HEC–HMS bằng thuật toán SCE–UA

Đào tạo nguồn nhân lực du lịch chất lượng cao trong xu thế hội nhập và cuộc cách mạng công nghiệp 4.0

Nghiên cứu phương pháp xác định hạt vi nhựa trong môi trường trầm tích bãi triều ven biển, áp dụng thử nghiệm tại xã Đa Lộc, huyện Hậu Lộc, tỉnh Thanh Hóa