2023 年 11 月 2 日 第 14期
5. 新訊及活動速遞

 資料探勘、數據可視化及故事敘述:運用深度學習技術分析The Hongkong News報章標題
 使用ABBYY、VGG模型和Yolov5創建歷史報紙相冊



資料探勘、數據可視化及故事敘述:運用深度學習技術分析The Hongkong News報章標題

現今學者通過數碼人文工具掌握了更多的研究方法。他們可以瀏覽互動時間軸、分析大量數碼文本、或透過報章標題來解構歷史事件。本研究著重歷史事件在時間、空間上的敘述。通過數據可視化技術,標註跟報章標題相關的歷史地點,並通過時間軸重現歷史時序。今次研究結果將會發表於Archiving 2023的國際會議論文集。

本研究介紹從歷史報章中提取標題、圖像的方法,通過不同的故事敘述方法以支援數碼學術研究。由於The Hongkong News 具有獨特日佔時期的歷史價值,故此作為是次案例研究的對象。


本研究評估兩種資料提取的方法,分別是(一) OCR(光學字符識別)及資料探勘及(二)深度學習目標檢測模型。我們運用上述提取的資料,合共開發兩項數碼可視化工具的方法以展示在數碼故事敘述方面的可行性。

產品展示  
時間軸可視化 地理數據可視化


相關連結:
 


 



使用ABBYY、VGG模型和Yolov5創建歷史報紙相冊

《香港早期小報》於2022年推出,收錄了二十世紀初香港出版的小報。與普通報刊相比,小報以大眾休閒娛樂市場為主,題材涵蓋政治、小說、戲曲、戲劇、漫畫、色情等。

本次研究選取的《娛樂之音》是以娛樂內容為主的小報,當中包含電影、粵劇內容,並附有大量的插圖。我們的團隊提出一種利用計算機視覺及深度學習的創新方法來構建數碼圖像相冊,並通過歷史報紙中的圖像講述故事。該研究結果會發表於2023年IEEE第六屆模式識別與人工智能國際會議論文集。

我們期望創建一系列數碼網上圖像相冊,當中的圖像皆是從報紙中自動檢測、提取和分類出來的。我們對不同模型的準確性進行了評估和比對,包括 ABBYY(商業軟件)、VGG nls-chapbook模型(基於EfficientDet的模型工具)及Yolov5(深度學習的目標檢測模型)。隨後,我們將提取的圖像分類,並為當中的人物建立個別的數碼相冊。





相關連結:

 

返回
目錄
1. 館長的話
2. 大學校史館重開
3. 館藏焦點 — 霍克思特藏
4. 館藏掇萃
5. 新訊及活動速遞
6. 認識新館員
7. 你知道嗎
8. 聯絡我們
 

過去通訊