AI 技術讓古籍數字化回歸:AI識別20萬頁古籍 準確率達97.5%
5月18日,一批珍藏于加州大學伯克利分校的中文古籍善本,以數字化方式回歸故土,落地漢典重光古籍平臺 。借助阿里達摩院的技術,首批20萬頁古籍已完成數字化,并沉淀為覆蓋3萬多字的古籍字典,公眾可通過漢典重光平臺翻閱、檢索古籍 。據悉,達摩院AI對20萬頁古籍的識別準確率達到97.5% 。
文章圖片
“漢典重光”項目由阿里巴巴公益基金會、四川大學、美國加州大學伯克利分校、中國國家圖書館、浙江圖書館合作開展,旨在尋覓流散海外的中國古籍并將其數字化、公共化,讓普通人也能親近古籍,通過古籍與先賢對話,與優秀傳統文化對話 。
古籍數字化嘗試由來已久,但難度大、成本高 。古籍文字字類多、字體多樣,外加流傳過程中出現的各類損壞,使得識別難度極高 。由于缺乏充足的訓練數據,常規OCR識別方法高度依賴人工,幾乎需要專業人員逐字標注,導致古籍數字化無法形成規模效應,總體進程緩慢 。
2019年,阿里巴巴和四川大學提出“數字化回歸”設想,四川大學歷史文化學院王果副院長與該院教授、中央文史研究館館員陳力牽線搭橋,溝通北美、歐洲、日韓等地藏書機構,獲得加州大學伯克利分校支持,達成共識,將伯克利東亞圖書館的中文古籍善本逐步數字化 。
據了解,常規的古籍數字化完整流程分為幾大環節:采集側(紙質書變為電子掃描版)-數字化生產側(電子掃描版變為文字版)-應用側(文字版變為古籍研學系統,涵蓋檢索、字典、知識圖譜等功能) 。
而達摩院所做的工作,主要集中于數字化生產側、應用側兩個環節 。在數字化生產側,達摩院自研了一套全新的AI古籍識別系統,可以規模化、系統化對電子掃描版古籍進行識別 。
達摩院團隊通過調研發現,既有技術存在較大瓶頸,AI的古籍識別能力未能達到業界認可的標準,且始終高度依賴人工標注、人工校驗 。人工成本已成阻礙古籍數字化的重要原因,今天很難找到眾多識得古籍文字的專家來開展浩繁的人工錄入和檢校工程 。因此,中文古籍數字化的技術進展一直比較緩慢 。
在此之前,達摩院沉淀了完整的OCR技術能力,主要用于解決現代場景中的文字識別需求,比如文檔、卡證、表單等識別 。而古籍識別與現代場景的文字識別存在巨大差異,在現代場景下識別準確率超過99%的算法,應用到古籍識別上識別率不足40% 。
達摩院視覺實驗室負責人徐盈輝介紹,基于上述原因,達摩院的識別技術并沒有走傳統OCR的模式,即做行檢測、列檢測,反而是做單字識別 。
達摩院技術團隊與四川大學專家聯手研發了一套全新的古籍識別系統 。利用單字檢測、無監督單字聚類、小樣本學習、主動學習等機器學習方法,構造了一套邊識別古籍、邊訓練模型的系統,在首批數字化的20萬頁古籍上,達到了97.5%的識別準確率,AI現已能夠識別3萬類古籍文字 。這套人機交互的識別方案,其效率比人工錄入效率提升近30倍,并且大大降低了對錄入人員的專業要求 。
徐盈輝介紹,通過視覺手段,讓機器學習到單字,字和字之間的差異 。通過這種技術手段,解決了字的聚合問題,解決了字的聚合問題以后,再由四川大學的古籍專家,包括老師帶的古籍界的學生們一起幫助做識別檢查,同時把專家的建議注入到系統里面 。“我們構建一套先基礎感知模塊去進行單字表征,單字表征以后做單字聚合,做完單字聚合以后,再由我們古籍專家跟我們系統發生交互,來告訴我們什么做對了,什么做錯了 。這個反饋的信息會到我們后臺,再進一步的去更新我們的表征模型,我們再會產生相應的單字聚合結果,再回饋給我們的古籍專家,形成這樣一個閉環的工作模式 。”徐盈輝說道 。
【AI|技術讓古籍數字化回歸:AI識別20萬頁古籍 準確率達97.5%】目前,首批20萬頁古籍已完成數字化,并沉淀為覆蓋3萬多字的古籍字典,公眾可通過漢典重光平臺翻閱、檢索古籍 。
在中央文史研究館館員、四川大學教授陳力看來,古籍數字化對于原件、文物價值本身也是一種很好的保護 。作為一個開放平臺,漢典重光能夠為學者提供一個研究平臺,同時為普通大眾提供一個學習的平臺 。陳力說道:“這才是讓古籍真正活起來,既能為研究者所使用,也能為我們的普通大眾所使用,它對于文化傳承來說,意義是十分大的 。”
推薦閱讀
- 伺服 “窩工”技術又雙叒叕助力中國“太空首單”
- 研制 好消息中國航空航天技術飛速進步,有望徹底打破西方壟斷
- 通信技術 輪值董事長徐直軍:華為2009年已開始研究5G
- 無限挑戰 直接讓明星去坐牢?韓國這檔綜藝實在太猛,我們沒辦法模仿
- 馬伯騫 《心動4》回歸,楊超越首次缺席錄制,這兩位女星加盟卻讓人炸鍋
- 廣電 胡可曬安吉小魚兒上跑男,網友:廣電又讓未成年人上節目了?
- 紅包 兩人的感情真好!《創4》龔俊透露張哲瀚發紅包讓他給吳宇恒撐腰
- 魏彩英 風云四號B星今日成功發射!實現三大技術突破,有效提升我國天氣預警能力
- AMD AMD FSR技術被挑出毛病:極限質量下仍有肉眼可見畫面損失
- 發射 相比較嫦娥4號來說,英稱這顆衛星更具威脅,美方希望公開技術!
