論壇首頁
論壇導航
商家
汽車
招聘
裝修
昆山優(yōu)選
小紅娘
分類信息
二手房
昆山視窗

發(fā)帖回復

131739閱讀
9回復

[活動]當人工智能遇上“之乎者也” [復制鏈接]
掃描到手機
論壇小編教你如何掃二維碼

上一主題下一主題

離線電丁丁

級別: 論壇商家

發(fā)帖: 6

昆幣: 84 枚

只看樓主使用道具電梯直達查看指定樓層

樓主發(fā)表于: 2022-10-12 , 來自:江蘇省

中國是全球擁有古籍最多的國家,，國內現(xiàn)存漢文古籍300萬部，散居在海外的古籍超過40萬部,。然而,，紙質古籍損毀是不可逆轉的，雖然古籍原生性保護有很大改善,，“紙”的脆弱卻依然無法改變,，人們也并沒有太多機會接觸到艱澀難懂的古籍文本,。

不過在數(shù)字時代，這種情況正在發(fā)生變化,，古籍的“再生性”保護,，逐漸向數(shù)字化、平臺化,、智能化的方向發(fā)展,。當人工智能遇上“之乎者也”，會擦出怎樣的火花,？

━━━━━

人工智能改變古籍存續(xù)形式

“整理國故,，再造文明”，胡適在一百年前說,。國故也即是古籍,，古代的書，一般指1911年之前歷朝寫本,、刻本,、稿本、拓本等,。這些紙質文獻在悠悠歷史長河中其命運可謂顛沛流離,。紙質古籍損毀是不可逆轉的。如明代《永樂大典》,，永樂時期的原本已經(jīng)完全湮滅不見,，嘉靖重抄本11000冊現(xiàn)存不到5%。這樣的損失難以估量,。

哲學家羅素曾說：“中華文明是唯一的歷史文化從未間斷的文明,。”古籍作為中華文化的一支重要血脈,，便是文明未斷的依據(jù)之一,，今年，國家圖書館藏清宮“天祿琳瑯”歷時8年修復成功,，在標準的存藏條件下,，能保存200年。

盡管古籍原生性保護有很大改善,，但依然改變不了“紙”的脆弱,。2015年年初，位于莫斯科西南部的俄羅斯科學院社會科學信息研究所圖書館突發(fā)火災,，約有200萬冊文獻資料遭到損毀,。俄羅斯科學院院長稱“這是俄羅斯科學界的切爾諾貝利事件”。

在很多人的印象里，古籍文本往往艱澀難懂,，而且接觸機會不多,。但在數(shù)字時代，這種情況正在發(fā)生轉變,，目前數(shù)字化,、平臺化、智能化成為古籍“再生性”保護的方向,。在國外,，哈佛燕京圖書館和美國國會圖書館，已經(jīng)將他們收藏的中華古籍掃描完成,，并對外公開,。但它們僅僅是圖片掃描版，并未利用智能技術實現(xiàn)文本化,，無法復制粘貼,，只能服務于少數(shù)研究者。

國內較為有名的古籍智能平臺,，如“漢典重光”古籍平臺,，讓一批珍藏于加州大學伯克利分校的中文古籍善本,，以數(shù)字化的形式回歸,，該平臺涵蓋的古籍數(shù)量為20萬頁。再如浙江大學的“古籍智慧平臺”,，其利用OCR光學字符識別技術,，將圖片中的文字換成文本格式，它的識別準確率在90%以上,。

這些平臺有著各自的優(yōu)勢,，但也各有各的局限性，如網(wǎng)速慢,、智能化程度低,。比如“書同文古籍數(shù)據(jù)庫”收費較高，“中國哲學書”電子化計劃目前囊括了超過三萬部著作,，用戶卻常常無法正常訪問,。

今年3月，字節(jié)跳動與北京大學聯(lián)合成立“北大——字節(jié)數(shù)字人文開放實驗室”,，雙方協(xié)作研發(fā)推出古籍數(shù)字化平臺——識典古籍,。10月，識典古籍測試版已上線,，目前,，已整理上傳390本古籍經(jīng)典（均為四部叢刊書目），3000卷，3000多萬字,，預計在3年內將整理10000種古籍,，基本覆蓋儒家、道家和佛家的經(jīng)典書目,，對用戶免費開放,。

▲識典古籍平臺主頁面截圖

━━━━━

古籍是如何實現(xiàn)數(shù)字化的？

識典古籍有何技術特點,？項目負責人介紹,，識典古籍主要運用了三種技術，文字識別,、自動標點,、命名實體識別。

文字識別技術,，即使用OCR技術對古籍的影印版文字進行單個切分,、文字識別、順序識別,。所謂文字切分,，是指古籍掃描件中的單字檢測技術，能夠獲取每個字符的具體位置,；文字識別,，將切分的圖片送入文字識別模型，獲取每個文字的具體編碼,；順序識別,，結合文字內容和文字位置，獲取整張古籍掃描件的閱讀順序,。

▲古籍數(shù)字化過程視頻截圖

OCR的應用流程,，是用電子設備對紙本古籍進行掃描，內容轉錄到計算機中,，并生成相應的數(shù)字文檔,，效率與人工錄入不可同日而語。目前行業(yè)內OCR識別準確率平均為93%至94%,，識典古籍的準確率為96%至97%,。

自動標點技術，是通過序列標注的方式對古籍自動進行標點劃分,，支持“,，。,？,！,、：；”七種常用標點,。舉例來說,，“學而時習之不亦說乎”，自動標點后的結果是“學而時習之,，不亦說乎,？”命名實體識別，則是通過序列標注識別古籍文本中的命名實體,，支持識別人名,、地名、書籍,、時間,、官職這五種類型的實體。

▲自動標點技術解析視頻截圖

人工智能識別的工作完成后,，為了方便用戶閱讀,，整理平臺要進一步對成型的文本進行整理。

首先,，是對3%和4%錯誤率進行人工修改,，分出段落和標題，然后再賦予不同的格式,。而對于不同質量的古籍文獻,，整理標準不一，人力承擔著不同的職能,，大致流程為制定整理標準,、人工整理、審核,、上架，相關管理者是有古籍知識經(jīng)驗的北大團隊,。

其次,，是對用戶訪問數(shù)據(jù)進行統(tǒng)計。然后是資源管理的功能,，用戶可以更清晰地看到每本書的基礎信息,，具體內容，以及當前所處的整理狀態(tài),。

最后,，將古籍劃分等級，如經(jīng)典書目,、常讀書目,、基礎書目,，像《論語》這種經(jīng)典書目，對正確率,、標點和注釋的要求都較高,。負責人介紹，目前這些功能有的已經(jīng)成型,，有的還需要進一步增強,，古籍數(shù)字化并非易事。

━━━━━

古籍數(shù)字化的現(xiàn)實困境

中國是全球擁有古籍最多的國家,，國內現(xiàn)存漢文古籍300萬部,，散居在海外的古籍超過40萬部，它們依然面臨著衰朽,，而已完成數(shù)字化的古籍為7.4萬部,，數(shù)字化進程仍處于初步階段。

其中面臨幾大難點,。首先是部分古籍在數(shù)字化之前要先完成修復,，但古籍修復工序復雜，難以完全用科技手段,，且培養(yǎng)古籍修復人員需要極高的時間成本,。其次，花費高昂,，有專家估算,，如果將全國尚未數(shù)字化的古籍全部數(shù)字化，采集,、組織,、加工、存儲,、管理等費用大約需要60億元,。第三，技術難度高,，現(xiàn)有的數(shù)字化很多是由縮微膠片轉換而成,，呈黑白影像且分辨率較低，難以切實滿足讀者的需求,。

過去,，古籍內容轉化為數(shù)字文本主要依靠專家人工錄入，耗時費力,。北京大學數(shù)字人文研究中心主任王軍算過一筆賬：我國現(xiàn)存古籍約有20萬種,，從1949年到2019年，共修復整理出版了近38000種,，要將現(xiàn)存古籍全部修復整理出來,，可能需要三百年的時間,。若利用人工智能技術輔助修復整理，大概二三十年就能完成,。

相關負責人介紹說,，目前古籍的使用人數(shù)眾多，一些高校斥資買古籍數(shù)據(jù)庫,，但是訪問不是很方便,。建立數(shù)字化平臺，各類學科的專業(yè)人士能更容易查看古籍文獻,。一些潛在的古籍愛好者,，數(shù)字化平臺可將這部分用戶迅速連接起來。

目前,，識典古籍測試版的句讀錯誤率在3%到4%,，文字識別也有一定的錯誤率存在，影響閱讀體驗,。在人工智能機器學習一段時間后,，準確率將會提升到98%左右。

▲古籍修復師在工作

作為北京大學-字節(jié)跳動數(shù)字人文開放實驗室的成員,，王軍有著豐富的古籍數(shù)字化經(jīng)驗,，他曾研發(fā)過“《宋元學案》知識圖譜可視化系統(tǒng)”，對240萬字的《宋元學案》進行了文本處理和分析,，將2000多位宋元理學學者,、近100個學術流派所涉及的人物、時間,、地點,、著作等提取出來構造成知識圖譜。

據(jù)他介紹,，對于識典古籍的開發(fā)和應用,，北京大學主要從三方面入手，第一,，聯(lián)絡國內的圖書館尋求公版資源,，保障版本的正當性；第二,，聯(lián)系北師大、復旦,、南大,、陜西師大等高校的學者和文獻專家，進行人工審核與校對,，彌補人工智能有識別錯誤率的短板,；第三,，北大利用自有的學術平臺，鏈接學術界和高校的年輕用戶,，對識典古籍進行推廣,。

━━━━━

古籍保護的更多可能

字節(jié)跳動旗下有多個信息分發(fā)平臺，沉淀著大量關于內容平臺的經(jīng)驗和技術,，這些技術可以逐漸向古籍智能數(shù)字化的方向上遷移,。過去半年，識典古籍技術開發(fā)團隊整合了包括字節(jié)跳動人工智能實驗室,、今日頭條的設計團隊和抖音的開發(fā),、測試團隊成員加入，其中有不少是古文獻專業(yè)和文史哲專業(yè)的成員,。

識典古籍在使用性上強調用戶體驗,，網(wǎng)頁打開流暢。主頁有檢索欄,，用戶可直接搜索書目,；右上方是書庫，點進去可看到經(jīng),、史,、子、集四個欄目,；下方是古籍書樣,，如《周易》、《荀子》,、《左傳》,，主頁下方是“儒家經(jīng)典”“道家經(jīng)典”“文學經(jīng)典”三個欄目。點開一本書,，左邊是目錄,，右邊是正文，上方有四個功能項,，依次點擊可看到古籍原本的影像,、注疏、繁簡字體切換以及書庫,，且每部古籍都有精校和粗校的標簽提示,。

▲“識典古籍”網(wǎng)頁截圖

目前識典古籍只有網(wǎng)頁版，相關技術負責人預測,，今年11月份識典古籍將會推出移動端,，到時會鏈接到抖音和今日頭條，活化更多的古籍內容,。

在數(shù)字化之外,，一年多來，字節(jié)跳動在古籍修復和活化上也有所進展�,，F(xiàn)在,，字節(jié)跳動資助國家圖書館定向修復的珍貴古籍104冊件，現(xiàn)已完成50多冊件,，包括一批稀有的樣式雷圖檔,。在活化方面，抖音平臺推出“尋找古籍守護人”計劃,，四大名著,、二十四史,、四書五經(jīng)相關的視頻播放量超過600億次，涵蓋漫畫,、影視,、美食、音樂等多種內容體裁,。

古籍承載著中華文明,，它的傳播是需要大眾參與。未來,，通過識典古籍，向全社會開放古籍閱讀檢索研究能力,，還將實現(xiàn)全自動整理校對,，更高效地實現(xiàn)存量古籍全部數(shù)字化。同時,，鼓勵擁有文獻的學者自行上傳文獻,，豐富平臺內容，用戶甚至可參與再創(chuàng)作和再闡釋,，與平臺形成一種良性互動,，助力古籍文化傳承和研究。

來源：新京報

回復

舉報

帥哥離線昆山小新秀

級別: 昆山初級市民

發(fā)帖: 585

昆幣: 976 枚

只看該作者

沙發(fā) 發(fā)表于: 2023-03-21 , 來自:江蘇省

親愛的昆山小新秀,，我們非常高興地告訴你,，你剛剛升到了昆山過客級別。你離下一級昆山新人級別還有90帖,，

爆料有獎,！關注昆山論壇抖音號,，抖音搜索“昆山論壇”,，或搜索抖音號：ksbbs

引用

舉報

帥哥離線昆山小新秀

級別: 昆山初級市民

發(fā)帖: 585

昆幣: 976 枚

只看該作者

板凳發(fā)表于: 2023-03-21 , 來自:江蘇省

親愛的昆山小新秀,，我們非常高興地告訴你,，你剛剛升到了昆

爆料有獎,！關注昆山論壇抖音號,，抖音搜索“昆山論壇”，或搜索抖音號：ksbbs

引用

舉報

帥哥離線昆山小新秀

級別: 昆山初級市民

發(fā)帖: 585

昆幣: 976 枚

只看該作者

地板發(fā)表于: 2023-03-21 , 來自:江蘇省

親愛的昆山小新秀,，我們非常高興地告訴你，你剛剛升到了昆山過客級別。你離下一級昆山

爆料有獎,！關注昆山論壇抖音號,，抖音搜索“昆山論壇”，或搜索抖音號：ksbbs

引用

舉報

帥哥離線昆山小新秀

級別: 昆山初級市民

發(fā)帖: 585

昆幣: 976 枚

只看該作者

4樓發(fā)表于: 2023-03-21 , 來自:江蘇省

親愛的昆山小新秀,，我們非常高興地告訴你,，你剛剛升到了昆山過客級別。你離下一級昆山新人級別還有90帖

爆料有獎,！關注昆山論壇抖音號,，抖音搜索“昆山論壇”，或搜索抖音號：ksbbs

引用

舉報

帥哥離線昆山小新秀

級別: 昆山初級市民

發(fā)帖: 585

昆幣: 976 枚

只看該作者

5樓發(fā)表于: 2023-03-21 , 來自:江蘇省

親愛的昆山小新秀,，我們非常高興地告訴你,，你剛剛升到了昆山過客級別。你離下一級昆山新人級別還有90帖,，親愛的昆山小新秀,，我們非常高興地告訴你，你剛剛升到了昆山過客級別,。你離下一級昆山新人級別還有90帖,，

爆料有獎！關注昆山論壇抖音號,，抖音搜索“昆山論壇”,，或搜索抖音號：ksbbs

引用

舉報

帥哥離線昆山小新秀

級別: 昆山初級市民

發(fā)帖: 585

昆幣: 976 枚

只看該作者

6樓發(fā)表于: 2023-03-21 , 來自:江蘇省

親愛的昆山小新秀，我們非常高興地告訴你,，你剛剛升到了昆山過客級別,。你離下一級昆山新人級別還有90帖，親愛的昆山小新秀,，我們非常高興地告訴你,，你剛剛升到了昆山過客級別。你離下一級昆山新人級別還有90帖,，親愛的昆山小新秀,，我們非常高興地告訴你，你剛剛升到了昆山過客級別,。你離下一級昆山新人級別還有