久久久久亚洲AV无码专区电影_久久亚洲国产最新网站之一_久久综合久久美利坚合众国_久天啪天天久久99久孕妇_美女裸体18禁免费网站_免费的成年私人影院网站_免费无遮挡无码H肉动漫在线观看_欧美日韩一卡2卡三卡4卡 乱码欧美孕交_强奷人妻日本中文字幕_日韩国产精品无码一区二区三区,好紧好爽再搔一点浪一点A片男男,久久兔费黄A级毛片高清 ,5月亚洲激情婷婷色丁香网

當(dāng)人工智能遇上“之乎者也”

2022-10-12 昆山商情 電丁丁
中國是全球擁有古籍最多的國家,,國內(nèi)現(xiàn)存漢文古籍300萬部,,散居在海外的古籍超過40萬部,。然而,,紙質(zhì)古籍損毀是不可逆轉(zhuǎn)的,雖然古籍原生性保護(hù)有很大改善,,“紙”的脆弱卻依然無法改變,,人們也并沒有太多機(jī)會接觸到艱澀難懂的古籍文本。


不過在數(shù)字時代,,這種情況正在發(fā)生變化,,古籍的“再生性”保護(hù),逐漸向數(shù)字化,、平臺化,、智能化的方向發(fā)展。當(dāng)人工智能遇上“之乎者也”,,會擦出怎樣的火花,?



━━━━━
人工智能改變古籍存續(xù)形式

“整理國故,再造文明”,,胡適在一百年前說,。國故也即是古籍,古代的書,,一般指1911年之前歷朝寫本,、刻本、稿本,、拓本等,。這些紙質(zhì)文獻(xiàn)在悠悠歷史長河中其命運(yùn)可謂顛沛流離。紙質(zhì)古籍損毀是不可逆轉(zhuǎn)的,。如明代《永樂大典》,永樂時期的原本已經(jīng)完全湮滅不見,,嘉靖重抄本11000冊現(xiàn)存不到5%,。這樣的損失難以估量。

哲學(xué)家羅素曾說:“中華文明是唯一的歷史文化從未間斷的文明,�,!惫偶鳛橹腥A文化的一支重要血脈,便是文明未斷的依據(jù)之一,今年,,國家圖書館藏清宮“天祿琳瑯”歷時8年修復(fù)成功,,在標(biāo)準(zhǔn)的存藏條件下,能保存200年,。

盡管古籍原生性保護(hù)有很大改善,,但依然改變不了“紙”的脆弱。2015年年初,,位于莫斯科西南部的俄羅斯科學(xué)院社會科學(xué)信息研究所圖書館突發(fā)火災(zāi),,約有200萬冊文獻(xiàn)資料遭到損毀。俄羅斯科學(xué)院院長稱“這是俄羅斯科學(xué)界的切爾諾貝利事件”,。

在很多人的印象里,,古籍文本往往艱澀難懂,而且接觸機(jī)會不多,。但在數(shù)字時代,,這種情況正在發(fā)生轉(zhuǎn)變,目前數(shù)字化,、平臺化,、智能化成為古籍“再生性”保護(hù)的方向。在國外,,哈佛燕京圖書館和美國國會圖書館,,已經(jīng)將他們收藏的中華古籍掃描完成,并對外公開,。但它們僅僅是圖片掃描版,,并未利用智能技術(shù)實(shí)現(xiàn)文本化,無法復(fù)制粘貼,,只能服務(wù)于少數(shù)研究者,。

國內(nèi)較為有名的古籍智能平臺,如“漢典重光”古籍平臺,,讓一批珍藏于加州大學(xué)伯克利分校的中文古籍善本,,以數(shù)字化的形式回歸,該平臺涵蓋的古籍?dāng)?shù)量為20萬頁,。再如浙江大學(xué)的“古籍智慧平臺”,,其利用OCR光學(xué)字符識別技術(shù),將圖片中的文字換成文本格式,,它的識別準(zhǔn)確率在90%以上,。

這些平臺有著各自的優(yōu)勢,但也各有各的局限性,,如網(wǎng)速慢,、智能化程度低,。比如“書同文古籍?dāng)?shù)據(jù)庫”收費(fèi)較高,“中國哲學(xué)書”電子化計劃目前囊括了超過三萬部著作,,用戶卻常常無法正常訪問,。

今年3月,字節(jié)跳動與北京大學(xué)聯(lián)合成立“北大——字節(jié)數(shù)字人文開放實(shí)驗(yàn)室”,,雙方協(xié)作研發(fā)推出古籍?dāng)?shù)字化平臺——識典古籍,。10月,識典古籍測試版已上線,,目前,,已整理上傳390本古籍經(jīng)典(均為四部叢刊書目),3000卷,,3000多萬字,,預(yù)計在3年內(nèi)將整理10000種古籍,基本覆蓋儒家,、道家和佛家的經(jīng)典書目,,對用戶免費(fèi)開放。

圖片

▲識典古籍平臺主頁面截圖


━━━━━
古籍是如何實(shí)現(xiàn)數(shù)字化的,?

識典古籍有何技術(shù)特點(diǎn),?項目負(fù)責(zé)人介紹,識典古籍主要運(yùn)用了三種技術(shù),,文字識別,、自動標(biāo)點(diǎn)、命名實(shí)體識別,。

文字識別技術(shù),,即使用OCR技術(shù)對古籍的影印版文字進(jìn)行單個切分、文字識別,、順序識別,。所謂文字切分,是指古籍掃描件中的單字檢測技術(shù),,能夠獲取每個字符的具體位置,;文字識別,將切分的圖片送入文字識別模型,,獲取每個文字的具體編碼,;順序識別,結(jié)合文字內(nèi)容和文字位置,,獲取整張古籍掃描件的閱讀順序,。

圖片

▲古籍?dāng)?shù)字化過程視頻截圖

OCR的應(yīng)用流程,是用電子設(shè)備對紙本古籍進(jìn)行掃描,,內(nèi)容轉(zhuǎn)錄到計算機(jī)中,,并生成相應(yīng)的數(shù)字文檔,效率與人工錄入不可同日而語,。目前行業(yè)內(nèi)OCR識別準(zhǔn)確率平均為93%至94%,,識典古籍的準(zhǔn)確率為96%至97%。

自動標(biāo)點(diǎn)技術(shù),,是通過序列標(biāo)注的方式對古籍自動進(jìn)行標(biāo)點(diǎn)劃分,,支持“,,。,?!,、:,;”七種常用標(biāo)點(diǎn)。舉例來說,,“學(xué)而時習(xí)之不亦說乎”,,自動標(biāo)點(diǎn)后的結(jié)果是“學(xué)而時習(xí)之,不亦說乎,?”命名實(shí)體識別,,則是通過序列標(biāo)注識別古籍文本中的命名實(shí)體,支持識別人名,、地名,、書籍、時間,、官職這五種類型的實(shí)體,。

圖片

▲自動標(biāo)點(diǎn)技術(shù)解析視頻截圖

人工智能識別的工作完成后,為了方便用戶閱讀,,整理平臺要進(jìn)一步對成型的文本進(jìn)行整理,。

首先,是對3%和4%錯誤率進(jìn)行人工修改,,分出段落和標(biāo)題,,然后再賦予不同的格式。而對于不同質(zhì)量的古籍文獻(xiàn),,整理標(biāo)準(zhǔn)不一,,人力承擔(dān)著不同的職能,大致流程為制定整理標(biāo)準(zhǔn),、人工整理,、審核、上架,,相關(guān)管理者是有古籍知識經(jīng)驗(yàn)的北大團(tuán)隊,。

其次,,是對用戶訪問數(shù)據(jù)進(jìn)行統(tǒng)計。然后是資源管理的功能,,用戶可以更清晰地看到每本書的基礎(chǔ)信息,,具體內(nèi)容,以及當(dāng)前所處的整理狀態(tài),。

最后,,將古籍劃分等級,如經(jīng)典書目,、常讀書目,、基礎(chǔ)書目,像《論語》這種經(jīng)典書目,,對正確率,、標(biāo)點(diǎn)和注釋的要求都較高。負(fù)責(zé)人介紹,,目前這些功能有的已經(jīng)成型,,有的還需要進(jìn)一步增強(qiáng),古籍?dāng)?shù)字化并非易事,。


━━━━━
古籍?dāng)?shù)字化的現(xiàn)實(shí)困境

中國是全球擁有古籍最多的國家,,國內(nèi)現(xiàn)存漢文古籍300萬部,散居在海外的古籍超過40萬部,,它們依然面臨著衰朽,,而已完成數(shù)字化的古籍為7.4萬部,數(shù)字化進(jìn)程仍處于初步階段,。

其中面臨幾大難點(diǎn),。首先是部分古籍在數(shù)字化之前要先完成修復(fù),但古籍修復(fù)工序復(fù)雜,,難以完全用科技手段,,且培養(yǎng)古籍修復(fù)人員需要極高的時間成本。其次,,花費(fèi)高昂,,有專家估算,如果將全國尚未數(shù)字化的古籍全部數(shù)字化,,采集,、組織、加工,、存儲,、管理等費(fèi)用大約需要60億元。第三,,技術(shù)難度高,,現(xiàn)有的數(shù)字化很多是由縮微膠片轉(zhuǎn)換而成,,呈黑白影像且分辨率較低,難以切實(shí)滿足讀者的需求,。

過去,,古籍內(nèi)容轉(zhuǎn)化為數(shù)字文本主要依靠專家人工錄入,耗時費(fèi)力,。北京大學(xué)數(shù)字人文研究中心主任王軍算過一筆賬:我國現(xiàn)存古籍約有20萬種,從1949年到2019年,,共修復(fù)整理出版了近38000種,,要將現(xiàn)存古籍全部修復(fù)整理出來,可能需要三百年的時間,。若利用人工智能技術(shù)輔助修復(fù)整理,,大概二三十年就能完成。

相關(guān)負(fù)責(zé)人介紹說,,目前古籍的使用人數(shù)眾多,,一些高校斥資買古籍?dāng)?shù)據(jù)庫,但是訪問不是很方便,。建立數(shù)字化平臺,,各類學(xué)科的專業(yè)人士能更容易查看古籍文獻(xiàn)。一些潛在的古籍愛好者,,數(shù)字化平臺可將這部分用戶迅速連接起來,。

目前,識典古籍測試版的句讀錯誤率在3%到4%,,文字識別也有一定的錯誤率存在,,影響閱讀體驗(yàn)。在人工智能機(jī)器學(xué)習(xí)一段時間后,,準(zhǔn)確率將會提升到98%左右,。

圖片

▲古籍修復(fù)師在工作

作為北京大學(xué)-字節(jié)跳動數(shù)字人文開放實(shí)驗(yàn)室的成員,王軍有著豐富的古籍?dāng)?shù)字化經(jīng)驗(yàn),,他曾研發(fā)過“《宋元學(xué)案》知識圖譜可視化系統(tǒng)”,,對240萬字的《宋元學(xué)案》進(jìn)行了文本處理和分析,將2000多位宋元理學(xué)學(xué)者,、近100個學(xué)術(shù)流派所涉及的人物,、時間、地點(diǎn),、著作等提取出來構(gòu)造成知識圖譜,。

據(jù)他介紹,對于識典古籍的開發(fā)和應(yīng)用,,北京大學(xué)主要從三方面入手,,第一,,聯(lián)絡(luò)國內(nèi)的圖書館尋求公版資源,保障版本的正當(dāng)性,;第二,,聯(lián)系北師大、復(fù)旦,、南大,、陜西師大等高校的學(xué)者和文獻(xiàn)專家,進(jìn)行人工審核與校對,,彌補(bǔ)人工智能有識別錯誤率的短板,;第三,北大利用自有的學(xué)術(shù)平臺,,鏈接學(xué)術(shù)界和高校的年輕用戶,,對識典古籍進(jìn)行推廣。


━━━━━
古籍保護(hù)的更多可能

字節(jié)跳動旗下有多個信息分發(fā)平臺,,沉淀著大量關(guān)于內(nèi)容平臺的經(jīng)驗(yàn)和技術(shù),,這些技術(shù)可以逐漸向古籍智能數(shù)字化的方向上遷移。過去半年,,識典古籍技術(shù)開發(fā)團(tuán)隊整合了包括字節(jié)跳動人工智能實(shí)驗(yàn)室,、今日頭條的設(shè)計團(tuán)隊和抖音的開發(fā)、測試團(tuán)隊成員加入,,其中有不少是古文獻(xiàn)專業(yè)和文史哲專業(yè)的成員,。

識典古籍在使用性上強(qiáng)調(diào)用戶體驗(yàn),網(wǎng)頁打開流暢,。主頁有檢索欄,,用戶可直接搜索書目;右上方是書庫,,點(diǎn)進(jìn)去可看到經(jīng),、史、子,、集四個欄目,;下方是古籍書樣,如《周易》,、《荀子》,、《左傳》,主頁下方是“儒家經(jīng)典”“道家經(jīng)典”“文學(xué)經(jīng)典”三個欄目,。點(diǎn)開一本書,,左邊是目錄,右邊是正文,上方有四個功能項,,依次點(diǎn)擊可看到古籍原本的影像,、注疏、繁簡字體切換以及書庫,,且每部古籍都有精校和粗校的標(biāo)簽提示,。

圖片

▲“識典古籍”網(wǎng)頁截圖

目前識典古籍只有網(wǎng)頁版,相關(guān)技術(shù)負(fù)責(zé)人預(yù)測,,今年11月份識典古籍將會推出移動端,,到時會鏈接到抖音和今日頭條,活化更多的古籍內(nèi)容,。

在數(shù)字化之外,,一年多來,字節(jié)跳動在古籍修復(fù)和活化上也有所進(jìn)展�,,F(xiàn)在,字節(jié)跳動資助國家圖書館定向修復(fù)的珍貴古籍104冊件,,現(xiàn)已完成50多冊件,,包括一批稀有的樣式雷圖檔。在活化方面,,抖音平臺推出“尋找古籍守護(hù)人”計劃,,四大名著、二十四史,、四書五經(jīng)相關(guān)的視頻播放量超過600億次,,涵蓋漫畫、影視,、美食,、音樂等多種內(nèi)容體裁。

古籍承載著中華文明,,它的傳播是需要大眾參與,。未來,通過識典古籍,,向全社會開放古籍閱讀檢索研究能力,,還將實(shí)現(xiàn)全自動整理校對,更高效地實(shí)現(xiàn)存量古籍全部數(shù)字化,。同時,,鼓勵擁有文獻(xiàn)的學(xué)者自行上傳文獻(xiàn),豐富平臺內(nèi)容,,用戶甚至可參與再創(chuàng)作和再闡釋,,與平臺形成一種良性互動,助力古籍文化傳承和研究。

來源:新京報

已有0人打賞

已有0人打賞

分享到微信/朋友圈 領(lǐng)紅包

每天看看帖,就賺牡丹花,,免費(fèi)好禮立即入手,。

打賞
0人贊

推廣

部分評論
今日熱門
  • 早上好,!#每天一條昆友圈#

    夏晨東

    27
  • 來了來了,,早上好啊,! #每天一條昆友圈##6 ..

    快樂老儒儒-1

    25
  • 在心底種花,,為小事雀躍,幸福的路上,,祝你 ..

    飛魚兒島主

    24
  • 周四愉快,! #每天一條昆友圈##6月,你好,!# ..

    快樂老儒儒-1

    24
  • 聽見花開

    23
  • 早安,!#我的碎碎念#

    夏晨東

    23
  • 運(yùn)動是一種享受,但我不愛運(yùn)動,,因?yàn)槲也皇?..

    愛的獨(dú)白

    22
  • 早上好,!

    冰雪飛舞

    22
精彩推薦
加載更多
精彩活動更多
論壇服務(wù)
觸屏版 / 電腦版

other
馬上開啟