欧美精品日韩人妻,国产清纯在线一区二区,性色av无码爆乳一区二区

離線電丁丁

級(jí)別: 初來(lái)乍到

發(fā)帖: 6

昆幣: 84 枚

只看樓主使用道具電梯直達(dá) 查看指定樓層

樓主發(fā)表于: 2022-10-12 , 來(lái)自:江蘇省

中國(guó)是全球擁有古籍最多的國(guó)家，國(guó)內(nèi)現(xiàn)存漢文古籍300萬(wàn)部,，散居在海外的古籍超過(guò)40萬(wàn)部,。然而，紙質(zhì)古籍損毀是不可逆轉(zhuǎn)的,，雖然古籍原生性保護(hù)有很大改善,，“紙”的脆弱卻依然無(wú)法改變，人們也并沒(méi)有太多機(jī)會(huì)接觸到艱澀難懂的古籍文本,。

不過(guò)在數(shù)字時(shí)代,，這種情況正在發(fā)生變化，古籍的“再生性”保護(hù),，逐漸向數(shù)字化、平臺(tái)化,、智能化的方向發(fā)展,。當(dāng)人工智能遇上“之乎者也”,，會(huì)擦出怎樣的火花？

━━━━━

人工智能改變古籍存續(xù)形式

“整理國(guó)故,，再造文明”,，胡適在一百年前說(shuō),。國(guó)故也即是古籍,，古代的書(shū),，一般指1911年之前歷朝寫(xiě)本,、刻本、稿本,、拓本等,。這些紙質(zhì)文獻(xiàn)在悠悠歷史長(zhǎng)河中其命運(yùn)可謂顛沛流離,。紙質(zhì)古籍損毀是不可逆轉(zhuǎn)的。如明代《永樂(lè)大典》,，永樂(lè)時(shí)期的原本已經(jīng)完全湮滅不見(jiàn),，嘉靖重抄本11000冊(cè)現(xiàn)存不到5%。這樣的損失難以估量,。

哲學(xué)家羅素曾說(shuō)：“中華文明是唯一的歷史文化從未間斷的文明�,！惫偶鳛橹腥A文化的一支重要血脈,，便是文明未斷的依據(jù)之一，今年,，國(guó)家圖書(shū)館藏清宮“天祿琳瑯”歷時(shí)8年修復(fù)成功,，在標(biāo)準(zhǔn)的存藏條件下，能保存200年,。

盡管古籍原生性保護(hù)有很大改善，但依然改變不了“紙”的脆弱,。2015年年初,，位于莫斯科西南部的俄羅斯科學(xué)院社會(huì)科學(xué)信息研究所圖書(shū)館突發(fā)火災(zāi),，約有200萬(wàn)冊(cè)文獻(xiàn)資料遭到損毀,。俄羅斯科學(xué)院院長(zhǎng)稱(chēng)“這是俄羅斯科學(xué)界的切爾諾貝利事件”。

在很多人的印象里,，古籍文本往往艱澀難懂，而且接觸機(jī)會(huì)不多,。但在數(shù)字時(shí)代,，這種情況正在發(fā)生轉(zhuǎn)變，目前數(shù)字化,、平臺(tái)化,、智能化成為古籍“再生性”保護(hù)的方向。在國(guó)外,，哈佛燕京圖書(shū)館和美國(guó)國(guó)會(huì)圖書(shū)館，已經(jīng)將他們收藏的中華古籍掃描完成,，并對(duì)外公開(kāi),。但它們僅僅是圖片掃描版,，并未利用智能技術(shù)實(shí)現(xiàn)文本化，無(wú)法復(fù)制粘貼,，只能服務(wù)于少數(shù)研究者,。

國(guó)內(nèi)較為有名的古籍智能平臺(tái)，如“漢典重光”古籍平臺(tái),，讓一批珍藏于加州大學(xué)伯克利分校的中文古籍善本,，以數(shù)字化的形式回歸，該平臺(tái)涵蓋的古籍?dāng)?shù)量為20萬(wàn)頁(yè),。再如浙江大學(xué)的“古籍智慧平臺(tái)”,，其利用OCR光學(xué)字符識(shí)別技術(shù)，將圖片中的文字換成文本格式,，它的識(shí)別準(zhǔn)確率在90%以上,。

這些平臺(tái)有著各自的優(yōu)勢(shì)，但也各有各的局限性,，如網(wǎng)速慢,、智能化程度低。比如“書(shū)同文古籍?dāng)?shù)據(jù)庫(kù)”收費(fèi)較高,，“中國(guó)哲學(xué)書(shū)”電子化計(jì)劃目前囊括了超過(guò)三萬(wàn)部著作,，用戶卻常常無(wú)法正常訪問(wèn)。

今年3月,，字節(jié)跳動(dòng)與北京大學(xué)聯(lián)合成立“北大——字節(jié)數(shù)字人文開(kāi)放實(shí)驗(yàn)室”,，雙方協(xié)作研發(fā)推出古籍?dāng)?shù)字化平臺(tái)——識(shí)典古籍。10月,，識(shí)典古籍測(cè)試版已上線,，目前,，已整理上傳390本古籍經(jīng)典（均為四部叢刊書(shū)目）,，3000卷，3000多萬(wàn)字,，預(yù)計(jì)在3年內(nèi)將整理10000種古籍,，基本覆蓋儒家、道家和佛家的經(jīng)典書(shū)目,，對(duì)用戶免費(fèi)開(kāi)放,。

▲識(shí)典古籍平臺(tái)主頁(yè)面截圖

━━━━━

古籍是如何實(shí)現(xiàn)數(shù)字化的？

識(shí)典古籍有何技術(shù)特點(diǎn),？項(xiàng)目負(fù)責(zé)人介紹,，識(shí)典古籍主要運(yùn)用了三種技術(shù)，文字識(shí)別、自動(dòng)標(biāo)點(diǎn),、命名實(shí)體識(shí)別,。

文字識(shí)別技術(shù)，即使用OCR技術(shù)對(duì)古籍的影印版文字進(jìn)行單個(gè)切分,、文字識(shí)別,、順序識(shí)別。所謂文字切分,，是指古籍掃描件中的單字檢測(cè)技術(shù),，能夠獲取每個(gè)字符的具體位置；文字識(shí)別,，將切分的圖片送入文字識(shí)別模型,，獲取每個(gè)文字的具體編碼；順序識(shí)別,，結(jié)合文字內(nèi)容和文字位置,，獲取整張古籍掃描件的閱讀順序。

▲古籍?dāng)?shù)字化過(guò)程視頻截圖

OCR的應(yīng)用流程,，是用電子設(shè)備對(duì)紙本古籍進(jìn)行掃描,，內(nèi)容轉(zhuǎn)錄到計(jì)算機(jī)中，并生成相應(yīng)的數(shù)字文檔,，效率與人工錄入不可同日而語(yǔ),。目前行業(yè)內(nèi)OCR識(shí)別準(zhǔn)確率平均為93%至94%，識(shí)典古籍的準(zhǔn)確率為96%至97%,。

自動(dòng)標(biāo)點(diǎn)技術(shù),，是通過(guò)序列標(biāo)注的方式對(duì)古籍自動(dòng)進(jìn)行標(biāo)點(diǎn)劃分，支持“,，,。？,！,、：；”七種常用標(biāo)點(diǎn),。舉例來(lái)說(shuō),，“學(xué)而時(shí)習(xí)之不亦說(shuō)乎”，自動(dòng)標(biāo)點(diǎn)后的結(jié)果是“學(xué)而時(shí)習(xí)之,，不亦說(shuō)乎,？”命名實(shí)體識(shí)別，則是通過(guò)序列標(biāo)注識(shí)別古籍文本中的命名實(shí)體,，支持識(shí)別人名,、地名、書(shū)籍,、時(shí)間,、官職這五種類(lèi)型的實(shí)體,。

▲自動(dòng)標(biāo)點(diǎn)技術(shù)解析視頻截圖

人工智能識(shí)別的工作完成后，為了方便用戶閱讀，整理平臺(tái)要進(jìn)一步對(duì)成型的文本進(jìn)行整理,。

首先，是對(duì)3%和4%錯(cuò)誤率進(jìn)行人工修改，分出段落和標(biāo)題，然后再賦予不同的格式。而對(duì)于不同質(zhì)量的古籍文獻(xiàn),，整理標(biāo)準(zhǔn)不一，人力承擔(dān)著不同的職能,，大致流程為制定整理標(biāo)準(zhǔn),、人工整理、審核,、上架,，相關(guān)管理者是有古籍知識(shí)經(jīng)驗(yàn)的北大團(tuán)隊(duì),。

其次,，是對(duì)用戶訪問(wèn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì),。然后是資源管理的功能，用戶可以更清晰地看到每本書(shū)的基礎(chǔ)信息,，具體內(nèi)容,，以及當(dāng)前所處的整理狀態(tài),。

最后,，將古籍劃分等級(jí),，如經(jīng)典書(shū)目、常讀書(shū)目,、基礎(chǔ)書(shū)目,，像《論語(yǔ)》這種經(jīng)典書(shū)目，對(duì)正確率,、標(biāo)點(diǎn)和注釋的要求都較高,。負(fù)責(zé)人介紹，目前這些功能有的已經(jīng)成型，有的還需要進(jìn)一步增強(qiáng),，古籍?dāng)?shù)字化并非易事,。

━━━━━

古籍?dāng)?shù)字化的現(xiàn)實(shí)困境

中國(guó)是全球擁有古籍最多的國(guó)家，國(guó)內(nèi)現(xiàn)存漢文古籍300萬(wàn)部,，散居在海外的古籍超過(guò)40萬(wàn)部,，它們依然面臨著衰朽，而已完成數(shù)字化的古籍為7.4萬(wàn)部,，數(shù)字化進(jìn)程仍處于初步階段,。

其中面臨幾大難點(diǎn)。首先是部分古籍在數(shù)字化之前要先完成修復(fù),，但古籍修復(fù)工序復(fù)雜,，難以完全用科技手段，且培養(yǎng)古籍修復(fù)人員需要極高的時(shí)間成本,。其次,，花費(fèi)高昂，有專(zhuān)家估算,，如果將全國(guó)尚未數(shù)字化的古籍全部數(shù)字化,，采集、組織,、加工,、存儲(chǔ)、管理等費(fèi)用大約需要60億元,。第三,，技術(shù)難度高，現(xiàn)有的數(shù)字化很多是由縮微膠片轉(zhuǎn)換而成,，呈黑白影像且分辨率較低,，難以切實(shí)滿足讀者的需求。

過(guò)去,，古籍內(nèi)容轉(zhuǎn)化為數(shù)字文本主要依靠專(zhuān)家人工錄入,，耗時(shí)費(fèi)力。北京大學(xué)數(shù)字人文研究中心主任王軍算過(guò)一筆賬：我國(guó)現(xiàn)存古籍約有20萬(wàn)種,，從1949年到2019年,，共修復(fù)整理出版了近38000種，要將現(xiàn)存古籍全部修復(fù)整理出來(lái),，可能需要三百年的時(shí)間,。若利用人工智能技術(shù)輔助修復(fù)整理，大概二三十年就能完成,。

相關(guān)負(fù)責(zé)人介紹說(shuō),，目前古籍的使用人數(shù)眾多，一些高校斥資買(mǎi)古籍?dāng)?shù)據(jù)庫(kù)，但是訪問(wèn)不是很方便,。建立數(shù)字化平臺(tái),，各類(lèi)學(xué)科的專(zhuān)業(yè)人士能更容易查看古籍文獻(xiàn)。一些潛在的古籍愛(ài)好者,，數(shù)字化平臺(tái)可將這部分用戶迅速連接起來(lái),。

目前，識(shí)典古籍測(cè)試版的句讀錯(cuò)誤率在3%到4%,，文字識(shí)別也有一定的錯(cuò)誤率存在,，影響閱讀體驗(yàn)。在人工智能機(jī)器學(xué)習(xí)一段時(shí)間后,，準(zhǔn)確率將會(huì)提升到98%左右,。

▲古籍修復(fù)師在工作

作為北京大學(xué)-字節(jié)跳動(dòng)數(shù)字人文開(kāi)放實(shí)驗(yàn)室的成員，王軍有著豐富的古籍?dāng)?shù)字化經(jīng)驗(yàn),，他曾研發(fā)過(guò)“《宋元學(xué)案》知識(shí)圖譜可視化系統(tǒng)”,，對(duì)240萬(wàn)字的《宋元學(xué)案》進(jìn)行了文本處理和分析,，將2000多位宋元理學(xué)學(xué)者,、近100個(gè)學(xué)術(shù)流派所涉及的人物、時(shí)間,、地點(diǎn),、著作等提取出來(lái)構(gòu)造成知識(shí)圖譜。

據(jù)他介紹,，對(duì)于識(shí)典古籍的開(kāi)發(fā)和應(yīng)用,，北京大學(xué)主要從三方面入手，第一,，聯(lián)絡(luò)國(guó)內(nèi)的圖書(shū)館尋求公版資源,，保障版本的正當(dāng)性；第二,，聯(lián)系北師大,、復(fù)旦、南大,、陜西師大等高校的學(xué)者和文獻(xiàn)專(zhuān)家,，進(jìn)行人工審核與校對(duì)，彌補(bǔ)人工智能有識(shí)別錯(cuò)誤率的短板,；第三,，北大利用自有的學(xué)術(shù)平臺(tái)，鏈接學(xué)術(shù)界和高校的年輕用戶,，對(duì)識(shí)典古籍進(jìn)行推廣,。

━━━━━

古籍保護(hù)的更多可能

字節(jié)跳動(dòng)旗下有多個(gè)信息分發(fā)平臺(tái)，沉淀著大量關(guān)于內(nèi)容平臺(tái)的經(jīng)驗(yàn)和技術(shù)，這些技術(shù)可以逐漸向古籍智能數(shù)字化的方向上遷移,。過(guò)去半年,，識(shí)典古籍技術(shù)開(kāi)發(fā)團(tuán)隊(duì)整合了包括字節(jié)跳動(dòng)人工智能實(shí)驗(yàn)室、今日頭條的設(shè)計(jì)團(tuán)隊(duì)和抖音的開(kāi)發(fā),、測(cè)試團(tuán)隊(duì)成員加入,，其中有不少是古文獻(xiàn)專(zhuān)業(yè)和文史哲專(zhuān)業(yè)的成員。

識(shí)典古籍在使用性上強(qiáng)調(diào)用戶體驗(yàn),，網(wǎng)頁(yè)打開(kāi)流暢,。主頁(yè)有檢索欄，用戶可直接搜索書(shū)目,；右上方是書(shū)庫(kù),，點(diǎn)進(jìn)去可看到經(jīng)、史,、子,、集四個(gè)欄目；下方是古籍書(shū)樣,，如《周易》,、《荀子》、《左傳》,，主頁(yè)下方是“儒家經(jīng)典”“道家經(jīng)典”“文學(xué)經(jīng)典”三個(gè)欄目,。點(diǎn)開(kāi)一本書(shū)，左邊是目錄,，右邊是正文,，上方有四個(gè)功能項(xiàng)，依次點(diǎn)擊可看到古籍原本的影像,、注疏,、繁簡(jiǎn)字體切換以及書(shū)庫(kù)，且每部古籍都有精校和粗校的標(biāo)簽提示,。

▲“識(shí)典古籍”網(wǎng)頁(yè)截圖

目前識(shí)典古籍只有網(wǎng)頁(yè)版,，相關(guān)技術(shù)負(fù)責(zé)人預(yù)測(cè)，今年11月份識(shí)典古籍將會(huì)推出移動(dòng)端,，到時(shí)會(huì)鏈接到抖音和今日頭條,，活化更多的古籍內(nèi)容。

在數(shù)字化之外,，一年多來(lái),，字節(jié)跳動(dòng)在古籍修復(fù)和活化上也有所進(jìn)展。現(xiàn)在,，字節(jié)跳動(dòng)資助國(guó)家圖書(shū)館定向修復(fù)的珍貴古籍104冊(cè)件,，現(xiàn)已完成50多冊(cè)件,，包括一批稀有的樣式雷圖檔。在活化方面,，抖音平臺(tái)推出“尋找古籍守護(hù)人”計(jì)劃,，四大名著、二十四史,、四書(shū)五經(jīng)相關(guān)的視頻播放量超過(guò)600億次,，涵蓋漫畫(huà)、影視,、美食,、音樂(lè)等多種內(nèi)容體裁。

古籍承載著中華文明,，它的傳播是需要大眾參與,。未來(lái)，通過(guò)識(shí)典古籍,，向全社會(huì)開(kāi)放古籍閱讀檢索研究能力,，還將實(shí)現(xiàn)全自動(dòng)整理校對(duì)，更高效地實(shí)現(xiàn)存量古籍全部數(shù)字化,。同時(shí),，鼓勵(lì)擁有文獻(xiàn)的學(xué)者自行上傳文獻(xiàn)，豐富平臺(tái)內(nèi)容,，用戶甚至可參與再創(chuàng)作和再闡釋?zhuān)c平臺(tái)形成一種良性互動(dòng),，助力古籍文化傳承和研究。

來(lái)源：新京報(bào)

回復(fù)

舉報(bào)

帥哥離線昆山小新秀

級(jí)別: 昆山初級(jí)市民

發(fā)帖: 586

昆幣: 979 枚

只看該作者

沙發(fā) 發(fā)表于: 2023-03-21 , 來(lái)自:江蘇省

親愛(ài)的昆山小新秀，我們非常高興地告訴你,，你剛剛升到了昆山過(guò)客級(jí)別,。你離下一級(jí)昆山新人級(jí)別還有90帖，

爆料有獎(jiǎng),！關(guān)注昆山論壇抖音號(hào),，抖音搜索“昆山論壇”，或搜索抖音號(hào)：ksbbs

引用

舉報(bào)

帥哥離線昆山小新秀

級(jí)別: 昆山初級(jí)市民

發(fā)帖: 586

昆幣: 979 枚

只看該作者

板凳發(fā)表于: 2023-03-21 , 來(lái)自:江蘇省

親愛(ài)的昆山小新秀,，我們非常高興地告訴你,，你剛剛升到了昆

爆料有獎(jiǎng)！關(guān)注昆山論壇抖音號(hào),，抖音搜索“昆山論壇”,，或搜索抖音號(hào)：ksbbs

引用

舉報(bào)

帥哥離線昆山小新秀

級(jí)別: 昆山初級(jí)市民

發(fā)帖: 586

昆幣: 979 枚

只看該作者

地板發(fā)表于: 2023-03-21 , 來(lái)自:江蘇省

親愛(ài)的昆山小新秀，我們非常高興地告訴你,，你剛剛升到了昆山過(guò)客級(jí)別,。你離下一級(jí)昆山

爆料有獎(jiǎng)！關(guān)注昆山論壇抖音號(hào),，抖音搜索“昆山論壇”,，或搜索抖音號(hào)：ksbbs

引用

舉報(bào)

帥哥離線昆山小新秀

級(jí)別: 昆山初級(jí)市民

發(fā)帖: 586

昆幣: 979 枚

只看該作者

4樓發(fā)表于: 2023-03-21 , 來(lái)自:江蘇省

親愛(ài)的昆山小新秀，我們非常高興地告訴你,，你剛剛升到了昆山過(guò)客級(jí)別,。你離下一級(jí)昆山新人級(jí)別還有90帖

爆料有獎(jiǎng)！關(guān)注昆山論壇抖音號(hào),，抖音搜索“昆山論壇”,，或搜索抖音號(hào)：ksbbs

引用

舉報(bào)

帥哥離線昆山小新秀

級(jí)別: 昆山初級(jí)市民

發(fā)帖: 586

昆幣: 979 枚

只看該作者

5樓發(fā)表于: 2023-03-21 , 來(lái)自:江蘇省

親愛(ài)的昆山小新秀，我們非常高興地告訴你,，你剛剛升到了昆山過(guò)客級(jí)別,。你離下一級(jí)昆山新人級(jí)別還有90帖，親愛(ài)的昆山小新秀,，我們非常高興地告訴你,，你剛剛升到了昆山過(guò)客級(jí)別。你離下一級(jí)昆山新人級(jí)別還有90帖,，

爆料有獎(jiǎng),！關(guān)注昆山論壇抖音號(hào),，抖音搜索“昆山論壇”，或搜索抖音號(hào)：ksbbs

引用

舉報(bào)

帥哥離線昆山小新秀

級(jí)別: 昆山初級(jí)市民

發(fā)帖: 586

昆幣: 979 枚

只看該作者

6樓發(fā)表于: 2023-03-21 , 來(lái)自:江蘇省

親愛(ài)的昆山小新秀,，我們非常高興地告訴你,，你剛剛升到了昆山過(guò)客級(jí)別。你離下一級(jí)昆山新人級(jí)別還有90帖,，親愛(ài)的昆山小新秀,，我們非常高興地告訴你，你剛剛升到了昆山過(guò)客級(jí)別,。你離下一級(jí)昆山新人級(jí)別還有90帖,，親愛(ài)的昆山小新秀，我們非常高興地告訴你,，你剛剛升到了昆山過(guò)客級(jí)別,。你離下一級(jí)昆山新人級(jí)別還有

爆料有獎(jiǎng)！關(guān)注昆山論壇抖音號(hào),，抖音搜索“昆山論壇”,，或搜索抖音號(hào)：ksbbs

引用

舉報(bào)

帥哥離線昆山小新秀

級(jí)別: 昆山初級(jí)市民

發(fā)帖: 586

昆幣: 979 枚

只看該作者

7樓發(fā)表于: 2023-03-21 , 來(lái)自:江蘇省

親愛(ài)的昆山小新秀，我們非常高興地告訴你,，你剛剛升到了昆山過(guò)客級(jí)別,。你離下一級(jí)昆山新人級(jí)別還有90，

爆料有獎(jiǎng),！關(guān)注昆山論壇抖音號(hào),，抖音搜索“昆山論壇”，或搜索抖音號(hào)：ksbbs

引用

舉報(bào)

帥哥離線昆山小新秀

級(jí)別: 昆山初級(jí)市民

發(fā)帖: 586

昆幣: 979 枚

只看該作者

8樓發(fā)表于: 2023-03-21 , 來(lái)自:江蘇省

親愛(ài)的昆山小新秀,，我們非常高興地告訴你,，你剛剛升到了昆山過(guò)客級(jí)別。你離下一級(jí)昆山新人級(jí)別還有90帖,，好

爆料有獎(jiǎng),！關(guān)注昆山論壇抖音號(hào)，抖音搜索“昆山論壇”,，或搜索抖音號(hào)：ksbbs

引用

舉報(bào)

帥哥離線昆山小新秀

級(jí)別: 昆山初級(jí)市民

發(fā)帖: 586

昆幣: 979 枚

只看該作者

9樓發(fā)表于: 2023-03-21 , 來(lái)自:江蘇省

親愛(ài)的昆山小新秀，我們非常高興地告訴你,，你剛剛升到了昆山過(guò)客級(jí)別,。你離下一級(jí)昆山新人級(jí)別還有90帖，四五個(gè)

爆料有獎(jiǎng),！關(guān)注昆山論壇抖音號(hào),，抖音搜索“昆山論壇”，或搜索抖音號(hào)：ksbbs

引用

舉報(bào)

帖子

[活動(dòng)]當(dāng)人工智能遇上“之乎者也” [復(fù)制鏈接]
掃描到手機(jī)
論壇小編教你如何掃二維碼

熱點(diǎn)推薦

喜歡就打賞個(gè)小紅包吧

請(qǐng)選擇打賞金額


	http://itaogou.top 訪問(wèn)內(nèi)容超出本站范圍,，不能確定是否安全


	關(guān)閉您還沒(méi)有登錄,，快捷通道只有在登錄后才能使用,。立即登錄還沒(méi)有帳號(hào),？趕緊注冊(cè)一個(gè)


	關(guān)閉選中1篇全選

帖子

[活動(dòng)]當(dāng)人工智能遇上“之乎者也” [復(fù)制鏈接] 掃描到手機(jī) 論壇小編教你如何掃二維碼

熱點(diǎn)推薦

喜歡就打賞個(gè)小紅包吧

請(qǐng)選擇打賞金額

[活動(dòng)]當(dāng)人工智能遇上“之乎者也” [復(fù)制鏈接]
掃描到手機(jī)
論壇小編教你如何掃二維碼