專業(yè)團(tuán)隊(duì)攜手大眾愛好者 用智能技術(shù)助典籍“重生” 3萬部古籍背后的“校書官”
北京大學(xué)數(shù)字人文中心基于自主研發(fā)的“識典古籍”數(shù)字化平臺,發(fā)起了我是“校書官”——古籍大眾智能整理計劃,邀請高校師生、大眾愛好者等,在智能技術(shù)的輔助下整理古籍,助力古籍“重生”。
近日,在“校書官”計劃發(fā)起一周年之際,平臺收錄、開放的古籍突破了3萬部——古籍原本的影像觸手可及,施以現(xiàn)代標(biāo)點(diǎn)的文言文簡潔易讀,注疏典故讓歷史細(xì)節(jié)躍然紙上……志愿者中,不僅有相關(guān)文科專業(yè)的師生,還有互聯(lián)網(wǎng)從業(yè)者、機(jī)場調(diào)度員等,他們憑借對典籍的熱愛,突破專業(yè)所限,甘當(dāng)一名“校書官”。
古籍大眾智能整理計劃吸引眾多志愿者成為“校書官”。
沉浸其中
8天整理19萬字 互聯(lián)網(wǎng)人鉆進(jìn)古籍里
我是“校書官”——古籍大眾智能整理計劃分階段開展活動,包括初階和進(jìn)階兩類任務(wù),定期通過“識典古籍”微信公眾號招募志愿者。
8天整理了19萬字的古籍,是互聯(lián)網(wǎng)大廠產(chǎn)品經(jīng)理王唯一在今年春節(jié)創(chuàng)下的紀(jì)錄,至今仍經(jīng)常被志愿者們提起。
“我平時喜歡看歷史小說,了解到‘校書官’的活動后,想著下班后能換換腦子,而且還能做公益,就報名加入了志愿者團(tuán)隊(duì)。”王唯一說,有不少和她一樣的“非科班”志愿者,大家在交流群中分享整理心得,互幫互助解答問題。
今年春節(jié),有了大段空余時間的王唯一對古籍整理著了迷,每天至少有6小時沉浸在古籍中?!皾u漸地就會忘記時間,我非常享受這種狀態(tài)。就像玩游戲一樣,原本只計劃玩五六關(guān),結(jié)果一抬頭發(fā)現(xiàn)天色已經(jīng)暗淡下去?!彼f,春節(jié)假期過完,自己提交了19萬字的整理結(jié)果,包含《安雅堂文集》《王荊文公詩》《全隋文 先唐文》等古籍。
贈人玫瑰,手有余香。
讓王唯一驚喜的是,整理古籍還給自己的本職工作帶來了一些啟發(fā)。
點(diǎn)開“識典古籍”平臺中任意一部待整理的古籍,頁面左側(cè)是破碎泛黃的書頁影像,右側(cè)滾動著經(jīng)AI(人工智能)識別的文字。這背后是文字識別、自動標(biāo)點(diǎn)、實(shí)體識別三大核心技術(shù)。黑色文字代表算法識別的可信度比較高的字,一般不需要人工再去核對;藍(lán)色則提示疑難字,得對照古籍影像上的字形再確認(rèn)。志愿者需要做的,就是參考AI生成的結(jié)果??蔽淖?。
“為了方便整理,AI還會自動識別古籍頁面的版式分布、圖片信息,并對字跡進(jìn)行分欄。然而,AI識別并非100%精準(zhǔn),每個人的整理習(xí)慣也不盡相同。當(dāng)我連續(xù)整理了幾頁之后,發(fā)現(xiàn)AI自動省略了一些用不到的步驟,給整理工作提了效?!蓖跷ㄒ徽f,作為AI產(chǎn)品經(jīng)理,自己在設(shè)計產(chǎn)品時經(jīng)常會遇到“設(shè)定很完美,但用戶體驗(yàn)感不佳”的問題。而“識典古籍”平臺的貼心設(shè)定,能讓人從背后看出復(fù)雜的產(chǎn)品設(shè)定邏輯,精準(zhǔn)對接用戶的需求。受此啟發(fā),王唯一開始以用戶的視角去排查所設(shè)計產(chǎn)品的各個流程,發(fā)現(xiàn)了不少可優(yōu)化的細(xì)節(jié)。
如今,王唯一仍習(xí)慣一下班就鉆進(jìn)古籍里。當(dāng)整理的古籍通過審核在平臺上架后,她都會收到一個提示——“您整理的書籍已經(jīng)上架啦!您已被列為本書整理人”,“這時,我的名字會出現(xiàn)在頁面上方,這是我最有成就感的時刻?!?/p>
解謎破案
為破解一個字 他們反復(fù)查閱資料推敲
志愿者中,不少人和王唯一一樣雖然是“非科班”出身,但憑借著對歷史古籍的一腔熱愛,正在助力一部部古籍煥發(fā)新生。
李九術(shù)是一名機(jī)場調(diào)度員。白天,他在機(jī)場從事安全調(diào)度工作,下班后便走進(jìn)書房,一頭扎進(jìn)古籍的海洋。閑暇時間,他還經(jīng)常搜集各類古籍影像,打印成仿古經(jīng)折本閱讀。他說,自己對古籍的求知欲越來越濃了。
參與文字整理的基礎(chǔ)工作后,李九術(shù)通過考核進(jìn)入了志愿者進(jìn)階組——負(fù)責(zé)文字、標(biāo)點(diǎn)的精校和審核等高階任務(wù),隊(duì)友多是相關(guān)專業(yè)的高校師生。
有一次,他和隊(duì)友遇到了一句詩——“小桃明淑?”,AI系統(tǒng)未能識別出問號處的字,前端的初階志愿者也沒能順利解答這個問題?!肮湃藢懺娭v究對仗,‘小桃’是植物,后面也應(yīng)匹配名詞。”他和隊(duì)友根據(jù)古籍影印圖片上的字形看出了該字中含有“果”字,根據(jù)上下文鎖定了“菓”和“窠”字。翻閱《本草綱目》,他們印證了“窠”可表示植物叢生,再援引《和子由記園中草木》中“蒼苔窠”的用法來佐證,最終才推定此處應(yīng)為“窠”字?!斑@個過程就像解謎破案一樣,很有意思,收獲也很多?!崩罹判g(shù)說。
參與我是“校書官”活動后,不少志愿者直呼:“長知識了!”
志愿者卜瑞吉是北京一家科技公司的員工,前段時間認(rèn)領(lǐng)了《陽泉縣志》的整理工作,書中關(guān)于古時財稅的內(nèi)容,令她印象深刻?!耙郧拔乙詾?,銀子的單位,兩、錢、毫、厘就已經(jīng)到了極限,但讀了古籍才發(fā)現(xiàn),厘之后還有絲、忽、渺、蔑、微等七八個計量單位,糧食的最小單位在‘?!笠策€有一兩個?!?/p>
這些意料之外的知識,也讓她在忙碌的日常工作中,找到了浪漫的詩和遠(yuǎn)方。她曾整理過一本名叫《夏小正》的農(nóng)書,其中有一句“八月丹鳥羞白鳥”,“我從中了解到,古人經(jīng)常管小蟲子叫‘鳥’,‘丹鳥’是螢火蟲,‘白鳥’是蚊子。這句話的意思是,到了螢火蟲吃蚊子的季節(jié),就是八月了,用此句形容季節(jié)更迭很巧妙?!?/p>
精心守護(hù)
從紙端到指端 理科生用科技煥新古籍
選目、數(shù)據(jù)準(zhǔn)備、分卷、審核……除了志愿者,“校書官”計劃背后,還有北大數(shù)字人文中心工作人員的努力,他們負(fù)責(zé)團(tuán)隊(duì)管理、書目管理、審訂等工作。中心主任、北大信息管理系教授王軍介紹,“識典古籍”平臺由兩部分組成,前端是閱讀平臺,后端是古籍整理平臺。“就像是餐廳的前廳和后廚。中心工作人員和志愿者作為后廚,整理上線古籍資源,把數(shù)字化資源端上閱讀平臺,與全世界的讀者共享饕餮盛宴。”
一群人,一條心,齊心協(xié)力讓古籍重獲新生。
作為古典文獻(xiàn)專業(yè)的畢業(yè)生,北大數(shù)字人文中心工作人員傘紅雷在上學(xué)時便做過古籍整理的工作,在接觸到AI輔助??钡姆椒ê?,他省去了一些繁冗的工作環(huán)節(jié),集中關(guān)注更需要創(chuàng)造性思考的疑難問題。來到數(shù)字人文中心后,他將自己所學(xué)所思應(yīng)用于“識典古籍”平臺的建設(shè)中,并在“校書官”計劃中負(fù)責(zé)選目、分卷、審核等多項(xiàng)工作。
“我們著重挑選了一些海外館藏的珍貴善本,所選古籍內(nèi)容都與大眾生活緊密相關(guān),期待大家能挖掘出古籍與現(xiàn)代生活相契合的內(nèi)涵?!彼f,團(tuán)隊(duì)還精心設(shè)計了古籍通識課程,邀請領(lǐng)域資深學(xué)者擔(dān)任主講嘉賓,廣泛普及古典文獻(xiàn)的基礎(chǔ)專業(yè)知識和古籍智能整理實(shí)操方法。
鄭振宇是一名比較活躍的志愿者,因?yàn)楦改笇W(xué)的都是中文專業(yè),所以他從小就接觸古文。高考選擇專業(yè)時,理科成績更好的他選擇了計算機(jī)專業(yè),如今從事古籍保護(hù)工作,致力于用科技力量為古籍延壽。
“一開始接觸的古籍保護(hù)工作十分繁雜,包括修復(fù)、掃描、圖像處理等,手動操作效率很低。于是我開始自學(xué)編程,開發(fā)了一套工具,把原本需要幾周完成的工作壓縮到幾分鐘?!彼f,接觸到“識典古籍”平臺后,他被免費(fèi)開放的AI識別功能所吸引,也加入到志愿者的行列中,如今已經(jīng)在平臺整理上架了11本古籍。他還把平臺推薦給了同事,“識典古籍”平臺已經(jīng)成為大家工作中的“神器”。
目前,平臺已匯集3萬多部古籍,包含《四庫全書》《永樂大典》等大部頭,面向海內(nèi)外讀者免費(fèi)開放。王軍說:“希望通過‘識典古籍’平臺和我是‘校書官’活動,推動中華文明傳承發(fā)展,向世界展示和傳播我們的文化之美。”
成效
“眾包模式”讓轉(zhuǎn)化提速
據(jù)統(tǒng)計,我國現(xiàn)存古籍20多萬種、5000多萬冊,多數(shù)只完成了初步的影像掃描,只有少數(shù)真正實(shí)現(xiàn)了文本數(shù)字化。人工智能等新技術(shù)的應(yīng)用和發(fā)展,讓古籍能以另一種形態(tài)得到長期保存和傳承。越來越聰明的AI,可以進(jìn)行識別、排序、校對、結(jié)構(gòu)整理等工作,在此基礎(chǔ)上再進(jìn)行人工整理、核對,就能大幅提高古籍整理出版的效率和質(zhì)量。
目前“識典古籍”平臺文字識別的準(zhǔn)確率已經(jīng)達(dá)到了96%,自動標(biāo)點(diǎn)準(zhǔn)確率達(dá)94%。北大數(shù)字人文中心表示,邀請大眾參與古籍整理,這種“眾包模式”勝在人多效率高,通過志愿者的廣泛參與,能夠較快地將紙質(zhì)文獻(xiàn)轉(zhuǎn)化為可供檢索的數(shù)字化文本資料。只有在文獻(xiàn)信息的儲備量足夠龐大后,古籍內(nèi)容的深度開發(fā)利用才有可能。
受訪者 供圖