AI導入で進む古書籍の修復と整理―中国

人民網日本語版 2022年4月12日 14:50

中国に現存する古書籍は約20万種で、1949年から2019年の間に3万8000種近くが修復・整理・出版された。イメージ写真。

北京大学デジタル人文研究センター、北京大学・字節跳動（バイトダンス）デジタル人文開放実験室、北京大学人工知能（AI）研究院が共催する「古書籍スマート情報処理」シリーズシンポジウムがこのほど、オンライン開催された。光明日報が伝えた。

シンポジウムでは、北京大学デジタル人文研究センターの王軍センター長が、次のように計算した。中国に現存する古書籍は約20万種で、1949年から2019年の間に3万8000種近くが修復・整理・出版された。このペースでいくと、現存する古書籍をすべて修復・整理するのに300年かかる可能性がある。しかしAI技術で修復・整理をアシストすれば、およそ20～30年で完了するだろうという。

王氏が語る「AI技術による古書籍の修復」は未来の科学的構想ではなく、現実における生き生きとした現実になろうとしている。バイトダンスは北京大学教育基金会に寄贈し、北京大学・バイトダンスデジタル人文開放実験室による「古書籍デジタル化プラットフォーム」の研究開発を支援し、スマート技術により中華古書籍資源のデジタル化建設を急ぐとした。3年内に厳選された1万種の古書籍のスマート化修復・整理が行われる見込みだという。

古書籍の保護は長期的に、原始的な保護方式が採用されてきた。これはつまり古書籍が「文化財」として保護されることだ。その後は再生的保護方法が登場し、古書籍の影印と画像の保存が行われた。古書籍が紙またはマイクロフィルムとして存在できるようになった。現在のデジタル化古書籍の多くがマイクロフィルムから変換されたもので、解像度が低く、白黒が中心的だ。

すべての古書籍をデジタル化の手段で影印・出版するとしても、その古書籍は融通がきかず、便利に利用できない。北京大学中国語学部の楊海峥教授は、次の分かりやすい例を挙げた。影印された古書籍には句読点がなく、非常に読みにくい。また、古書籍の内容の検索ができず、ある内容を読もうとするならば原文を最初から読む必要があり、スピーディーに必要な知識が得られない。そのため伝統的な古書籍の利用率を高めるためには、古書籍の内容をデジタルテキストに変換しなければならない。かつてこの変換は主に専門家が自ら行い、時間的コストが極めて高かった。

王氏によると、近年は北京大学を含む多くの大学及び科学研究機関が、古書籍のデジタル化をめぐり画期的な取り組みを進めている。OCR（光学文字認識）、AI句読、実体識別などの成熟した技術と経験を蓄積している。OCRの応用を例にすると、電子設備で紙の古書籍をスキャンすることで、その内容がコンピューター内に入力され、相応するデジタルファイルが生成される。その効率は人の手による入力よりけた違いに高い。

北京大学デジタル人文研究センターはAIとビッグデータ技術を利用し、先秦から明清の時代を跨ぐ大規模古書籍テキストを整理し、すでに古書籍の自動句読を実現している。平均正解率は94％。同時に人名、地名、時代名、官職名、書名の自動識別を実現しており、その中古史料における正確度は98％近くに上っている。（提供/人民網日本語版・編集/YF）

コメントを読む

インフルエンサー募集中！詳しくはこちら

AI導入で進む古書籍の修復と整理―中国

関連記事

中国古典詩の命は永遠―97歳の重鎮専門家は若い世代にバトン渡すこと望む

1000年以上前の隋代舍利塔碑、日米中などのテクノロジーで復元―中国メディア

中古品取引市場規模が18兆円を突破、買っているのは誰？―中国

「日本の歴史歪曲が確認できる貴重な資料」文大統領が中学生の地図寄贈に感謝＝ネットも「立派だ」

中国国家文物局「首里城の火災は中国の文化財防災にとっての警鐘」―中国メディア

旭日旗は韓国の国花を模して作られた？韓国で「国花を代えよう」の声が上がる理由

社会トピックス

日本が外国人のビザ申請手数料を引き上げへ、中国ネット「引き上げはいいけど…」

中国人女性がマレーシアのカフェでコーヒーぶちまける＝中国ネット「恥ずかしい」

東京の駅で駅員さんに相談、その結果に「爆泣き」―中国人女性

「油王に行きます」と日本語で書かれた商品に中国ネット爆笑

日本で絶対にやってはいけない4つの行為とは？台湾人「直すのは難しい」―台湾メディア

風力発電機のブレードが砕け散る、ガラス繊維飛散で人体への影響懸念も―中国

アジアの窓

早田ひな選手はなぜ中国から批判されたのか、知覧や鹿屋など特攻隊基地跡を歩く

英雄譚から省察へ――「葬送のフリーレン」が現代アニメに響く理由

＜写真特集＞北京の秋、故宮で味わう中国的美学の極み

発展つづけ70年新疆ウイグル自治区に輝く「五星」

スタジオジブリ空と大地、人と動物のあわいに生まれた物語

1年の半分以上食べるほどの餃子愛！一体どこの人？―中国

人気記事ランキング

渋谷スクランブル交差点で中国ダンスグループがパフォーマンス、中国ネット「通行の邪魔」

「中国人の貧困観光に頭抱える日本」と韓国紙＝ネットは「韓国の未来のよう」と懸念

エレベーターにくわえたばこの男性、別の男性の「無言の行動」に称賛―中国

日本が外国人のビザ申請手数料を引き上げへ、中国ネット「日本に行く人多すぎ」「引き上げはいいけど…」

日本で列車事故に遭ったユーチューバー、領事館は頼りにならず…＝韓国ネットは賛否分かれる

中国人女性がマレーシアのカフェで店員と口論、コーヒーぶちまける＝中国ネット「恥ずかしい」

キーワード

AI導入で進む古書籍の修復と整理―中国

関連記事

中国古典詩の命は永遠―97歳の重鎮専門家は若い世代にバトン渡すこと望む

1000年以上前の隋代舍利塔碑、日米中などのテクノロジーで復元―中国メディア

中古品取引市場規模が18兆円を突破、買っているのは誰？―中国

「日本の歴史歪曲が確認できる貴重な資料」文大統領が中学生の地図寄贈に感謝＝ネットも「立派だ」

中国国家文物局「首里城の火災は中国の文化財防災にとっての警鐘」―中国メディア

旭日旗は韓国の国花を模して作られた？韓国で「国花を代えよう」の声が上がる理由

社会 トピックス

日本が外国人のビザ申請手数料を引き上げへ、中国ネット「引き上げはいいけど…」

中国人女性がマレーシアのカフェでコーヒーぶちまける＝中国ネット「恥ずかしい」

東京の駅で駅員さんに相談、その結果に「爆泣き」―中国人女性

「油王に行きます」と日本語で書かれた商品に中国ネット爆笑

日本で絶対にやってはいけない4つの行為とは？台湾人「直すのは難しい」―台湾メディア

風力発電機のブレードが砕け散る、ガラス繊維飛散で人体への影響懸念も―中国

アジアの窓

早田ひな選手はなぜ中国から批判されたのか、知覧や鹿屋など特攻隊基地跡を歩く

英雄譚から省察へ――「葬送のフリーレン」が現代アニメに響く理由

＜写真特集＞北京の秋、故宮で味わう中国的美学の極み

発展つづけ70年 新疆ウイグル自治区に輝く「五星」

スタジオジブリ 空と大地、人と動物のあわいに生まれた物語

1年の半分以上食べるほどの餃子愛！一体どこの人？―中国

人気記事ランキング

渋谷スクランブル交差点で中国ダンスグループがパフォーマンス、中国ネット「通行の邪魔」

「中国人の貧困観光に頭抱える日本」と韓国紙＝ネットは「韓国の未来のよう」と懸念

エレベーターにくわえたばこの男性、別の男性の「無言の行動」に称賛―中国

日本が外国人のビザ申請手数料を引き上げへ、中国ネット「日本に行く人多すぎ」「引き上げはいいけど…」

日本で列車事故に遭ったユーチューバー、領事館は頼りにならず…＝韓国ネットは賛否分かれる

中国人女性がマレーシアのカフェで店員と口論、コーヒーぶちまける＝中国ネット「恥ずかしい」

キーワード

社会トピックス

発展つづけ70年新疆ウイグル自治区に輝く「五星」

スタジオジブリ空と大地、人と動物のあわいに生まれた物語