ニュースイッチ

古文書解読をAIが支援、人文学研究のDXが生み出すモノ

古文書解読をAIが支援、人文学研究のDXが生み出すモノ

みんなで翻刻の添削画面。参加者で翻刻と添削をし合って質を向上させている

人文学研究でデジタル変革(DX)が広がってきた。古文書や史料をデジタルデータ化し人工知能(AI)に学習させたり、オープン化して異分野の研究者を巻き込んだりする試みだ。市民や出版社などの力を借りて取り組みを進めている。国立国会図書館では、AIが古文書の読解を支援するサービスの実装が進む。人文学DXは研究の幅を広げ、地域や教育とのつながりを生み出しつつある。(小寺貴之)

AI翻刻、くずし字読解支援

「翻刻は地震史料から始まり、その対象は料理本や仏典、医療や健康法など多様な古文書に広がった」と国立歴史民俗博物館の橋本雄太准教授は目を細める。東京大学地震研究所や京都大学古地震研究会と「みんなで翻刻」プロジェクトを進めてきた。

みんなで翻刻は古文書のくずし字を現代文字に直すプロジェクトだ。これまでボランティアで8500人以上が参加し、今も約2940人が活動する。2930万字以上を翻刻してきた。誰かが翻刻するとコミュニティーの中で添削し、翻刻の品質を高めている。上位10人は一人で100万字以上翻刻している。

当初は京大古地震研究会の古文書の翻刻から始まった。現在は料理本やかるたなど、分野が広がった。味の素食の文化センター(東京都港区)や福井県文書館といった企業や自治体などが史料を提供している。

あいおいニッセイ同和損保所蔵史料の翻刻プロジェクトでは、同社が特別協力した災害史料展の解説に、みんなで翻刻の成果が利用された。災害の記憶を伝え、保険などで備えるきっかけになったという。古文書は著作権が切れているため利用しやすい。

国立国会図書館の次世代デジタルライブラリーのサービスで源氏物語を対象に「光源氏」を検索した例。AIで「光源氏」を含む前後のくずし字を現代文字に翻刻する

蓄積された翻刻データは国会図書館に提供され、翻刻AIが開発された。古典籍など35万点が現代文字訳され全文検索できるサービスを試験展開している。例えば源氏物語など写本の多い作品は系統ごとに記述や構成が変わる。従来はくずし字を読む訓練が必要だったが、AI支援で誰でも写本を読み比べられるようになった。国会図書館次世代システム開発研究室の青池亨司書は「敷居を下げ、史料が活用される機会を広げたい」と説明する。異分野の研究者は独自の視点で分析し、史料に新しい命を吹き込む。市民の力で好循環が生まれつつある。

この翻刻AIや学習データは公開されており、新しい研究者が参入できるようになっている。人間文化研究機構の木部暢子機構長は「くずし字でDXの成功モデルができた。今後、寺社仏閣の見取り図など幅広い史料やデータに広がるだろう」と期待する。

地名変遷データ化、江戸-現代の市区町村にID

出版社と連携し人文学DXで成果を上げた事例もある。情報・システム研究機構の人文学オープンデータ共同利用センター(CODH)は、平凡社地図出版(東京都千代田区)と連携し、地名辞典「日本歴史地名大系」の地名項目や行政地名の変遷データセットを公開した。例えば行政地名では、明治元年に設置された「江戸府」が、「東京府」「東京市」「東京都」となった変遷をたどれる。

出版社との連携ではプロの目が入った高品質データが得られる利点がある。CODHの北本朝展センター長は「AIが学習できるようにオープンデータ化した。出版社にとっては辞典のインデックスを公開しただけだが、非常に大きな反響を得た。出版社のオープン&クローズ戦略としてモデルになる」と説明する。オープンデータで研究が広がれば、辞典の購入につながる。日本歴史地名大系には15万の地名項目に加えて文献解題や地図類、行政区画変遷と農業生産力を示す「石高」一覧などの資料も付帯されている。

CODHは江戸時代から現代までの市区町村のIDを整備する。IDで地名を識別すれば、さまざまな史料を横断的にひも付けられるようになる。北本センター長は「(デジタルデータ上で)古地震の論文の地名をクリックすると、その藩の行政文書や人事記録の関連データに飛ぶなど、研究と研究をリンクさせられるようになる」と説明する。これまで歴史学者は膨大な史料を読み込み、頭の中で情報を突き合わせて解釈を重ねてきた。これをAI技術で支援すれば、より広い史料を読み解け、同時に研究の敷居を下げられる。

文科省が人材育成組織、新規予算案6400万円

人文学DXを加速させるため、文部科学省は複数の研究機関の連携組織「デジタル・ヒューマニティーズ・コンソーシアム」を立ち上げる。人文データの国際規格対応やデータ活用の事例創出、人材育成を進める。2024年度予算案として新規に6400万円を計上した。人文学研究の広さに比べると予算規模は小さいが、人文学DXに弾みが付くと期待される。

文科省はデジタル・ヒューマニティーズ・コンソーシアムを立ち上げる。24年度予算案として新規に6400万円を計上した

データ活用では公教育との連携が注目される。児童生徒に一人1台端末が配られ、各研究分野からデジタル教材が提供されている。例えば社会学研究では統計演習ができるようになった。物理や化学などではデジタルコンテンツが豊富だ。人文学の分野でも「写本の系統比較など、研究の面白さに触れるコンテンツを用意できないか」と文科省の名子学人文科学・社会科学振興室長は思案する。教育段階から研究に触れられると人文学の人口を増やせるかもしれない。

このデジタル・ヒューマニティーズ・コンソーシアムは欧州の「汎欧州人文・芸術デジタル研究基盤(DARIAH)」をモデルにしている。DARIAHはヨーロッパ全土の人文科学とデジタルアートなどの学際的な研究を支えている。各国の資金配分機関と研究者が連携してデータを整え、分析ツールを共有し、人材育成を進めてきた。DARIAHのトマ・タソヴァツディレクターは「日本には立派な研究者コミュニティーがある。必要なのは人文学を振興するという国の意思だけだ」と応援する。

24年度は関連費用が予算案に計上された。市民の力も借りてDXの効果を何倍にも増やす土壌ができてきている。

日刊工業新聞 2023年12月29日
小寺貴之
小寺貴之 Kodera Takayuki 編集局科学技術部 記者
暴力と困窮が吹き荒れる戦国時代や自分ではどうにもならない階級社会、厳しい自然の猛威と恵みに生かされた時代に、当時の人たちが何を思い、何を残そうとしたのか。こんなことを知りたいと思うのは研究者だけではないはずです。人がなぜ本を読むのか。もちろん娯楽もありますが、作品や史料の中に他の人の経験だとか心の豊かさだとか、人生とはなんなのか、作家や昔の人は彼らの置かれた環境で何を考えていたのか。ウクライナやガザなど、よりリアルな戦争に触れる機会が増え、どうにもならない惨状と整理できない心をどうにかしたくて、歴史や本の中にヒントを探す人は増えているのではないかと思います。宇宙を目指してロケットを作ってみたり、生命の仕組みを解き明かして病気を治してみたり、人が作った知能と人の知能を比べて知性とはなんなのか考えてみたり、どれも等しく尊い研究です。ですが人文は長く役に立たないとされてきました。コンソーシアム設立に向けた議論では、DXに向けた研究者のデジタル恐怖症よりも、社会の人文学恐怖症をどうしたらいいのだろうかという話がありました。過去から現代社会への教訓を導くと権力批判になることもあります。人文研究は金がかからないとされてきたこともあって国からの投資は大きくありません。コンソ設立へ文科省は恐る恐る1億8800万円で概算要求して、予算折衝で6400万円と3分の1になって返ってきました。人文社会の成果可視化などのプロジェクトと合わせて9800万円です。0から1億円になったのは大きなことですが、1兆円の宇宙基金と比べてしまうと口を閉じていてもため息が漏れてしまいます。それでも0が1になりました。がんばって、いかに投資効率がいいかを示して、次につなげたいところです。

編集部のおすすめ