古文書解読をAIが支援、人文学研究のDXが生み出すモノ
人文学研究でデジタル変革(DX)が広がってきた。古文書や史料をデジタルデータ化し人工知能(AI)に学習させたり、オープン化して異分野の研究者を巻き込んだりする試みだ。市民や出版社などの力を借りて取り組みを進めている。国立国会図書館では、AIが古文書の読解を支援するサービスの実装が進む。人文学DXは研究の幅を広げ、地域や教育とのつながりを生み出しつつある。(小寺貴之)
AI翻刻、くずし字読解支援
「翻刻は地震史料から始まり、その対象は料理本や仏典、医療や健康法など多様な古文書に広がった」と国立歴史民俗博物館の橋本雄太准教授は目を細める。東京大学地震研究所や京都大学古地震研究会と「みんなで翻刻」プロジェクトを進めてきた。
みんなで翻刻は古文書のくずし字を現代文字に直すプロジェクトだ。これまでボランティアで8500人以上が参加し、今も約2940人が活動する。2930万字以上を翻刻してきた。誰かが翻刻するとコミュニティーの中で添削し、翻刻の品質を高めている。上位10人は一人で100万字以上翻刻している。
当初は京大古地震研究会の古文書の翻刻から始まった。現在は料理本やかるたなど、分野が広がった。味の素食の文化センター(東京都港区)や福井県文書館といった企業や自治体などが史料を提供している。
あいおいニッセイ同和損保所蔵史料の翻刻プロジェクトでは、同社が特別協力した災害史料展の解説に、みんなで翻刻の成果が利用された。災害の記憶を伝え、保険などで備えるきっかけになったという。古文書は著作権が切れているため利用しやすい。
蓄積された翻刻データは国会図書館に提供され、翻刻AIが開発された。古典籍など35万点が現代文字訳され全文検索できるサービスを試験展開している。例えば源氏物語など写本の多い作品は系統ごとに記述や構成が変わる。従来はくずし字を読む訓練が必要だったが、AI支援で誰でも写本を読み比べられるようになった。国会図書館次世代システム開発研究室の青池亨司書は「敷居を下げ、史料が活用される機会を広げたい」と説明する。異分野の研究者は独自の視点で分析し、史料に新しい命を吹き込む。市民の力で好循環が生まれつつある。
この翻刻AIや学習データは公開されており、新しい研究者が参入できるようになっている。人間文化研究機構の木部暢子機構長は「くずし字でDXの成功モデルができた。今後、寺社仏閣の見取り図など幅広い史料やデータに広がるだろう」と期待する。
地名変遷データ化、江戸-現代の市区町村にID
出版社と連携し人文学DXで成果を上げた事例もある。情報・システム研究機構の人文学オープンデータ共同利用センター(CODH)は、平凡社地図出版(東京都千代田区)と連携し、地名辞典「日本歴史地名大系」の地名項目や行政地名の変遷データセットを公開した。例えば行政地名では、明治元年に設置された「江戸府」が、「東京府」「東京市」「東京都」となった変遷をたどれる。
出版社との連携ではプロの目が入った高品質データが得られる利点がある。CODHの北本朝展センター長は「AIが学習できるようにオープンデータ化した。出版社にとっては辞典のインデックスを公開しただけだが、非常に大きな反響を得た。出版社のオープン&クローズ戦略としてモデルになる」と説明する。オープンデータで研究が広がれば、辞典の購入につながる。日本歴史地名大系には15万の地名項目に加えて文献解題や地図類、行政区画変遷と農業生産力を示す「石高」一覧などの資料も付帯されている。
CODHは江戸時代から現代までの市区町村のIDを整備する。IDで地名を識別すれば、さまざまな史料を横断的にひも付けられるようになる。北本センター長は「(デジタルデータ上で)古地震の論文の地名をクリックすると、その藩の行政文書や人事記録の関連データに飛ぶなど、研究と研究をリンクさせられるようになる」と説明する。これまで歴史学者は膨大な史料を読み込み、頭の中で情報を突き合わせて解釈を重ねてきた。これをAI技術で支援すれば、より広い史料を読み解け、同時に研究の敷居を下げられる。
文科省が人材育成組織、新規予算案6400万円
人文学DXを加速させるため、文部科学省は複数の研究機関の連携組織「デジタル・ヒューマニティーズ・コンソーシアム」を立ち上げる。人文データの国際規格対応やデータ活用の事例創出、人材育成を進める。2024年度予算案として新規に6400万円を計上した。人文学研究の広さに比べると予算規模は小さいが、人文学DXに弾みが付くと期待される。
データ活用では公教育との連携が注目される。児童生徒に一人1台端末が配られ、各研究分野からデジタル教材が提供されている。例えば社会学研究では統計演習ができるようになった。物理や化学などではデジタルコンテンツが豊富だ。人文学の分野でも「写本の系統比較など、研究の面白さに触れるコンテンツを用意できないか」と文科省の名子学人文科学・社会科学振興室長は思案する。教育段階から研究に触れられると人文学の人口を増やせるかもしれない。
このデジタル・ヒューマニティーズ・コンソーシアムは欧州の「汎欧州人文・芸術デジタル研究基盤(DARIAH)」をモデルにしている。DARIAHはヨーロッパ全土の人文科学とデジタルアートなどの学際的な研究を支えている。各国の資金配分機関と研究者が連携してデータを整え、分析ツールを共有し、人材育成を進めてきた。DARIAHのトマ・タソヴァツディレクターは「日本には立派な研究者コミュニティーがある。必要なのは人文学を振興するという国の意思だけだ」と応援する。
24年度は関連費用が予算案に計上された。市民の力も借りてDXの効果を何倍にも増やす土壌ができてきている。