漢字処理

デジタルミュージアムでは、「知の開放」というコンセプトに基づき資料の持つ情報をデジタル化し、開放と保存という矛盾する要求を両立させる。資料を画像情報としてデジタル化することはもちろん可能であるが、「文字」で書かれたものについては文字列情報として特別に扱うことが出来る。文字は有限個の活字で書物を印刷することが出来るように、数が多いとはいえ有限種類である。これらの文字に背番号を付与し、数字の列として文章を表すことが出来る。これが文字符号 (文字コード) である。コンピュータやワードプロセッサでの文字の取り扱いはこの原理によって行われる。文字を符号化して扱う方法は、文章情報を画像としてデジタル化するのに比較し、文章内容の検索、文章情報の効率良い伝送が可能になる利点がある。

ところが歴史的な資料をデジタル化する上で大きな支障となっているのが文字符号なのである。現代のコンピュータで一般に使われている文字符号は、現代語を表記することに主眼が置かれているため、歴史的な文字は符号化されていない。ごく一般的なパーソナルコンピュータやワードプロセッサで扱える符号化された漢字は日本工業規格で規格化されたもので 6355文字である。最近作られた世界文字コードである Unicodeあるいは 国際標準化機構の制定したISO10646-1でも漢字は高々2万字でしかない。

一方、日本最大の漢字辞書である大漢和辞典には49964字の親字が収録されている。さらにこの辞書に含まれていない俗字などの異体字や国字を含めると 8万〜10万のオーダーとなる。このため、資料のデジタル化に必要な文字が大幅に不足する。問題は甲骨文字や金文といった古代の文字を扱えないにとどまらず、高々200年前位の書物でも満足に扱えないのである。また学術用語や発掘された祭祀器などの名称などの文字も欠落するものが多い。

『雨月物語』より「白峯」

現在の大部分のコンピュータでサポートされている
JIS第1、2水準では表示出来ない文字がある
(所蔵：東京大学文学部国文学研究室)

[編者注] 『雨月物語』に関する詳細は、「デジタルミュージアム展展示内容」の「雨月物語」の項を参照して下さい。

デジタルミュージアムを構築する上で、文字の問題は蔑ろに出来ない。従来では手書きで補う、不足の文字を「外字」として登録して印刷するということで対応してきた。しかしデジタルミュージアムではネットワークを通じて情報をオープンにする性質上、この方法では解決出来ない。手書きは当然ながら「外字」として勝手に符号化した文字が利用者に正しく伝送出来ないからである。受取側では外字は伏字になったり文字化けをしてしまう。そこで東京大学では、このコンピュータによる文字の取り扱いの問題を正面から取り上げ、あらゆる文字を符号化出来る TRON多国語言語環境による枠組みを利用し、「漢字」の収集ならびに符号化を行うプロジェクトに着手した。このプロジェクトでは、符号化と共に文字フォントの作成を行い、 東大明朝と称して広く利用出来るように公開を行う。符号化の枠組みは、漢字圏の文字に留まらず歴史的文字を含む世界のあらゆる文字を扱うことが出来るように配慮されている。文字の収集については各国の専門家や研究者の協力を得て行い、符号登録を行う。また、それらの文字についての属性情報を持つデータベースを整備し、たとえば歴史的文字を現代文字に変換して表示することも出来るようになる。この枠組みと符号化文字を広く利用に供し、ネットワークを通じて世界の文化が交流出来る基盤とする。 (詳細については、「デジタルミュージアムを支える技術」の「活字から電子文字へ」の項を参照のこと)。

(坂村健)

[編者注] この展示内容に関する最新情報や関連資料等は、随時、東京大学総合研究博物館のインターネットサーバ上の以下のアドレスで公開、提供していきます。

http://www.um.u-tokyo.ac.jp/DM_CD/DM_TECH/KANJI/HOME.HTM