活字から電子文字へ

−まずは漢字6万字の電子化を目指して−

昨年から主として日本語の文字を電子化するプロジェクトを推進してきた。文字文化の未来はデジタルミュージアム構想とも無縁ではありえないと思うので、ここにプロジェクトの当面の課題を簡単に紹介しておきたい。活字から電子文字への移行期にある現在は、いわばグーテンベルグ以来の文字文化の革命期にあり、文字文化の継承と未来にとって電子文字の整備は喫緊の課題であり、あえてここでその重要性を強調したいと思う。文字の展示は画像系に比べるとまったく地味で、展示場でもあまり目をひくことがないと思うが、片隅のモニターに流れる2万字の漢字にぜひご注目いただきたい。

今日流通している漢字は2千字ぐらいまでで使用頻度の90%、さらに5千字ぐらいまでで99%を占めるといわれているが、実はその残りの1%を網羅するためには漢字をどれほど用意すればよいのか、よくわからないのが現状だ。印刷業界で用意されている漢字としては約2万字が基準になるようである。ただし、2万字の漢字をどれほどうまく選択したとしても、頻度の分類はもはや不可能であり、また必ず漏れがでる。地名・人名、医学用語や動植物名、そして漢和辞典や百科事典など、漏れがないように漢字を集めると最低でも6万字は必要になり、これに歴史的に日本で作られてきた国字、さらにやっかいな異体字を含めるとなると、ゆうに10万字を超える。これに書体別の特徴を数え上げると倍々になろう。

昨年から今年にかけて、今日流通している漢字の収集に集中した結果、重複はあるが13万字に達した。これを整理するために漢字データベースの構築が急務になり、文字画像と、部首、画数、音訓、そして種々の既存のコード、さらには漢字を構成する要素によって検索可能な方式を、現在実現しつつあるところである。出典や引用もわかる範囲で入れる予定だが、既存のJISの中には典拠はおろか音訓の読みさえもわからないものが入り混じっている。 13万字のデータを整理すると、6万字から8万字の漢字文字種が析出できよう。その漢字辞典 (コード表) を作るのが当面の目標である。

(田村毅)

参考文献

平成7年度日本学術振興会産学共同研究支援事業
「人文系多国語テクスト・プロセシング・システムの構築に関する研究」
平成8年度日本学術振興会未来開拓学術研究推進事業
「マルチメディア通信システムにおける多国語処理研究プロジェクト」

[編者注] 田村毅氏がプロジェクト代表として進めておられる「東京大学漢字プロジェクト」にも「文字の電子化」に関する詳細が記載されていますので、ぜひ参照して下さい。また、コンピュータの多国語処理に関する問題を議論するバーチャルシンポジウムが以下のアドレスで開催されています。どうぞ、こちらも参照して下さい。

http://www.personal-media.co.jp/vs/mltp96/home_j.html

[編者注] この展示内容に関する最新情報や関連資料等は、随時、東京大学総合研究博物館のインターネットサーバ上の以下のアドレスで公開、提供していきます。

http://www.um.u-tokyo.ac.jp/DM_CD/DM_TECH/ELC_CHA/HOME.HTM