今日流通している漢字は2千字ぐらいまでで使用頻度の90%、 さらに5千字ぐらいまでで99%を占めるといわれているが、 実はその残りの1%を網羅するためには漢字をどれほど用意すればよいのか、 よくわからないのが現状だ。 印刷業界で用意されている漢字としては約2万字が基準になるようである。 ただし、2万字の漢字をどれほどうまく選択したとしても、 頻度の分類はもはや不可能であり、また必ず漏れがでる。 地名・人名、医学用語や動植物名、そして漢和辞典や百科事典など、 漏れがないように漢字を集めると最低でも6万字は必要になり、 これに歴史的に日本で作られてきた国字、 さらにやっかいな異体字を含めるとなると、ゆうに10万字を超える。 これに書体別の特徴を数え上げると倍々になろう。
昨年から今年にかけて、今日流通している漢字の収集に集中した結果、 重複はあるが13万字に達した。 これを整理するために漢字データベースの構築が急務になり、 文字画像と、部首、画数、音訓、そして種々の既存のコード、 さらには漢字を構成する要素によって検索可能な方式を、 現在実現しつつあるところである。 出典や引用もわかる範囲で入れる予定だが、既存のJISの中には 典拠はおろか音訓の読みさえもわからないものが入り混じっている。 13万字のデータを整理すると、6万字から8万字の漢字文字種が析出できよう。 その漢字辞典 (コード表) を作るのが当面の目標である。
参考文献
平成7年度日本学術振興会産学共同研究支援事業
「人文系多国語テクスト・プロセシング・システムの構築に関する研究」平成8年度日本学術振興会未来開拓学術研究推進事業
「マルチメディア通信システムにおける多国語処理研究プロジェクト」
田村 毅 氏がプロジェクト代表として進めておられる 「東京大学漢字プロジェクト」にも 「文字の電子化」に関する詳細が記載されていますので、ぜひ参照して下さい。 また、 コンピュータの多国語処理に関する問題を議論するバーチャルシンポジウムが 以下のアドレスで開催されています。どうぞ、こちらも参照して下さい。
この展示内容に関する最新情報や関連資料等は、随時、
東京大学総合研究博物館のインターネットサーバ上の以下のアドレスで
公開、提供していきます。
Copyright (C) 1997 Tokyo University Digital Museum