[第一部 デジタルテクノロジー]
活字から電子文字へ
殷代(紀元前17世紀〜11世紀)の後期、殷の王室において亀甲や牛骨を焼灼して、ひび割れを生じせしめそれによって吉凶を卜し、国事をさだめた。その後、何を卜したか、ならびにその結果を刻したものがいわゆる甲骨文字である。今日知られる最古の漢字。
(松丸 道雄) |
今日流通している漢字は2千字ぐらいまでで使用頻度の90%、さらに5千字ぐらいまでで99%を占めるといわれているが、実はその残りの1%を網羅するためには漢字をどれほど用意すればよいのか、よくわからないのが現状だ。印刷業界で用意されている漢字としては約2万字が基準になるようである。ただし、2万字の漢字をどれほどうまく選択したとしても、頻度の分類はもはや不可能であり、また必ず漏れがでる。地名・人名、医学用語や動植物名、そして漢和辞典や百科事典など、漏れがないように漢字を集めると最低でも6万字は必要になり、これに歴史的に日本で作られてきた国字、さらにやっかいな異体字を含めるとなると、ゆうに10万字を超える。これに書体別の特徴を数え上げると倍々になろう。
昨年から今年にかけて、今日流通している漢字の収集に集中した結果、重複はあるが13万字に達した。これを整理するために漢字データベースの構築が急務になり、文字画像と、部首、画数、音訓、そして種々の既存のコード、さらには漢字を構成する要素によって検索可能な方式を、現在実現しつつあるところである。出典や引用もわかる範囲で入れる予定だが、既存のJISの中には典拠はおろか音訓の読みさえもわからないものが入り混じっている。13万字のデータを整理すると、6万字から8万字の漢字文字種が析出できよう。その漢字辞典(コード表)を作るのが当面の目標である。
(田村 毅)
アドレス:/DM_CD/DM_TECH/ELC_CHA/HOME.HTM
平成7年度日本学術振興会産学共同研究支援事業「人文系多国語テクスト・プロセシング・システムの構築に関する研究」
平成8年度日本学術振興会未来開拓学術研究推進事業「マルチメディア通信システムにおける多国語処理研究プロジェクト」