[第一部 デジタルテクノロジー]
漢字処理
現在の大部分のコンピュータでサポートされているJIS第1,2水準では表示出来ない文字がある。 アドレス:/DM_CD/DM_CONT/UGETSU/HOME.HTM |
ところが歴史的な資料をデジタル化する上で大きな支障となっているのが文字符号なのである。現代のコンピュータで一般に使われている文字符号は、現代語を表記することに主眼が置かれているため、歴史的な文字は符号化されていない。ごく一般的なパーソナルコンピュータやワードプロセッサで扱える符号化された漢字は日本工業規格で規格化されたもので6355文字である。最近作られた世界文字コードであるUnicodeあるいは国際標準化機構の制定したISO10646-1でも漢字は高々2万字でしかない。
一方、日本最大の漢字辞書である大漢和辞典には49964字の親字が収録されている。さらにこの辞書に含まれていない俗字などの異体字や国字を含めると8万〜10万のオーダーとなる。このため、資料のデジタル化に必要な文字が大幅に不足する。問題は甲骨文字や金文といった古代の文字を扱えないにとどまらず、高々200年前位の書物でも満足に扱えないのである。また学術用語や発掘された祭祀器などの名称などの文字も欠落するものが多い。
デジタルミュージアムを構築する上で、文字の問題は蔑ろに出来ない。従来では手書きで補う、不足の文字を「外字」として登録して印刷するということで対応してきた。しかしデジタルミュージアムではネットワークを通じて情報をオープンにする性質上、この方法では解決出来ない。手書きは当然ながら「外字」として勝手に符号化した文字が利用者に正しく伝送出来ないからである。受取側では外字は伏字になったり文字化けをしてしまう。そこで東京大学では、このコンピュータによる文字の取り扱いの問題を正面から取り上げ、あらゆる文字を符号化出来るTRON多国語言語環境による枠組みを利用し、「漢字」の収集ならびに符号化を行うプロジェクトに着手した。このプロジェクトでは、符号化と共に文字フォントの作成を行い、東大明朝と称して広く利用出来るように公開を行う。符号化の枠組みは、漢字圏の文字に留まらず歴史的文字を含む世界のあらゆる文字を扱うことが出来るように配慮されている。文字の収集については各国の専門家や研究者の協力を得て行い、符号登録を行う。また、それらの文字についての属性情報を持つデータベースを整備し、たとえば歴史的文字を現代文字に変換して表示することも出来るようになる。この枠組みと符号化文字を広く利用に供し、ネットワークを通じて世界の文化が交流出来る基盤とする。(36頁参照)
(坂村 健)
アドレス:/DM_CD/DM_TECH/KANJI/HOME.HTM