デジタルミュージアムを支える技術
基礎技術

多国語・多漢字と文字コード

− 坂村 健


Unicodeで統合された各国の文字

文学作品に現れるJIS第一・第二水準外字

これらの文字は従来のコンピュータでは、外字を使わないと表示できない。
外字を使うと情報交換に支障を来たす

博物館の扱う資料の範囲は地域的にも時間軸においても広範囲を対象とする場合が多い。たとえば東京大学総合研究博物館は、東京大学の全学の共同機関という性質上、地球創世記から現代に至る全世界のあらゆる分野の資料が対象となっている。デジタルミュージアム構想では、形のある資料や写真などをデジタル化していくだけでなく、関連資料をデータベースとしてコンピュータの中に蓄積する。これをデジタルアーカイブ (Digital Archive) と呼ぶが、一度デジタルアーカイブすると、これらの情報を館内の企画展示に利用したり、学内外からも利用できるなどデータの多角的な利用が可能となる。

デジタルアーカイビングを行う際に、文字資料をコンピュータに入力することが行われるが、ここで大きな問題が生じる。

コンピュータは文字を扱うために、各文字に番号(文字コード)を与えて処理している。一般のパソコンやワークステーションでは日本語の文字コードとして、日本工業規格JISが制定した文字コードに基づいて作られている。この規格は1978年に最初に作られてから数度の改定により現在JIS X0208−1997となっており、その内漢字は6,355字含まれている。この漢字の数は常用漢字表の1,945字に比べて多いように見えるが、昭和初期以前の旧字体を含む文書を入力するには不足している文字が多数出てくる。

その後JIS補助漢字と呼ばれる漢字5,801字を含むJIS X0212−1990が制定されたが、多くのパソコンでは採用されている基本ソフトウェアであるOS (Operating System) に問題(もともと英語ベースで作られているため、文字数の大幅な拡張に対応できない)があり殆ど使えない状態だった。これに対処するため2000年1月20日にJIS第三水準、第四水準と呼ばれるJIS X0213が制定された。しかしながら、パソコンの世界は米国のコンピュータメーカーを中心として策定したUnicodeに移行してしまっている。Unicodeは世界の文字を一つの文字コードで扱うことを目的に作成され、当初はコンピュータ処理上の都合のよさから16ビットコードとして策定された。このため、文字は理論的に最大65,536文字しか入らない。このため、中国、韓国、日本、台湾などから候補として上がった文字をそのまま入れると収容しきれなくなり、ユニフィケーション(unification:包摂)という手法により、約2万字に統合された。これは夫々の国で変化した字形を区別せずに、ルーツが同じで似たような字は一つの番号しか与えないという方法で、CJK統合漢字と呼んでいる(CJKは中国、日本、韓国の頭文字)。

デジタルアーカイブを考えた場合、中国、日本、韓国の文字を混在して使うことも多く、これらを一緒くたにしてしまったUnicodeでアーカイブすることは問題が大きい。コンピュータで区別された情報を一緒として扱うことは容易だが、一つになった情報を分離することは不可能だからである。

この問題を解決するため、東京大学総合研究博物館ではTRONプロジェクトにより開発されたTRON多国語言語環境を使っているがこれについては別項を参照していただきたい。