東京大学総合研究博物館

多国語・多漢字
Multi-language, Large Character Set Information Processing

博物館の扱う資料の範囲は地域的にも時間軸においても広範囲です。これらの資料をデジタルアーカイビングする際に、版面をイメージデータとして取り込むだけでなく、検索や再利用を考えるとテキストデータとしてコンピュータに入力する必要があります。ここで大きな問題が生じます。それは、現在広くつかわれているコンピュータでは使える文字が足りないという問題と、複数の言語の文章を混在できないという問題です。

現在、日本で使われるコンピュータの文字コードのベースであるJISコードに漢字は6,335字含まれていますが、これだけでは昭和初期以前の文書を入力するには不十分です。漢字を2万字使えるUnicode規格もありますが、中国、韓国、日本、台湾などの文字を各国での字形の違いを無視して約2万字に統合しており、多言語の文章を混在して使うと、意図しない字形になってしまう可能性があります。しかもこの2万字でも古今東西の文献資料のデータ化には不足しています。

この問題を解決する手段として東京大学デジタルミュージアムでは、TRONプロジェクトが開発したTRON多国語言語環境を利用しています。TRON多国語言語環境は拡張可能な文字コード体系を持っており、現在の実装でも十数万字以上の文字を収容しています。これらの文字は文字感データベースで管理され、時代や地域により揺らぐ「何を同じ字と感じるか」という感覚を検索に反映することができます。

 

The collections in a museum spans large range in terms of time and geography. During digital archiving, the data needs to input to computer as graphical image as well as textual data for later convenience such as for searching and re-use. There is a large problem that faces us today. Namely that of the relatively the small number of different characters computer systems can handle, and the difficulty of mixing multi-language characters in a document.

For example, JIS character code which is the basis of the computer text processing in Japan today has 6,335 Kanji characters. This number is too small: digitizing documents before the Showa-era result in many missing characters from the character code system. Unicode character code standard contains 20 thousands kanji characters. Unfortunately, due to the "unification" of different characters in China, Korea, Taiwan, and Japan in order to limit the number of characters around 20 thousand characters, there is a high chance computer software mis-renders the documents in which many languages are used at the same time. Furthermore, the number of characters necessary to digitize text data of the world including the ancient times is well above the 20 thousand threshold.

In order to solve the character handling problem, the digital archive uses the TRON multi-lingual large character set processing environment. This environment supports an extensible character code system and supports about 130,000 characters currently. These characters are stored in Character-sensitive database and we can specify exactly which characters are being searched. Such distinctions of what constitute different characters change over time and across regions.

[Image: 多国語・多漢字]
[戻る]

Copyright © 2000 by TOKYO UNIVERSITY DIGITAL MUSEUM