東京大学漢字プロジェクト

文字文化の継承と未来

はじめに
グーテンベルグ以来の文字文化の革命
日本語の漢字は何文字あるのか
電子文字の準備がなぜ遅れているのか
文字使用に関する知的怠惰の蔓延
外字の非効率性
情報基盤としての文字
図書目録の試作
テクストは文字の集合
本のない電子図書館？
「漢字は奥が深いですよ」
現在流通している漢字の収集
漢字データ・ベースの構築
まずは2万字、そして6万字の漢字を目指して
各要素で引ける漢字データ・ベース
国字、異体字、難字の収集
多国語テクスト処理の現状
画像から文字を切り出す方法
プロジェクト紹介

昨年から主として日本語の文字を電子化するプロジェクトを推進してきた。文字文化の未来はデジタル・ミュージアム構想とも無縁ではありえないと思うので、ここにプロジェクトの概要と達成すべき課題とを簡単に紹介しておきたい。

そもそもがわれわれのプロジェクトは「世界のありとあらゆる文字をコンピュータで処理できるようにしましょう」という坂村健氏の提案に即した壮大な企図によるものではあるが、とりあえず、というより緊急かつ身近な課題として日本語の文字、とりわけ漢字の電子化に集中して取り組んできたのである。

グーテンベルグ以来の文字文化の革命

昨今のコンピュータの急速な進歩と、インターネットによる電子通信の驚異的な普及に伴い、活字活版印刷や写植印刷が電子的印刷技術にとってかわられつつある現在は、いわばグーテンベルグ以来の活字文化の革命のさなかにあるといっても過言ではない。日本語の文字の電子化がなぜ緊急な課題かというと、そのような永年の文字文化を継承すべき新たな媒体としての電子文字の整備が徹底的に遅れているからである。現在のワープロやパソコンに搭載されている日本語の文字は、 JIS第1・第2水準の約7千字しかなく、現在準備中のJIS補助漢字5千字を加えても1万2千字にしかならない。そして近い将来に予定されているユニコード対応のシステムでも日本語の文字としては約2万字分の枠組みしか用意されていない状況にある。

日本語の漢字は何文字あるのか

それでは今日の日本社会で流通している漢字文字種はいくつあるのか、そして過去において、歴史的に使用されてきた漢字は幾種類あるのか。実はそれがよくわからないのだ。「 (諸橋) 大漢和辞典」の見出し語が約5万字、そのほかにも日本で歴史的に作られ使われてきたいわゆる国字、地名、人名に用いられてきた異体字も含めると、漢字だけで8万字にはなり、略語や記号類も含めると、おおよそ約10万字の枠組みを用意する必要があろう。現在ワープロ等で使用されている文字種の10倍以上にはなるが、いわゆる天文学的数字ではなく、今日のコンピュータ技術のめざましい進歩を考えれば、 10万字の処理が技術的に困難なわけではない。 21世紀に向けて文字を用意する気があるのか否かの問題のようだ。

電子文字の準備がなぜ遅れているのか

つまり、遅れているのは電子文字の準備であり、その遅れには社会的なさまざまな要因があると思われる。それについてはここでは詳しくは触れないが、純粋に国語学的な理由以外にも、政治・経済・市場力学的な要因があり、あるいは社会学的考証の対象としても興味ある問題ではある。「そんなに多くの漢字を誰が使うのですか」という素朴な効率重視の質問が多かった。これはまた裏返せば、「インターネット通信の時代だから英語を学べ」という、短絡的な発想にも通じる。「使用されている漢字の頻度を考えれば、7千字もあれば十分だ」という考え方の中には、大げさに言えば、自分の姓名が規格の漢字にはない人を抹消しかねない方向性もかいま見られるような気がする。同様な発想で、かつて町名改称が強行され、難解であるとの理由で永年親しまれてきた歴史的な旧町名が味気ない数字に変えられたところもあった。子どもの頃よく乗った都電の沿線の町名には、麻布笄 (こうがい) 町、狸穴 (まみあな) 、蛎殻 (かきがら) 町などがあり、難しい漢字の読みと共に記憶の底に残っており、なつかしい気がする。

文字使用に関する知的怠惰の蔓延

漢字を網羅しようとするプロジェクトを推進しているので誤解されやすいが、私自身は漢字論者になりうるほどの漢字の知識もなく、むしろ幸いにも漢字から解放された知識の時代に教育をうけ、漢字を少し多く知っているからといってインテリぶった戦前の知識人を軽蔑しつつ育った世代に属する。しかし、新聞紙面に散見される「大学生ら致される」、「終えん」 (終焉なのか終演なのか) 、「かい離」、「り病」というような「分かち書き」はやはり気味が悪いし、第一に不合理だから気分が悪くなる。その一方でわけのわからないカタカナ語や英字略語は新聞紙上に氾濫しているのだから、教育的配慮とやらは漢字制限に対してだけなのかと疑問に思う。難しい漢字にはルビをふればよい。ところが使用制限外の漢字でも政治家の名前だけは例外らしく、たとえば中国要人の氏名は正確な発音表記のカタカナもないまま紙面に放置されている。よほどルビやふりがなが嫌いとみえる。わかりやすさよりも美的センスなのか、あるいは効率重視なのかと疑いたくなる。ワープロ発達以前に制定された「分かち書き」漢字使用規則を後生大事に奉持し、再検討しようとしない知的怠惰は、誇り高きジャーナリストのサラリーマン化の一現象にすぎないのかもしれないが、規則よりも読者に対する「わかりやすさ」こそ徹底的に追及すべき課題ではないのか。

外字の非効率性

効率重視の疑問が呈されるたびごとに、「誰が、いつ、どこで使うのかはわかりませんが、使えというのではなく、使いたい人が使いたいときに使えるように、現在および過去において使われてきた漢字を可能な限り収集し、電子文字として用意しておく必要があるのです」と答えることにしている。しかし、できるだけ多くの漢字文字種を電子的に準備することが効率に反することかというと、そうでもなさそうだ。 7千字の規格外の文字は「外字」と呼ばれ、外字領域に登録されるが、その手間は一度やったことのある人ならばわかるが、時間のかかることおびただしく、うんざりする。そして通信不可能なだけではなく、異機種間の互換性もないから、ワープロやコンピュータの機種が変われば、またまた同じ手間をかけなければならない。たとえば企業が社員の名前などの外字作成にかける時間を累積すると、日本社会全体では膨大な浪費になろう。また、各自治体では現在、戸籍登録や住民登録の電算化を進めているが、そのための規格外の人名用漢字フォントの作成費用も莫大になると伝え聞いている。統一コードがなければ、ある自治体で作られたフォントは「外字」のままであり、別の自治体のコンピュータとは交信交換不可能になる。つまり、効率的には無駄な労力の積み重ねになりかねない。統一コードや統一化というと情報の中央集権化と誤解されそうなので危険でありこわい。いうまでもなく、われわれの漢字コード表は一提言として、便利であれば、広くうけいれられることを期待しているにすぎないことを、前もってお断りしておく。

情報基盤としての文字

実業界とはもっとも縁遠いと思われている文学研究にも、市場原理とは異なる効率性がある。近年、図書館情報のコンピュータ化が著しいが、英語が中心をなす理科系の文献データベースの整備 (というより実はアメリカからの購入にすぎない) が急速に進んだが、文系とりわけ文学関係の書誌やデータベースは大幅に遅れている。作るのに手間がかかるし、作るための文字がないからだ。たとえば漢籍目録を例に取ると、7千字のJIS規格内の漢字では目録作成が不可能なことは明らかである。いわんや、ギリシャ語、ラテン語、サンスクリット文字、ロシア語からアラブ語まで文献をもつ文学部の図書の電算化など、文字の整備なしにやろうなどとは無謀である。日本語でも、江戸や鎌倉まで遡らずとも、明治・大正期の文献でさえ正確な目録の電算化は不可能だ。それを無理にやろうとすれば、データとして交信交換不可能な「外字」で強行することになる。そのゆく末は火を見るよりも明らかだと思うが、一般的にその傾向がないわけではない。つまり、作業効率を重視して、可能な限り、かつ無理矢理に、 JIS規格内の漢字に「書き換え」てしまうのである。旧字体や無い漢字を不正確な漢字に置き換えてしまったでたらめな書誌目録は、将来使いものにならないどころか、文献学的に正確な作業をやり直す時に、すでにデータがあるからという口実で作業を妨害しかねず、むしろ害悪をなす。真の効率性とは、むしろ遠回りするようでも、電子文字の準備から始めることではないのか、というのがわれわれの出発点であった。

図書目録の試作

文学部の図書の中でも漢字に関係する「漢籍目録」と「国語学蔵書目録」の電子化を大日本印刷の協力をえて試作してみた。十分に文字が用意されていない現状で、どのように解決するのか興味津々であったが、さすがは技術力にすぐれた日本の印刷会社である。データ入力を担当したベテランの女性のご苦労な仕事の現場も見学させていただいたが、結局は正確に図書目録の通りに忠実に入力していただき、パソコンで読めるように、JIS規格のフォント集号を改編し、目録作成に必要なだけの漢字フォントと記号類に置き換えて、完成していただいた。その特殊なフォント集と一緒でなければデータを見ることはできないので、インターネットですぐに公開というわけにはゆかないが、フォントをインストールした個々のパソコンでは印刷も可能である。現在はそのデータと漢籍の原書との照合作業が行われているところである。

テクストは文字の集合

同じことがテクストの電子化にもいえよう。新たな媒体としてCD-ROMに電子化された「広辞苑」が大変よく売れているそうである。この中にもかなりの数の「外字」が使われているが、見るだけでは妨げにならないように工夫されており、付属するものとは別の書体のフォント集にしないかぎりその障害に気づいた人は少ないはずである。しかし、頻度が少ないとはいえ「外字」が交信交換不可能なことにはかわりはない。ところが、2万字を超えた「漢和辞典」の電子化になれば、話はべつである。見るだけであり、引用するためにワープロにコピーして使ったりすれば、その障害は一目瞭然になるだろう。

ちなみに、台湾で入力された中国「二十五史」の膨大な電子化テクスト一式を文学部に導入し、中国語のシステムでなければ使えないという制約はあるが、自由自在に語彙の全文検索ができるようになり、将来の中国研究にとって画期的かつ貴重な研究手段であることはまちがいない。

本のない電子図書館？

機種に依存しないデータの互換性と次世代にも使える恒久性が保証されない限り、膨大な労力を要するテクストの電子化や文献目録のデータベースの構築は壮大なる無駄になりかねない。ちなみに、世の中でもてはやされている「電子図書館」とはなんなのだろう。英語の最新情報が読めたり、新聞の閲覧がインターネットでできるだけで「図書館」といえるのだろうか。どんな貴重な文献が電子化されたテクストとして作成され、蓄積され、公開されているのか、知りたいものである。

たとえば、明治大正期の夏目漱石や森鴎外の作品であっても、テクストとして入力するならば、誰しもが手にするわけにはゆかない初版本とか、著者によって決定稿とされたものの、正確かつ忠実に写したテクストであってほしいと思う。当用漢字内の漢字に制限された文庫本を電子化しても、学術的には無駄であり、文庫本を買って読めばいいのだから商業的にもメリットはないと思うが、昨今の傾向はややもすればその手の安易さをもって電子化がおこなわれているきらいがなきにしもあらずで、要するにコンピュータ組版の副産物としての安手の電子文庫本が流行するのかもしれない。

ところが、漱石でも鴎外でも、当時のテクストは旧字体でとうてい現在の規格内7千字では電子化できない。またまた「旧字体でだれが読むのですか」という市場性を重視した反論が聞こえてきそうである。原著者が意図したとおりの最良のテクストを誰にでも公開し、読むことを可能することのほかに、電子化する文化的な意義があるのだろうか。当時の用字法のままにルビのふられた旧字体が読みにくければ、並行して現代かなづかいに直した現代版を付録すればよいし、音声化すればよいが、それは真正なテクストそのものにとっては二義的なことでしかない。

「漢字は奥が深いですよ」

さて、日本の文字の電子化、とりわけ漢字を網羅的に収集し、電子化しようとするわれわれの出発点を説明してきたが、以下に昨年から今年にかけて2年間の奮闘の成果の一端を紹介しよう。昨年はもっぱら現在の日本社会で流通している漢字の収集に精力的に取り組んだ。当初はさまざまなところから借りてきた漢字フォントを用いて、網羅的な漢字統一コード表を作成すればよいと考えていたのだが、実は漢字にはさまざまな権利関係が錯綜していて、主にデザイン権とでもいうのか、慣習的に商業的な権利が設定されているそうで、「漢字は奥が深いですよ」という、なぐさめともおどしともとれる忠告が切実に身にしみ、挫折感にとらわれた。

現在流通している漢字の収集

まずは岩波書店辞典部の協力をえて、「広辞苑」で使われている外字リスト (1700字) を見ることができ、大手印刷会社の協力がえられたところから展望が開け始めた。そして「研究資料として」という限定付きで現在印刷業界で使われている約2万字の文字フォントの提供があった。その頃から、一般に公開するためにはわれわれ自身が漢字フォントを作らなければならないと決意せざるをえなくなった。 6万字の漢字を書家に依頼しようとまで思ったが、費用と時間の点で断念した。後になると無料でフォントを提供しようという親切な方々にもお会いしたが、結局はどこかで権利関係の問題が起こりかねないし、 6万字から8万字を目指してコード表を作る上でも、つぎはぎだらけの文字よりは統一性のとれた文字のほうがよいに決まっている。幸いにリコーのフォント開発センターの協力が得られたので、フォント制作を依頼することになった。

つぎにはＮＴＴの電話帳事業部にお願いして、電話帳で使われている人名・地名に用いられた「外字」のリスト (5千字) を提供してもらい、そこで使われている漢字フォントをＮＥＣからあくまでも研究資料として借りることができた。日経新聞社からは、新聞で用いられた外字リスト (370字) を見せていただき、中国要人の氏名に用いられたとおぼしき漢字の存在を再認識することになった。

そのほか、漢和辞典で用いられている標準的な漢字 (5万字) 、ユニコードに収容されるとおぼしき漢字 (2万字) 、 JIS規格漢字 (1万2千字) 、日本印刷産業連合会外字リスト (5千字) などを合計すると、結局のところ、約13万字を収集したことになる。むろん重複はある。

漢字データ・ベースの構築

以上の資料体を整理するための漢字データベースの作成が急務になった。十年ほど前に山口明穂氏が中心になって作ったデータベース約7千字分が、未完成のままであったので、富士通に依頼してデータを変換し、最終的には大日本印刷に修正作業入力をお願いして完成させた。この漢字データベースは、音訓、部首、画数、各種コードとともに引用例が入っている貴重なものであるが、これをベースにして2万字から6万字 (あるいは8万字) の漢字データベースの構築を目指すことにした。フォント制作過程での工程管理の意味もあるので、同じくリコーに依頼した。

まずは2万字、そして6万字の漢字を目指して

今日流通している漢字の頻度の概念は2千字ぐらいまでが9割を占め、大まかな目安としても5千字ぐらいまでしか有効ではない。印刷業界でも、1万字を超えたところからは注文された書籍の分野によって大きな偏りがでる。現在流通している漢字としては一般的には2万字が基準になるようである。ただし、2万字の漢字をどれほどうまく選択したとしても、頻度の分類はもはや不可能であり、また漏れもでる。むしろどうしても2万語に限定するならば、医学用語、動植物名、機械工学、あるいは地名・人名など、五千語ぐらいづつの分野別のブロックにわけて、置き換えられるように用意するのも一つの解決策であろう。

しかし、一応の目安としてはあっても、 2万語に限定しなければならない技術的な条件はわれわれにはない。学術用としては「漢和辞典」がある以上、既存の漢和辞典に使われているほぼすべての漢字をまずは網羅する必要がある。すでに収集した現在流通している漢字群と比較照合するために、併せて13万字以上のデータ・ベースになったが、重複しているので、精選すれば6万字から8万字ぐらいにはなる。

各要素で引ける漢字データ・ベース

そのすべての漢字に音訓、部首、画数、各種コードを入力するのだが、中には読みも出自 (どのような資料体からでてきたか) も分からない漢字がある。 1万字を超えれば、いうまでもなく私にはほとんどわからない漢字ばかりである。そこで、電子情報ならではの新しい工夫として、読みも部首も画数もわからなくても、漢字を構成する各要素 (タテ棒ヨコ線の類) 、あるいは要素群 (「木」や「竹」の含まれている漢字) で引けるようにした。これから精度を高めてゆくところである。

国字、異体字、難字の収集

漢和辞典もやはり外国語の辞典である。日本で使われてきた肝心な文字が抜け落ちてしまう可能性がある。そこで国文研究室の長島弘明氏に、「大漢和」にない文字の収集を依頼したところ、 1500字を超える「国字、異体字、難字」の文字が収集され、出典や読み、画数などを記載した貴重な資料体を構築して下さった。やがては国文学のテクストや目録を電子化する上で、収集された文字が役に立つものと確信している。

多国語テクスト処理の現状

今回は、漢字の問題ばかりを紹介し、本来の多国語テクストの処理について紹介するひまがなくなってしまったので、要点のみを記しておく。フランスではすでに「フランス語宝鑑」として完結した辞典編纂のために、 30年まえほどから電子化してきた文学作品が、今日2千を超え、そこから自由な語の検索が可能になっている。イギリスでは大英図書館が、西洋語に限られてはいるが、ギリシャ語やキリル文字を含む多国語処理による電子図書目録を完成し、従来の図書カード索引の枠組みを画期的に超えた「全文検索」システムを実用化している。イタリアのフィレンツェでは、ラテン語からイタリア語として独立した時代にまで遡り、 12、13世紀のイタリア語写本のコンピュータ入力作業を、校訂作業と並行して、30年ほど前から継続して行っており、 1千種のテクストをすでに電子化してきた。いずれも国家的な継続的事業として自国語・多国語のテクストの入力作業が行われていることは、言語とくに自国語に対する尊敬の念を示すものであり、また文字文化の未来への基盤として、テクストの校訂と電子化が並行しておこなわれていることには感銘の深いものがある。

画像から文字を切り出す方法

最後にテクスト入力について一言触れておくと、一般的な傾向としては従来のOCRの技術的限界に見切りをつけ、結局人手で入力をせざるをえない状況にある。ただし、大変印象的であったのは、大英図書館で、ある若手の技術者が目録を画像入力し、その画像から直接必要な文字を検索できるように、パターン認識に秀でた、そしてかなりの学習能力を備えた人工知能的ソフトの実用化に取り組んでいた。これが可能であれば、貴重書をテクストとしてではなく画像として保存し、必要な時に求めている語彙の検索ができる大変有益な画期的な技術だと思う。日本語でも可能だろうか。人件費の高い日本では、少なくとも実験してみる価値はありそうである。今後のわれわれの課題でもある。

最後に、あえて個々の方々のお名前は記さないが、ご協力いただいたすべての方々に深甚なる感謝の念をささげると同時に、なお一層の広範なるご支援をお願いし、このプロジェクトの成果が文字文化の継承と未来に少しでも役立つことを願いつつ、やや長くなってしまった拙稿を終えたい。

1996年12月 (田村毅)

プロジェクト紹介

平成7年度日本学術振興会産学共同研究支援事業
「人文系多国語テクスト・プロセシング・システムの構築に関する研究」
平成8年度日本学術振興会未来開拓学術研究推進事業
「マルチメディア通信システムにおける多国語処理研究プロジェクト」

プロジェクト代表者　

田村毅
東京大学大学院人文社会系研究科・教授 (フランス文学)

企画委員

青柳正規
東京大学文学部・教授 (ギリシャ・ローマ考古学)
片山英男
東京大学大学院人文社会系研究科・教授 (西洋古典学)
坂村健
東京大学博物館・教授 (大学院理学系研究科・情報科学)

日本語漢字監修　

山口明穂
中央大学文学部・教授 (東京大学名誉教授・国語学)

[編者注] 「東京大学漢字プロジェクト」に関連する項目として、コンピュータの多国語処理について議論する場が以下のアドレスで提供されています。どうぞ、こちらも参照して下さい。

http://www.personal-media.co.jp/vs/mltp96/home_j.html

[編者注] この展示内容に関する最新情報や関連資料等は、随時、東京大学総合研究博物館のインターネットサーバ上の以下のアドレスで公開、提供していきます。

http://www.um.u-tokyo.ac.jp/DM_CD/DM_TECH/KAN_PRJ/HOME.HTM