[The University Museum]

電子本


書籍の電子化

世界の大学や図書館 を中心に書籍、雑誌の電子化が進んでいる。 さらにテキストのみならず図版、画像、音、映像などのマルチメディア情報を デジタル形式で統合した デジタルライブラリの構築が進んでいる。

[電子化された本を見ている様子の画像]
電子化された本を見ている様子

米国国会図書館のデジタルライブラリ (Library of Congress National Digital Library) は米国の歴史的文献を中心にデジタル化を進め、 すでに21万点が終了している。 NSF / ARPA / NASA の主導するデジタルライブラリ計画は2400万ドルの予算で行われている 大学のデジタルライブラリ研究プロジェクトで 未来のライブラリを目指して大学に予算を配布している。 バチカン図書館 (Vatican library) では、 バチカン資料を全世界の研究者にインターネットを通じて公開することを 計画している。 実際の図書館には年間2000人の研究者しか訪問出来ない。 そこでIBMの協力で バチカンの15万点のうち2万点のコレクションのデジタル化を進めている。 また25年にもわたって University of Illinois を中心として進められてきた Project Gutenberg のように、著作権の切れた書籍を ボランティアベースで電子化するプロジェクトも盛んである。

デジタル化の手法

現在の書籍は制作過程が電子化されており、 当初から機械可読形式にすることも容易になっている。 原稿自体がフロッピーディスクや電子メールでの入稿も増えている。 電子製版が行われ、 雑誌編集は DTP (Desk Top Publishing) 化されるものも多い。 文書のマークアップ (タグ付け) の国際標準 (ISO / IEC8879 : 1986) である SGML (Standard Generalized Markup Language) で記述される文書も増えつつある。 さらにWWW上のドキュメントはSGMLの応用の一つである HTML (HyperText Markup Language) で記述されている。 一方、すでに出版された書籍のデジタル化は多くの労力が必要となる。 テキストのみなら、OCR (Optical Character Reader) により 高い精度でコンピュータに取り込むことが出来る。

英文テキストの場合、高品質の印刷で汚れていなければ 99.9%程度の精度が出せる。 日本語の場合は字種が多いため英文ほど高い精度は出にくいが、 それでもページあたりエラーは2文字以内。 ただ、マルチカラムやレイアウトの認識ならびに保存、 マルチフォントの認識、数式の認識、図表の分離などは問題が残る。

[ブックスキャナの画像]
ブックスキャナ

本を押さえつけないでスキャンが可能で綴じ目の歪みを補正する機能がある
総合研究博物館情報メディア研究室

[高精度フラットベッドスキャナの画像]
高精度フラットベッドスキャナ

そこで図版も含まれた文書や古文書、 装飾文書などテキスト情報以外も必要な場合は、 イメージスキャナで版面をそのまま入力することになる。 画像として扱うためデータ容量が大きく、 フルテキスト検索がしにくくなるという欠点がある。

ハイパーテキスト

一般の書物が前から後ろへと順次読み進められる 直線的なテキストと言われるのに対し、 ハイパーテキストは関連のある事項を飛びながら読む 非直線的なテキストであるといえる。 具体的にはハイパーテキストは ノードという情報のかたまりとノード間を結ぶリンクからなり、 あるノードから関連する事項にリンクを張ることにより 自由に飛ぶことが出来る。 これにより本文から注や参考文献に飛んだり、まず概要だけを読み進めて 興味のある部分は詳細事項を読み進むような構造が実現出来る。 ハイパーテキストの歴史は1945年の Vannevar Bush のエッセイ "As We May think"で 仮想的なハイパーテキストシステム Memexを論じたのに始まり、 1965年にはTed Nelsonが hypertext という言葉を生み出した。 1967年にはBrown大学で 初のハイパーテキストシステム Hypertext Editing System が開発されている。 一般的にはApple Computer が 1987年に発売した HyperCard という個人情報管理ソフトウェア およびインターネット上のWWW (World Wide Web) が知られている。 国産のパソコン用OSである BTRON もファイル構造が実身仮身モデルという ハイパーテキスト構造を持つ。 なお音、画像や動画などマルチメディア情報が ノードとリンクのハイパーテキスト構造を持つ場合には、 ハイパーメディアと言うことがある。

(坂村 健)


[編者注] この展示内容に関する最新情報や関連資料等は、随時、 東京大学総合研究博物館のインターネットサーバ上の 以下のアドレスで公開、提供していきます。

https://www.um.u-tokyo.ac.jp/DM_CD/DM_TECH/DIG_BOOK/HOME.HTM


[Up]

[Logo]

Copyright (C) 1997 Tokyo University Digital Museum
Version 1.1
web-master@um.u-tokyo.ac.jp