ロゴ

[第一部 デジタルテクノロジー]

電子本


書籍の電子化

世界の大学や図書館を中心に書籍、雑誌の電子化が進んでいる。さらにテキストのみならず図版、画像、音、映像などのマルチメディア情報をデジタル形式で統合したデジタルライブラリの構築が進んでいる。米国国会図書館のデジタルライブラリ(Library of Congress National Digital Library)は米国の歴史的文献を中心にデジタル化を進め、すでに21万点が終了している。NSF/ARPA/NASAの主導するデジタルライブラリ計画は2400万ドルの予算で行われている大学のデジタルライブラリ研究プロジェクトで未来のライブラリを目指して大学に予算を配布している。バチカン図書館(Vatican library)では、バチカン資料を全世界の研究者にインターネットを通じて公開することを計画している。実際の図書館には年間2000人の研究者しか訪問出来ない。そこでIBMの協力でバチカンの15万点のうち2万点のコレクションのデジタル化を進めている。また25年にも亘ってUniversity of Illinoisを中心として進められてきたProject Gutenbergのように、著作権の切れた書籍をボランティアベースで電子化するプロジェクトも盛んである。

デジタル化の手法

現在の書籍は制作過程が電子化されており、当初から機械可読形式にすることも容易になっている。原稿自体がフロッピーディスクや電子メールでの入稿も増えている。電子製版が行われ、雑誌編集はDTP(Desk Top Publishing)化されるものも多い。文書のマークアップ(タグ付け)の国際標準(ISO/IEC 8879:1986)であるSGML(Standard Generalized Markup Language)で記述される文書も増えつつある。さらにWWW上のドキュメントはSGMLの応用の一つであるHTML(HyperText Markup Language)で記述されている。一方、すでに出版された書籍のデジタル化は多くの労力が必要となる。テキストのみなら、OCR(Optical Character Reader)により高い精度でコンピュータに取り込むことが出来る。英文テキストの場合、高品質の印刷で汚れていなければ99.9%程度の精度が出せる。日本語の場合は字種が多いため英文ほど高い精度は出にくいが、それでもページあたりエラーは2文字以内。ただ、マルチカラムやレイアウトの認識ならびに保存、マルチフォントの認識、数式の認識、図表の分離などは問題が残る。そこで図版も含まれた文書や古文書、装飾文書などテキスト情報以外も必要な場合は、イメージスキャナで版面をそのまま入力することになる。画像として扱うためデータ容量が大きく、フルテキスト検索がしにくくなるという欠点がある。

ハイパーテキスト

一般の書物が前から後ろへと順次読み進められる直線的なテキストと言われるのに対し、ハイパーテキストは関連のある事項を飛びながら読む非直線的なテキストであるといえる。具体的にはハイパーテキストはノードという情報のかたまりとノード間を結ぶリンクからなり、あるノードから関連する事項にリンクを張ることにより自由に飛ぶことが出来る。これにより本文から注や参考文献に飛んだり、まず概要だけを読み進めて興味のある部分は詳細事項を読み進むような構造が実現出来る。ハイパーテキストの歴史は1945年のVannevar Bushのエッセイ"As We May think"で仮想的なハイパーテキストシステムMemexを論じたのに始まり、1965年にはTed Nelsonがhypertextという言葉を生み出した。1967年にはBrown大学で初のハイパーテキストシステムHypertext Editing Systemが開発されている。一般的にはApple Computerが1987年に発売したHyperCardという個人情報管理ソフトウェアおよびインターネット上のWWW(World Wide Web)が知られている。国産のパソコン用OSであるBTRONもファイル構造が実身仮身モデルというハイパーテキスト構造を持つ。なお音、画像や動画などマルチメディア情報がノードとリンクのハイパーテキスト構造を持つ場合には、ハイパーメディアと言うことがある。

(坂村 健)

アドレス:/DM_CD/DM_TECH/DIG_BOOK/HOME.HTM

電子化された本を見ている様子ブックスキャナブックスキャナ
電子化された本を見ている様子ブックスキャナ
本を押えつけないでスキャンが可能で綴じ目の歪みを補正する機能がある。
総合研究博物館情報メディア研究室


前のページへ 目次へ 次のページへ