デジタルミュージアムを支える技術
基礎技術

データベース技術

− 越塚 登


デジタルミュージアムでは、学術資料データを大量に蓄積保存し、さらにそれをユーザと親和性の高い形で提供できなければならない。そのような要求に応えるためには、データベース技術が不可欠である。コンピュータの歴史と同じ程度データベースの歴史も長いが、本稿では近年のデータベース利用上の大きな変化として、マルチメディアデータベース、分散型データベース、全文検索型データベースについて述べる。


マルチメディアデータベース

図1 マルチメディアデータベース

従来型のデータベースは、扱えるデータは基本的に文字列や数字で、検索方法も文字列の照合や数式による条件照合だけであった。近年、扱えるデータも、写真などの画像から、動画、音声など、多岐にわたるマルチメディアデータベースが登場した。検索も画像や音声のデータの並びで照合することが可能となってきている。例えば、マルチメディアデータベースの画像データに対して、何ら説明データを付加しなくとも、例えば海の画像だけ検索するとか、山が遠景に映っている画像だけ取り出すことが可能になってきた。


分散型データベース

従来型のデータベースは、検索端末を分散させてデジタル通信回線を利用して検索することはあったものの、データベース本体を複数の場所に分散して配置するようなことはなかった。近年、それぞれが独自に運用されているにもかかわらず、統一的に検索を行う、分散型データベースが登場した。現在では、データを一ヶ所で集中管理することは、データ容量的にも、またデータの知的所有権的面からも限界があるため、それぞれが独立に運用されたデータベースを互いにコンピュータネットワークで接続して仮想的に一体的なデータベースとして検索できる分散データベースが適しており、それに向かって移行しようとしている。


全文検索型データベース

従来型のデータベースはスキーマと呼ばれるデータベースのデータの構造(一種の雛形)を始めに決めておく。例えば資料の名称は文字列で40文字であるとか、資料整理番号は、8桁の十進数であるとかいう具合である。基本的には、一旦スキーマを定めたら、そのスキーマから逸脱した形式のデータを入力することは許されず、必ずその形式に従ってデータを入力しなければならない。

この方法の限界として従来より指摘されていたことが、そもそもデジタル化されているデータは多くあっても、データベースのスキーマの形式に整える作業量が大きくなることである。近年、HTMLやXMLのように、ある程度データ形式が定型化されてはいるものの、データベースで扱える程に完全なスキーマではないコンテンツも急増しており、これらのデータを検索したいという要求も強くあった。

そこで、既に電子化されているデータそのままの状態で検索を可能にする技術が求められていた。そこで着目されたのが、全文検索技術である。全文検索データベースは、テキストデータ化さえされていれば、そこに含まれている文字列照合を行うことができる。それによって、特定の文字列パターンを含むテキスト情報の部分を検索することが可能となった。

    
図2 全文検索データベース