現在、総合研究博物館では、収蔵資料データベースと刊行物データベースの、二種類のデータベースをWebサイトで公開している。収蔵資料データベースは、写真画像と付随情報をデータベースとして整理したものであり、データの内容確認が終了したものに関しては、キーワード入力による検索が可能となっている。また、標本資料報告として出版された白亜紀アンモナイト類登録標本データベースも、同じ形式で検索・閲覧できる。刊行物データベースは、これまでに出版された展示会の図録、総合研究資料館ニュース、および総合研究博物館ニュース(ウロボロス)をデジタルデータ化したものであり、こちらは全文検索システムによる文書検索ができるようになっている。
そして、単語の出現頻度などから決定された文書のスコア順に整列して表示する。文章を直接データベース化して検索するため、表形式のデータベースとは異なり、あらかじめ記載情報のフォーマットを決める必要もなく、デジタルデータ化された文章であればどのようなものでも扱うことが出来るという点が、全文検索データベースの特徴である。ただし、全てのキーワードは「単語」として扱われるため、表形式のデータベースでは可能な、たとえば「1950年以前の資料」といった値の比較が必要な検索や、検索結果をある条件で整列する、あるいは条件毎にグループ化して統計情報を抽出するなどの処理を行なうことは出来ない。
さて、収蔵資料データベースのように、さまざまな分野に関する「もの」の情報を表形式のデータベースにする際にまず問題となるのは、データベース化しようとする資料の種類ごとに、記録すべき項目が全く異なり、むしろ、共通点が非常に少ないという点である。例えば、動物・植物など場合は、その生物の学名は必須となる情報であるが、土器・石器のデータベースの場合は、全く異なった情報が必要となる。さらに、同じ分野の標本であっても、標本を整理した研究者がそれぞれの研究に利用しやすい形態で付随情報を記録しているため、共通の項目として統一できない多様な項目が出てくる。
このため、すべての資料を網羅して統一的に利用できるようなスキーマ(データベースを構築するために必要な、データの型や大きさ、キーの選択、表の関連づけなどの構造)を決めるのは、事実上不可能である。このように、必要な情報が全く異なる様々な種類のものを取り扱わなければならないという点が、本だけを整理・収蔵した図書館や、特定の商品だけを扱うオンライン・ショッピング・サイトなどのデータベースとの大きな違いである。
このような理由で、多様な資料全てを網羅した博物館の収蔵資料データベースを、単体のデータベースとして構築することは不可能である。そうでなはく、博物館の収蔵資料データベースのあるべき姿は、多数の専門的なデータベースが利用可能であるという条件のうえで、それらのデータベースを有機的に結合して利用するための、より上位層のシステムとして考えるべきであろう。そこで、総合研究博物館収蔵資料データベースでは、無理にフォーマットの統一を行わずに、まずは資料ごとにすでに整理された状態での付随情報を、そのままデータベース化することにした。
そして、刊行物データベースの全文検索システムによって、データベース間の横のつながりを与えている。たとえば、刊行物データベースで「沖縄」を検索すると、「沖縄」と関係する資料を紹介した図録やウロボロスの記事や、「東アジア・ミクロネシア古写真資料画像データベース」を見つけることができる。残念ながら、現時点では収蔵資料データベースの内容に関してまでは検索されないため、検索が十分であるとは言えない。
しかし、収蔵資料データベースのデータ形式やフォーマットを統一できる部分に関しては統一して、新しい付加情報を持ったデータベースとしての再構築する、また、現在HTMLで書かれている刊行物のアーカイブを、文書中に様々な意味を持たせたマークアップを挿入できるXMLを利用したものに書き換えるなどの作業を将来行うことで、より検索効率の高いシステムを構築することが出来るのではないかと考えている。
(本館助手/情報科学)
Ouroboros 第15号
東京大学総合研究博物館ニュース
発行日:平成13年10月19日
編集人:西秋良宏・佐々木猛智/発行人:高橋 進/発行所:東京大学総合研究博物館