
論文の書誌情報とメタデータ
1.1. メタデータとは
電子ジャーナルや文献データベースに登録されている論文にアクセスする方法として、論文の書誌情報の「データ」による検索があげられます。電子ジャーナル情報室の「リンクされるための引用文献リンク」では、引用文献リンクのためには、「正しいスタイルで記述すること」と「正しい書誌で記述すること」が重要であると記述しました。電子上のリンクは、記述された書誌情報を「データ」とし、その「データ」で文献データベースなどを検索することで、実現します。
この書誌情報の「データ」は、電子上の論文の「データについてのデータ」(NIIメタデータ・データベース入力マニュアル2.0版から引用)であり、「メタデータ」と呼ばれます。また、電子上の論文のようなインターネット上の情報資源についてだけでなく、図書館で作成されているような図書・雑誌の目録や索引などの二次情報もすべて「メタデータ」です。この「メタデータ」により、情報資源を整理し、保存・管理に利用したり、情報資源を発見することに利用します。
図1 メタデータについて
1.2. メタデータとコンテンツ、さらにID
インターネット上の情報資源である電子ジャーナルや文献データベースの論文のメタデータは、項目ごとに要素を定義し、作成されます。最近では、要素間の関係を分析し、階層構造とする「構造化」を行うことでXML文書として作成されることが増えています。
こうして作成されたメタデータをメタデータで検索することで、インターネット上の情報資源である論文のコンテンツを発見します。そして、当該コンテンツのURLを取得することで、閲覧可能となります。URLは、電子ジャーナルや文献データベースの場合、論文のIDを取得することで、IDに対応するURLであったり、IDから組み立てられたURLとして取得されます。
IDによる閲覧リンクの事例として、DOIによるリンクがあげられます。(DOIとリンクについて) 「メタデータでCrossRefを検索→DOIを取得→コンテンツ」でリンクするのですが、これは、 「メタデータ→ID(IDからURL)→コンテンツ」といった経路と言えます。
コンテンツとそのメタデータが定義されていることにより、検索できることから、以下のような関係をもっていると言えます。
図2 コンテンツ・メタデータ・IDの関係
この図からは、
- メタデータで検索→ IDを取得→コンテンツにアクセス
- IDでアクセス→コンテンツにアクセス→メタデータを取得
- コンテンツにアクセス→メタデータを取得→IDを取得
逆方向として
もあり、どのルートからも探索できる、という関係にあります。
1.3. メタデータでの検索
メタデータでの検索には、検索するメタデータの要素を検索対象である相手先サイトのメタデータの要素が何であるか、つまりメタデータの書式を理解し、その要素に合わせて検索を行います。 しかし、「リンクされるための引用文献リンク(第三回)(1/2)」で紹介したように、メタデータの要素としては同じでも、データの値が異なっていることがあり、それが原因で、発見できないことがあります。
図3 メタデータの登録値の違い
要素は同じでも値が異なるといった場合でも、検索できるようにするためには、相手先のメタデータの書式を理解しているだけではなく、要素の値が作成される際の「ルール」を理解し、変換する必要があります。
まったく別分野のデータベースではなく、学術文献に関するデータベースなのですから、同じメタデータの要素の値を作成する「ルール」が「標準」として決まっていれば、検索できないといったことにはなりません。
もしくは、それぞれの論文の「標準となるメタデータ」が流通し、それぞれのサイトに登録されていれば、発見できないという事態は発生しないのですが、実際はそうではありません。
図4 発見できないケース
このことは、きちんとした立派なシステムに関わっている方々であればあるほど、理解してもらえない、といったことがありました。おそらく、要素同士が合っているのなら、確実にうまくいくはず、と考える傾向が強いようです。歴史的な蓄積のある文献の書誌情報のメタデータなので、一見、標準化されていそうなのですが、標準化はされていないのです。