2011/09/08

多言語対応の論文用XML DTD

固定リンク | by:ejlabo



学術論文のXML化についてよくご相談をうけます。PubMed Centralへの収録や全文XML化をお考えのジャーナル編集事務局様からが主ですが、最近は、「J-STAGE3のXML対応」に伴うお問い合わせも増えてきました。独立行政法人科学技術振興機構(JST)が運営する科学技術情報発信・流通総合システム(J-STAGE)が2012年4月にリニューアルされる予定で、この新システム(J-STAGE3)では論文データをXMLで扱うとアナウンスされているためです。


学術論文のXML化とNLM DTD

海外では10年以上前から学術論文の流通・保存の目的でXMLが使用されており、米国医学図書館(NLM)が策定したNLM DTDが事実上の標準規格として採用されています。同時に、XMLを使用することで論文内のデータに意味づけをすることができるので、Webサイトでの公開の表現の幅が非常に広がります。事実、海外の電子ジャーナルサイトではXMLを使用した全文HTML公開が多く存在します。

現在のJ-STAGEでは書誌を記述したBIBファイルというテキストファイルが主に扱われていますが、上記のような海外の情勢をうけてJ-STAGE3でも、XMLでのデータ登載とそれによる全文HTML公開が標準になっていきます(実は、現在のJ-STAGEでもXMLで作成した論文データを登載して、全文HTML公開されているジャーナルはいくつかあります)。J-STAGE3で当初想定されていたDTDは事実上標準規格となっていたNLM DTDでしたが、NLM DTDは英語データのみ対象としているという問題がありました。J-STAGEには和文誌も多く登載されており、当然ながらタイトルや著者名、所属名などの書誌情報には日本語があります。しかし、NLM DTDでは日本語の対応が出来ません。


多言語対応の学術論文のXML DTD ― JATS

NLM自身も既に2009年頃NLM DTDの多言語対応に取り組み始めていました。このプロジェクトは、多言語に対応した学術論文用のXML DTDとして、2011年3月にJournal Article Tag Suite(JATS)を米国標準化情報機構(NISO)の規格として発表しています。この版は0.4版として公開され、J-STAGE3もこのJATS 0.4を採用して現在開発されています。JATSは2011年10月に正式な1.0版となる予定です。


XMLデータ作成における問題点

多言語流通のための規格も決まり、いいことづくめの論文のXML化ですが、実はデータを作成するにあたって大きな障壁があります。J-STAGEでのBIBファイルと比較してXMLデータの作成は非常に難しく、特に全文情報を含めたXMLファイルをテキストエディタなどで作成するのは現実的ではありません。一般的には、DTPソフトを利用してデータ作成が行われていますが、コスト面で多くの学協会様を悩ませているようです。J-STAGE3ではこれに対してJ-STAGE3内のひとつのシステムとして書誌XML自動作成システムを学協会に提供するようです。


J-STAGE3の書誌XML自動作成システム

この書誌XML自動作成システムの仕様が8月にJSTから公告されましたので少し紹介したいと思います。まず使用するための準備として以下の作業があります。

  • 準備(1) サンプルとなる論文PDFをアップロードします。
  • 準備(2) サンプルアップロードした論文PDFに対して、タイトル、著者、抄録などの書誌情報が記載されている位置情報を画面で指定します。どこの位置にどの情報があるかをシステムに登録するわけです。

この準備をすませたら、あとは論文ごとに以下の作業を実施します。

  • 編集(1) 利用者が登載する論文PDFをアップロードすると、事前に登録したPDFの位置情報にしたがい、システムが自動的にPDFから書誌情報を抽出する。
  • 編集(2) システムで自動抽出できなかった部分や誤っている部分の書誌情報を利用者が画面上で編集する。
  • 編集(3) 修正した書誌のXMLをダウンロードする。
この手順でテキストエディタやDTPソフトを用いずPDFからXMLを作成することができるシステムのようです。ダウンロードしたXMLをJ-STAGE3の編集登載システムにアップロードすれば、J-STAGE3に論文が登載できます。完全自動抽出とはいかないまでも、学協会様のXMLデータ作成作業をある程度サポートしてくれるでしょう。なお、現段階の仕様では、
  • 対応するファイルはPDFのみ
  • PDFから書誌情報を自動抽出する精度を90%と設定
  • 自動抽出は書誌のみで、将来的に全文に対応予定
という制限があるようです。


なお、弊社ではWordから全文XMLを出力するXML Toolworksという製品を取り扱っています。対応しているDTDは多言語対応されたJATSの前身であるNLM DTDなのですが、英文ジャーナルであればこちらもXML作成のお役に立てると思います。その他、J-STAGE3でのXML登載PubMed Centralに収録したいなど、学術論文のXMLデータ作成も承っていますので是非お問い合わせください。


17:05
お問い合わせ |  運営者情報 |  プライバシーポリシー |  サイトポリシー |  サイトマップ
Copyright (C) 2011- Atlas Co., Ltd. All rights reserved.