12. 装置 PID をデータセットにリンクする

PIDINST の主な目的の 1 つは、装置の科学的出力の追跡を容易にすることです。この恩恵を受けるためには、データセットとデータを収集するために使用される装置との関係を機械可読な方法で確立することが重要です。

12.1. DataCite メタデータ

データセットは通常 DataCite DOI とともに公開されます。 DataCite メタデータスキーマ は、 RelatedIdentifier および RelatedItem プロパティを使用して、データ公開のためにその DOI に登録されたメタデータから装置へリンクすることを可能にします。この場合、推奨される relationTypeIsCollectedBy です。Figure 12.1 は、HZBによって公開されたデータセットの例を示しています(https://doi.org/10.5442/ND000001) 。データは、BER II で E2 - Flat-Cone 回折計ビームラインを使用した中性子回折を使用して収集されました。この画像は、装置の PID をリンクするデータ公開ランディング ページのスクリーンショットを示します。 Snippet 12.1Snippet 12.2 は、このリンクを含む同じデータ出版物からの DOI メタデータのセクションを示しています。

12.2. schema.org

Figure 12.2 は、PANGAEA を通じて公開されている海洋データセット (https://doi.org/10.1594/PANGAEA.887579) の例を示しています。データセットのメタデータには、データセットとそれに関連するエンティティ (学術論文、プロジェクトなど) に関する説明情報が含まれます。データセットは、航海キャンペーン (MSM29) の一環として展開された自律型水中ビークル (AWI AUV Polar Autonomous Underwater Laboratory) に取り付けられたセンサーを介して収集されました。ビークルは、https://sensor.awi.de/ によって割り当てられた永続的な識別子によって識別されます。装置のランディング ページには、説明、製造元、モデル、連絡先、校正情報などの装置のメタデータが含まれています。Figure 12.3 は、データセットの観測イベント (クルーズ キャンペーンなど) と配備された装置 (AUV) をモデル化するために使用できる schema.org のタイプとプロパティを示しています。Figure 12.4 は、実際の schema.org 表現のスニペットを示しています。外部語彙 (NERC SeaVoX プラットフォーム カテゴリおよび GeoLink スキーマ) は、イベントおよび車両の追加タイプを示すために使用されます。schema.org では、「イベント」は特定の時間と場所での出来事を指します。たとえば、社会的なイベントです。そのため、Schema.org の機能に完全に準拠するために、観測イベントと関連する科学機器の記述をサポートするために、新しい型とプロパティが必要です。

12.3. NetCDF4

最先端の研究船は数百万ポンドの水上実験室であり、24時間体制で高出力、高解像度センサーの多様なアレイを運用しています(例: 海底深度、気象、海流速度、水路測量など)。国立海洋学センター(National Oceanography Centre, NOC)[1] と英国南極観測局(British Antarctic Survey, BAS)[2] は現在、 I/Ocean イニシアチブの一環として、これらのセンサーシステムから英国国立環境研究評議会(UK National Environment Research Council, NERC)の大規模な調査船団全体のエンドユーザーまでのデータ管理ワークフローの整合性を改善するために協力しています。 そうすることで、FAIRness[3] を改善し、これらのセンサーアレイからのデータへのアクセスを改善しながら、船舶の時間を費用対効果の高い方法で使用することができます。ソリューションの初期段階では、共通のメタデータ標準を使用して曖昧さを減らしながら、船内の研究者がデータへの調和のとれたアクセスを可能にする共通のNetCDFフォーマットを船舶全体に実装します。フォーマットはNetCDF4に基づいており、Climate Forecast の規則に準拠しています。現在、NetCDF4のグループを使用して、ソナーデータ用のSONAR-netCDF4規約と同様に、装置と関連メタデータの識別に利用できる事が提案されているます[5] 。 この方法により装置のPIDは計測期間の範囲にわたって、地球物理学での計測値の一つとして実装されます (Snippet 12.3)。例えば、センサーが設置されると、データ発見のための属性規約(Attribute Convention for Data Discovery、ACDD)1-3に基づく変数属性 instrument を使用して、データストリームはそれを生成した装置にリンクされます。グループを用いることで、他の変数や属性が機器に関連するより詳細な情報を保持することができます。さらに、グループは、校正、装置の基準フレーム、装置の向き(例えば、風速計の基準点)など、有効な日付範囲を持つ他の情報を保存する方法を提供する可能性があります。

米国の国立海洋大気庁(National Oceanic and Atmospheric Adminstration, NOAA)にある国立環境情報センター(National Centers for Environmental Information, NCEI)は、CF-NetCDF仕様[4] を使用して装置情報を報告しています。これらは、データ発見のための属性規約(Attribute Convention for Data Discovery、ACDD)1-3からの instrument 属性を使用して指定されたグローバル属性である場合があります。または、NetCDFファイルのルートグループ内に空の地球物理学での計測値として定義されることがあります。後者の場合、装置のPIDは、Snippet 12.4 に示されているように、推奨される変数属性内の属性 instrument_pid として表現されることがあります。または、instrument_pid 属性をグローバル属性のセットに追加することもできます。

12.4. OpenAIRE CERIF メタデータ

OpenAIRE Guidelines for CRIS Managers [6] では研究情報システム(Research Information System, CRIS) 管理者が、European Open Science Cloud (EOSC) 等 OpenAIRE と互換性のある情報基盤において、メタデータを公開する方法を指南しています。このガイドラインはCERIF(Common European Research Information Format) を元にした、個々のCRISシステムと、その他の研究 e-インフラとの間で情報を相互変換する事例を提供しています。

このガイドラインによるメタデータ記述では、装置情報に相当する Equipment 要素を含んでおり、GeneratedBy property を介して参照することができます。

Snippet 12.5 装置を表す Equipment エンティティを Product (dataset) メタデータ内で公開する例。 OpenAIRE Guidelines for CRIS Managers repository on GitHubproduct (dataset) example の詳細。
  <GeneratedBy>
    <Equipment id="82394876">
        <Name xml:lang="en">E2 - Flat-Cone Diffractometer</Name>
        <Identifier type="DOI">https://doi.org/10.5442/NI000001</Identifier>
        <Description xml:lang="en">A 3-dimensional part of the reciprocal space can be scanned in less then five steps by combining the “off-plane Bragg-scattering” and the flat-cone layer concept while using a new computer-controlled tilting axis of the detector bank. Parasitic scattering from cryostat or furnace walls is reduced by an oscillating \"radial\" collimator. The datasets and all connected information is stored in one independent NeXus file format for each measurement and can be easily archived. The software package TVneXus deals with the raw data sets, the transformed physical spaces and the usual data analysis tools (e.g. MatLab). TVneXus can convert to various data sets e.g. into powder diffractograms, linear detector projections, rotation crystal pictures or the 2D/3D reciprocal space.</Description>
    </Equipment>
  </GeneratedBy>

Product (dataset) は Id 属性(例 82394874) を介して Equpment レコードに内部的に関連付けられています。 Equipment 自身のメタデータは、 Equipment entity にある equipment metadata レコードを通じて公開されます。

Snippet 12.6 装置を表す Equipment エンティティを Product (dataset) メタデータ内で公開する例。OpenAIRE Guidelines for CRIS Managers repository on GitHubequipment example の詳細。
  <Equipment xmlns="https://www.openaire.eu/cerif-profile/1.2/" id="82394876">
    <Name xml:lang="en">E2 - Flat-Cone Diffractometer</Name>
    <Identifier type="DOI">https://doi.org/10.5442/NI000001</Identifier>
    <Description xml:lang="en">A 3-dimensional part of the reciprocal space can be scanned in less then five steps by combining the “off-plane Bragg-scattering” and the flat-cone layer concept while using a new computer-controlled tilting axis of the detector bank. Parasitic scattering from cryostat or furnace walls is reduced by an oscillating \"radial\" collimator. The datasets and all connected information is stored in one independent NeXus file format for each measurement and can be easily archived. The software package TVneXus deals with the raw data sets, the transformed physical spaces and the usual data analysis tools (e.g. MatLab). TVneXus can convert to various data sets e.g. into powder diffractograms, linear detector projections, rotation crystal pictures or the 2D/3D reciprocal space.</Description>
    <Owner>
      <OrgUnit id="OrgUnits/350002">
        <Acronym>HZB</Acronym>
        <Name xml:lang="de">Helmholtz-Zentrum Berlin Für Materialien Und Energie</Name>
        <Name xml:lang="en">Helmholtz-Zentrum Berlin</Name>
        <RORID>https://ror.org/02aj13c28</RORID>
      </OrgUnit>
    </Owner>
  </Equipment>