この記事は、DMBOK2のデータマネジメントの参照データとマスタデータについて、概要を解説します。
この参照データとマスタデータは、DMBOK2の知識エリアの一つであり、Peter AikenのFrameworkでは、実際に利用するData Analytics & Bigdataの直下、全体から見て下から4番目のレイヤ(下図の赤枠参照)に位置します。
特徴としては、下層の3つの設計や運用に支えられます。特に下記のレイヤのデータ管理機能が必要になります。(参照データとマスタデータだけで十分と考えないことを留意してください。)
- 1層(一番下):Data Governance
- 2層:Data Quality、Metadata
- 3層:Data Integration & Interoperability
本記事の想定読者と、読むことで得られる内容は下記のとおりです。
また、本記事は、私の経験に基づいて記載していますが、基礎的な知識についてはデータマネジメント知識体系ガイド 第二版(DMBOK2)を参考にしています。最初は章ごとに読み込んだり、後ほど必要になった際に参考にすると良いと思います。
参照データとマスタデータとは
参照データと、マスタデータについて定義し解説します。概念を図に示すと下記のようなイメージになるかと思います。
参照データとは
参照データとは、他のデータを特徴付けたり、データベース内のデータと外部組織の情報とを関連付けたりするデータです。下記のようなものが考えられます。
- コードと適用で構成されたリスト
- US | United States of America
- GB | United Kingdom(Great Britain)
- アメリカの州コードに対する相互参照
- 米国郵便公社の州コード : CA
- ISOの州コード:US-CA
- FIPS(連邦情報処理規格):06
- 州略語:Calif.
- 州名:California
- 州正式名称:State of California
- 米国郵便番号(階層ごとに異なる特性情報を持つタクソノミ型参照データ)
- 町
- 郡
- 州
また、外部に依存するデータもあります。これらの外部に依存する参照データを使用することで、外部との比較や、外部と一貫したアプローチが可能になります。
- 業界参照データ
- 地理データと地球統計学データ
マスタデータとは
ビジネスエンティティ※1に関するデータであり、業務トランザクションや業務分析に意味を与えます。
ビジネスエンティティの例
- 従業員
- 顧客
- 製品
- 財務構造
- 資産
- 場所
マスタデータは、主要なビジネスエンティティがデータになったものです。信頼性があり最も正確さが求められます。
なぜ、参照データとマスタデータが必要か?
組織内の複数部署が「完全」で「最新」で「一貫性」があり「信頼性」が高い共通のデータセットにアクセスできるようにすることで、組織が設定したゴールを達成できます。
しかし、ほとんどの組織では、様々な業務やITシステムにまたがって使われているデータが存在しそれが増殖し続けます。このようなデータは「データ構造」や「不整合」を生み、意思決定や機会損失に繋がります。
これを改善するため統合等を行うには、膨大なコストがかかるため、マスタデータと参照データを管理することにより低減が出来ます。
参照データとマスタデータの目指す姿(ゴール)
下記の状態を目指します。
- 組織の業務プロセス全体にわたり、完全で一貫性があり最新で信頼出来るマスタデータと参照データを持つことが保証されること
- 全社の業務機能とアプリケーション間でマスタデータと参照データが共有できること
- データ標準、共通データモデル、統合パターンを駆使して、コストを削減しデータの利用と統合の複雑さを軽減すること
参照データとマスタデータの管理指針
参照データとマスタデータは、下記の指針で管理します。
- 共有データ:組織内で共有できるように管理すること
- データ所有権:組織に所属する。決して特定のアプリケーションや部門に属するのでは無い。それらのデータは広く共有されるので、高度なスチューワード制が必要になる。
- 品質:継続的なデータ品質の監視とガバナンスを必要とする。
- スチュワード:業務側のデータスチュワードは参照データの品質を管理し保証するための責任を負う。
- 変更管理:
- マスタデータ:値の変更を伴うマッチングルールは、慎重かつ注意を払って適用する必要がある。マージや分割された識別子は全てもとに戻すことが出来なければならない。
- 参照データ:規定のプロセスに従う必要がある。変更は承認され伝達する。
- 権限:正式な記録システムからのみ複製する必要がある。組織全体でマスタデータを共有できるような正式参照システムが必要な場合がある。
参照データ管理のゴール
ドメイン定義値、項目定義、ドメイン値内とドメイン間の関係等を制御し保守します。
マスタデータ管理の概念
マスタデータの管理にはいくつかの重要な概念があります。
正式記録システムと正式参照システム(System of Record and System of Reference)
正式記録システムと、正式参照システム。日本語にすると変な名前ですが。。
概念にすると下記のようなイメージになります。※なお、正式参照システムのデータソースは、正式記録システムで記録されたデータに限りません。
異なるバージョンのデータ(レコード)がある場合は、それらを区別する必要があります。
- 正式記録システム:定義された一連のルールや期待に基づきデータを作成/トレースし維持するための正式なシステムを指します。
- 正式参照システム:データ利用者がトランザクションや分析のために信頼できるデータを取得するための正式なシステムを指します。
正式参照システムの例を下記に記載します。
- MDMアプリケーション
- データ共有ハブ
- データウェアハウス
信頼できるソースとゴールデンレコード
- 信頼できるソース:最も正確なバージョンです。(また、シングルビュー、360度ビューとも呼ばれます。つまり、どこから見ても信頼できるという意味なのでしょう。)これは、上述した正式記録システムでも載せた自動ルールと手動管理を組み合わせて実現します。
- ゴールデンレコード:信頼できるソース内において、最も正確なデータを表す一連のレコードを指す。
マスタデータ管理 (Master Data Management : MDM )
マスタデータ管理は、重要なビジネスエンティティを下記の特性を持てるように制御します。
- 最も正確
- タイムリー
- システム間で一貫している
上記の特性を実現するためには、システムを入れて終わりではありません。マスタデータ管理は、人、プロセス、技術で構成された分野です。
マスタデータの管理は難しく、データは時間の経過とともに変化し、この変化に体系的に対応するために計画立案、データ関連知識、技術力が必要になります。
マスタデータ管理計画
下記のような基本ステップが考えられる。
- マスタデータ・エンティティに対する包括的な視点を提供する情報源の候補を特定する
- エンティティインスタンスを正確に照合しマージするためのルールを作成する
- 不適切にマッチされたりマージされたりしたデータを識別して復元するアプローチを確立する
- 信頼できるデータを企業全体のシステムに配布するアプローチを確立する
また、マスタデータ管理は、ライフサイクル管理プロセスの要素も持ちます。下記のような活動が必要になります。
- テーブルフォーマットやE-R図を整備し、関連属性の定義とその使用条件を含むマスタデータ・エンティティの環境を確立する。
- バージョン管理とどのバージョンを参照できるようにし、データソース内やデータソース間で同じエンティティを示す複数のインスタンスを判別する。情報統合を可能にする識別子と相互参照を作成し維持する。
- マスタレコードや最も正確なバージョンを提供するため、ソース間でデータを照合し統合する、統合されたレコードは、システム間で情報がマージされたビューとなり、属性名称とデータ値の不一致に対処することになる。
- 不適切にマッチされたりマージされたしたインスタンスを判別した後、それが解決され識別子に正しく関連付けられていることを確認するプロセスを設ける。
- 信頼できるマスタデータへ複数アプリケーションからアクセスする方法を確立する。下記のようなものが考えられる。
- 直接参照
- API(データサービス)
- コピー
- 組織内で確実にマスタデータ値が使用されるようにする。共有されるべき全社的な視点を確立するために、このプロセスにはガバナンスと変更管理が必要になる。
活動内容(アクティビティ)
マスタデータと参照データは似ているが、異なる部分もあります。この違いを受けて活動内容も変わってくるためそれぞれ解説します。
目的と要件の定義
目的、プロフィット(便益)、障壁(難易度の高さ)、進め方(対象の選定)を整理し明確にします。
カテゴリ | マスタデータ | 参照データ |
---|---|---|
目的 | マスタデータマネジメントを行う意義は、組織により変わる。 例えば下記の要素で決まる。 ・システムの数と種類 ・経過年数 ・サポートする業務プロセス ・データがどのようにリヨウされるか(トランザクションと分析の両面で) | 運用効率とデータ品質の向上 |
メリット | 一般的には、下記が考えられる。 ・顧客サービス、業務効率を改善する。 ・プライバシーとコンプライアンスに関連するリスクを削減する。 | 一般的には、下記が考えられる。 ・複数部門で管理するよりも、参照データを一元的に管理する方がコスト効率は向上する。 ・システム間で矛盾が生じる確立はリスクも低減する。 |
障害 | 文化的障壁として、システム間のデータ構造の違いや意味がある。 | 複雑な参照データセットは、単純なものよりも設定徒歩酒に多くの作業を必要とする。 |
進め方のアイデア | 改善のコストとメリット、マスタデータ対象領域の相対的な複雑性を考慮した優先度を付けて、簡単なものから始める。 | 最も重要な参照データセットが参照データ管理システムの要件を決定する要因になる。 |
データソースの評価と査定
対象データソースの特定し、評価し、協力体制や購入を検討します。
カテゴリ | マスタデータ | 参照データ |
---|---|---|
対象データソース | 既存のアプリケーションにあるデータが、マスタデータ管理の取り組みの基盤になる。 | 内部と外部の参照データがある 外部データでは、ほとんどの業界標準参照データセットはそれを維持する団体から入手可能。 |
評価 | 構造・定義・プロセス ・使われているデータの構造と内容、そのデータを収集し作成するプロセスを理解することが重要 品質 ・データ品質を把握する。データ品質問題はマスタデータプロジェクトを複雑にする。評価プロセスでは、データの問題を引き起こす根本原因も解決する。(データは高品質であると期待してはいけない。) | 費用 ・団体によって無料と有料がある。 ・有料版を提供するベンダによってスケジュールに沿って更新され配信を保証しているものもあるため、基本的な品質管理を実行している可能性がある。 難易度 ・内部で利用しているデータは、外部のデータを選定するよりも難易度が高い。 特定し、比較し、評価する必要がある。 |
購入・協力体制 | 一部のマスタデータ・エンティティ(顧客、取引先、ベンダ等)では、標準化されたデータを購入して、マスタデータ管理の取り組みに役立てることが出来る。 ベンダーの提供するデータを使用して内部のデータを改善することができる。 | 既存データの所有者には、中央管理の利点を理解して、企業全体の利益のためにデータ管理プロセスを支援していただく。 |
アーキテクチャ的アプローチ
目的と要件の定義のアウトプットである要件を改めて整理し、ツールの検討を行います。
カテゴリ | マスタデータ | 参照データ |
---|---|---|
要件の整理(ツール検討前の整理) | ・事業戦略 ・既存データソースのプラットフォーム ・データ自体(リネージと変更頻度、高遅延、低遅延の影響) | ・データの変動性(比較的静的か?頻繁に変動するか) ・更新頻度 ・利用シナリオ ・値の変更に対して、履歴データを保持する必要があるか |
ツールの検討 | ・業務要件 ・ソースシステムの数、ソースシステムが必要とするプラットフォーム | 常に一部の参照データは主導で更新することから下記をおさえておく ・更新用のインタフェイスが簡単であること ・基本的なデータ入力ルールが確実に機能するような設定できること(例:階層形式の参照データで親子関係が維持されるようにする。) ・承認と通知の自動ワークフロー機能を有する |
備考 | ツール検討例 ・小規模組織:トランザクションハブ ・複数システムを持つグローバル組織:レジストリ ・業務部門と様々んソースシステムを持つ組織:統合アプローチ ・マスタデータの正式記録システムが明確ではない場合、データ共有ハブアーキテクチャが役立つ | – |
モデル
モデルとは、論理的な設計書を指します。例えばテーブル定義書やテーブルフォーマットなどと言われているものです。
カテゴリ | マスタデータ | 参照データ |
---|---|---|
モデルの作成 | 対象領域内のデータのモデルを作成する。 論理モデルやカノニカルモデルは、データ共有ハブ内の対象領域ごとに定義できる。これにより対象領域のエンティティと属性を定義を全社レベルで確立できる。 | シンプルなコードと摘要のペア以外、郵便番号のデータセットなど複雑な参照データも多い。 長期間の使用を可能にして、正確なメタデータを確立するため、保守プロセスのためにモデルを作成することは重要。 モデルはデータ利用者が参照データセット内の関係を理解するのを助け、データ品質ルール確立のために使用できる |
データスチュワード制と保守プロセスの定義
上記のアーキテクチャ的アプローチによるテクノロジー的アプローチにより、マージ、管理をする際には役立つが、失敗や抜け落ちるような根本的な問題を抱えたプロセスを考える必要があります。
カテゴリ | マスタデータ | 参照データ |
---|---|---|
実施の主体の定義 | スチュワード | スチュワード、または各事業部の担当者。 各担当が主体となるためには、スチュワードが各事業間の共通の値を定義するための議論をリードする。 |
目的の定義 | ・唯一無二のシングルビュー、360度ビューの作成 ・ゴールデンレコードの作成 | 値が完全かつ最新。定義が明確かつ理解可能であるように保証する。 |
実施内容の定義 | ・マスタレコードの分析 ・ソースシステムへのフィードバック ・マスタデータ管理ソリューションに使用されるアルゴリズムのチューニングと改善に役立つ情報を提供する | 共通値の定義 |
ガバナンスポリシーの確立
マスタデータ管理と参照データ管理は、ITソリューションを入れて終わりではなくその後の運用を管理しなければなりません。そのためのガバナンスが必要です。
カテゴリ | マスターデータ | 参照データ |
---|---|---|
効果が出るタイミングの確認とロードマップの策定 | 実際のシステムが業務処理の入力の入力に、マスタデータの値と識別子を活用する時点 | 中央の参照データリポジトリを使用してデータを使用した時点 |
ガバナンスの実施内容の定義 | ・値の一貫性を維持するための活動 | ・品質を管理する ・リポジトリからの参照データの使用を義務付けるポリシーを設定する |
導入ガイドライン
上述したガバナンスポリシーの確立を掘り下げた内容になります。
マスタデータ管理と参照データ管理のソリューションには、下記の能力が必要になります。決してITだけでは解決できない側面があります。
- 専門的な業務知識
- IT知識
また、マスタデータ管理と参照データ管理は難易度が高く、すぐには実施できないため段階的なリリースを検討します。(ロードマップを作成します。)
ロードマップの中では、いくつかのプロジェクトを定義し、業務要件に基づいて優先順位をつけて全体的なアーキテクチャに沿って、それらのプロジェクトを遂行する必要があります。
マスタデータアーキテクチャへの準拠
組織全体でマスタデータを管理し共有するためには、適切な参照アーキテクチャを確立して、利用側のシステムが従うことが重要です。
統合する際に注意しておくポイント
- 業務遂行上の組織構造
- それぞれの正式記録システムの数
- データガバナンスの実施
- データ値へのアクセスとそのレイテンシの重要度
- 関連システムとアプリケーションの数
データ移動の監視
マスタデータと参照データのデータ統合プロセスでは、組織全体でデータを適時抽出し、配布できるように設計される必要があります。
下記の目的でデータフローを監視する
- 組織全体でどのようにデータが共有され使用されているか
- 管理システムやアプリケーション間のデータリネージを識別する
- 問題の原因分析を支援する
- データのインジェスト(取り込み)と利用を統合する技術の有効性を示す
- ソースシステムから利用までのレイテンシ
- 統合システムコンポーネント内で実行される業務ルールやデータ変換が妥当である
参照データの変更管理
参照データは共有リソースであるため、勝手に変更はできません。参照データを変更する窓口を設けて、個別具体な対応を行うことを避けます。
データガバナンス評議会(データガバナンスを検討・議論し意思決定する会議体)は、参照データとマスタデータ環境内のデータに対する変更を処理するための方針と手順を定め、確実に実行する体制を作ります。
変更要求のプロセスは下記の例になります。
データ共有の合意
取り決め
組織全体で参照データとマスタデータを共有して使用するには、下記の取り決めが必要になります。これらは、データ共有環境内に持ち込まれたデータの可用性や品質に対して問題が発生した場合に役立ちます。
- 組織内の複数の関係者間での協力体制
- 外部関係者による協力体制(特に外部データを入手および購入している場合等)
- 適切なアクセスと利用を確かなものにするために、どのデータをどの条件で共有できるかを規定する取り決め
体制
上記の取り組みを行う体制としては、データガバナンスプログラムによって推進されるべきです。ここには、下記のような担当者が含まれます。(兼務や別名がありますが、下記のような属性をもった人が必要という意味です。)
- データアーキテクト
- データプロバイダー
- データスチュワード
- アプリケーション開発者
- ビジネスアナリスト
- コンプライアンス/プライバシー担当者
- セキュリティ担当者
共有データの品質評価とSLA
共有データの品質低下による問題は、全体に影響を及ぼすため 【データマネジメント】データ品質管理について解説にある、データ品質評価の軸 (データ品質 評価軸) にあげた品質評価の軸の決定と評価尺度、およびSLAを決定します。
また、評価やSLAを下回った際には、根本原因に対処するためのプロセスを整備する必要があります。問題の存在と改善努力の状況についての情報を影響を受ける全ての関係者に提供するために、標準的なコミュニケーション方法を導入します。
参照データとマスタデータのガバナンス
参照データとマスタデータは共有リソースのため、全体に対する影響が大きい。そのためガバナンスとスチュワード制を導入したほうが良いです。
繰り返しになりますが、自動化(ITソリューション)により全てが解決するものではありません。解決のためには話し合いが必要な場合もあります。明確なガバナンスプロセスが必要になります。
ガバナンスプロセスでは下記を明確にします。
- 統合すべきデータソース
- 強制すべきデータ品質ルール
- 従うべき利用規則の条件
- 監視すべきアクティビティと関しの頻度
- データスチュワード制の取り組みの優先度と対応レベル
- ステークホルダーのニーズに合った情報表現方法
- 標準的な承認経路、参照データマネジメントとマスタデータマネジメント
評価尺度
参照データやマスタデータの品質や、この取り組みを支援するプロセスを評価します。評価尺度の一般的な例を下記に記載します。
評価尺度 | 目的 | 解説 |
---|---|---|
データ品質とコンプライアンス | 高品質なデータの提供 | ・対象領域のエンティティや、関連属性の信頼度 ・組織全体の使用目的に対する適合度 |
データ変更アクティビティ | ・共有環境へのデータ供給システムに関する新たな気づきをもたらす。 ・マスタデータ管理プロセスでアルゴリズムを調整する | データ値の変化率 |
データのインジェストと利用 | 監視により有効性を確認 | ・どのシステムがデータを提供しているか ・どの業務領域が共有環境データを定期利用しているか |
サービスレベルの合意 | サポートプロセス、技術てk時問題、データ関連問題の発見 | ・SLAの遵守度合い |
データスチュワードの責任範囲 | 支援の不足度合いを明らかにする | ・データコンテンツの責任を持つ人 ・グループ ・責任範囲を定義 |
総所有コスト | 維持管理するために必要なコストを明らかにする | ・環境基盤 ・ソフトウェアライセンス ・サポートスタッフ ・コンサルティング料金 ・トレーニング |
データ共有量と使用量 | データ共有環境の有効性を判断する | ・データのインジェスト量と速度 ・消費量と速度 |
参考書籍
本記事は、私の経験に基づいて記載していますが、基礎的な知識についてはデータマネジメント知識体系ガイド 第二版(DMBOK2)を参考にしています。最初は章ごとに読み込んだり、後ほど必要になった際に参考にすると良いと思います。
よくある質問
参照データとは、何ですか?
こちらの記事にも載せましたが、参照データとは、特定のデータを特徴づける関連付けのデータです。また、説明的なデータとも言えます。
マスターデータとは、何ですか?
こちらの記事にも載せましたが、ビジネスエンティティに関するデータであり、業務トランザクションや業務分析に意味を与えます。
ビジネスエンティティの例
- 従業員
- 顧客
- 製品
- 財務構造
- 資産
- 場所
最後に
今回の記事では、「参照データ管理とマスタデータ管理」として、必要性とテクノロジーだけではなくプロセスに重きを持ちガバナンスが必要と解説しました。
マスタデータ管理(参照データ管理)は、難易度が高く、取っ掛かりが掴めず苦労される方は多いです。本記事が、悩まれている方の参考になれば幸いです。
なお、今回はテクノロジーについては触れていません。今後別の記事で触れていく予定です。公開した際には読んでいただけますと幸いです。
今回も読んで頂きましてありがとうございました。
コメント