この記事は、データ品質管理とは何か?についてわかりやすく全体像を解説します。これらを読むことで、データ品質管理の必要性や目的、やるべきことがわかるようになります。
また、本記事は、私の経験に基づいて記載していますが、基礎的な知識についてはデータマネジメント知識体系ガイド 第二版(DMBOK2)を参考にしています。最初は章ごとに読み込んだり、後ほど必要になった際に参考にすると良いと思います。
データ品質管理とは?( データ品質とは? )
組織がデータを利用して、戦略的にデータを利用して目標を達成する前提として、データ自体が高品質なデータである必要があります。このデータの品質を業務プロセス、ITプロセス、データマネジメントにより、利用者の要求を満たす活動を指します。
データ品質管理は、プロジェクトのような一過性なものではなく、永続的に繰り返し活動する必要があるプログラムです。このプログラムには、プロジェクトと保守作業が含まれ、計画的に取り組みます。
なぜ、データ品質管理が必要か?
データ品質管理の目的は、組織が利用するデータの「信頼性」を高めることです。信頼性が低いデータを利用した場合、ビジネスで下記の例のような問題を引き起こします。
※信頼性が低いデータを利用した例
- 誤請求
- 顧客サービスコールの増加とそれを解決する能力の低下
- 事業機会の逸失による収益損失
- 合併・買収の間に発生する業務統合の遅延
- 不正行為発覚の増加
- 不正なデータに起因する業務上の意思決定不備がもたらす不備
- 良好な信用力の欠如による事業の損失
信頼性の高いデータは、リスクを軽減し、コストを削減するだけではなく、効率性が向上し、よりお客様に対して多くの時間を割けます。
データ品質管理の目指す姿(ゴール)
DMBOK2のデータ品質管理のゴールには、下記の記述があります。
- データ利用者の要件に基づいて目的にあったデータを生成するために、統制されたアプローチを開発する
- データライフサイクルの一環としてデータ品質統制の標準、要件、仕様を定義する
- データ品質レベルを測定し、監視し、報告書を作成するプロセスを定義し実施する
- プロセスやシステムの改善により、データの信頼を向上させる機会を特定し提唱する。
データ品質プログラムの原則
データ品質プログラムは、下記の原則から導かれます。
※筆者が重要と思われる箇所については赤でマーカを引いてます。また、一部コメントを割愛している箇所もあります。
- 重要性
- 優先度をつけます。組織とそのお客様にとって最も重要なデータにフォーカスします。
- 優先度の付け方は、データの重要性と、低品質なデータによりもたらすリスクに基づいて判断します。
- ライフサイクル管理
- 生成(調達)から廃棄されるまでの一連のデータライフサイクル全般にわたり管理される必要があります。
- システム間の移動も含まれます。
- 予防
- エラーや、データの利便性を低下させる状況の防止にフォーカスします。
- 根本原因の修復
- 根本原因を取り除きます。
- プロセスやシステム設計に起因する事が多いのが実情です。これらにアプローチします。
- ガバナンス
- データガバナンスのアクティビティは、データ品質に寄与する必要があります。
- 裏を返すと、データ品質に貢献しないものはやらなくて良い。
- 標準重視
- データを利用するステークホルダーは、データ品質に対する要求を持っています。
- この要求事項を、データ品質の測定に適用する標準と、それに基づく基準値で定義します。
- 客観的な測定と透明性
- データ品質レベルは、客観的かつ一貫性をもって測定します。
- 測定行為と測定方法で品質が左右されます。ステークホルダーと共有することが重要です。
- 業務プロセスへの組み込み
- 業務プロセスのオーナーは、そのプロセスを通じて生成されるデータの品質に責任を負っており、プロセスにデータ品質標準を適用する必要があります。
- 体系的な実施
- SLAとの整合性
データ品質評価の軸 (データ品質 評価軸)
データ品質管理を行うにあたり、データの品質の特性や特徴を評価する必要があります。
各評価軸と評価項目、問題となる例を下記に記載します。
データ品質問題を発生する一般的な問題
データの生成〜廃棄までのデータライフサイクルのどの時点でも発生する可能性があります。多くの問題は、複数の原因と要因を持っています。
これらの問題を防ぐ方法として、下記が考えられます
- I/F設計の改善
- 処理の一環として行うデータ品質ルールのテスト
- システム設計におけるデータ品質の重点化
- 自動化プロセスにおける主導介入の厳格な制御
具体的には、下表のようなものが考えられます。
一般的な問題 | 概要 | 解説 |
---|---|---|
リーダーシップの欠如 | 一般的には、データ入力ミスと考えがちです。 多くは高品質なデータに対する 組織のコミットの欠如により 引き起こされています。 | 下記が障害となるポイントです。 ・リーダーシップとスタッフに見られる意識の欠如 ・業務に対するガバナンスの欠如 ・リーダーシップとマネジメントの欠如 ・改善を正当化することの難しさ ・不適切または無効な手段を使った価値を測定 |
データ入力プロセス | データ入力インタフェイス | 良くない設計だと、入力者が任意のフィールドをスキップしたり、 初期値をそのまま利用します。 |
リストエントリの順序 | ドロップダウンリストの入力順序が データ入力エラーに影響を与えます。 | |
フィールドの多重使用 | データモデルやユーザインターフェイスを 変更せずに、異なる業務目的で 同じフィールドを再利用しようとする。 その結果、矛盾と混乱を生みます。 | |
トレーニング | 入力プロセスの知識不足。 下記のような場合、 データ品質以外の動機に従って 誤った行動を取るおそれがあります。 ・入力者がデータに与える影響をわかっていない ・入力の正確さではなく速さが評価されている | |
業務プロセスの変更 | 業務プロセスは随時変わります。 このタイミングで包括的にシステムに 組み込まれるとは限りません。 新規要件や、変更要件に対応するためには インタフェイスを改良しないと、データに影響を与える危険性が出ます。 | |
一貫性のない業務プロセスの実行 | 一貫性がない業務プロセスからは、 一貫性のないデータが生み出さる危険性が高くなります。 一貫性のない業務の原因は、下記のようなものが考えられます。 ・トレーニング、ドキュメントの不足・不備 ・要件の変更 | |
データ処理機能 | データソースに関する誤った知識 | 下記が原因で問題が起きる可能性があります。 ・エラー ・変更 ・不十分 ・未更新のシステム文書 ・不十分な知識移転(異動や退職等の引き継ぎ 不足) 複数システムの統合などは、システム間の関係が 記述された限られた知識に基づくため、下記のような場合に失敗しやすいです。 ・入手可能なソースに対する知識レベルが異なる ・スケジュールに余裕がない |
陳腐化された業務ルール | 時間の経過により業務ルールも変更になります。 ルールは定期的に見直しされて更新されますが、 技術的観点の考慮を怠ると、問題が特定できない または、誤判定を引き起こします。 | |
変更されたデータ構造 | ソースシステムは、 下流のデータ利用者に通知することなく、または、 変更を考慮する十分な時間がないままデータ構造を 変更してしまう可能性があります。 これにより、無効な値が生成されたり、データの移動や読み込みを阻む新たな状況が発生したり、 すぐには検出できない微妙な変化が起きたりします。 | |
システム設計 | 参照整合性製薬の不備 | 高品質なデータを保証するには、 アプリケーションやシステムレベルの参照整合性が必要になります。 設定されない場合や、検証がオフな場合に下記のような問題がおきます。 ・一意性ルールに従わない重複データ ・一部のレポートには含まれるが、 他のレポートからは除外されている孤立したレコード |
一意制約の不備 | 一意制約がない場合、データのインスタンス(レコード)が複数発生します。 これにより、データ集計結果に重複による水増しが発生します。 | |
不正確なプログラミングが生む間違い | 言わずもがな。 | |
データモデルの誤り | データモデル内に設けられた前提と 実際のデータが異なる場合に、 データに品質問題が発生します。 具体的には、下記のようなことが考えられます。 ・実際のデータがフィールド長を超えたため一部失われる。 | |
フィールドの多目的利用 | 単一の項目を複数の目的で再利用する際に、 下記のようなデータが混在します。 ・紛らわしい値 ・不明瞭な意味 | |
時系列データの不一致 | 統合されたディクショナリが存在しない場合に、 複数のシステムで異なる日付形式、時間形式が 実装される可能性があります。 これにより、ソースシステム間でデータの不一致や、損失が発生します。 | |
脆弱なマスタデータ管理 | マスタデータ管理が未成熟な場合に、信頼できないデータソースが採用される恐れがあります。 その場合、データソースが正確という誤解を生み、検知が非常に困難なデータ品質の問題を引き起こします。 | |
データの重複 | データマネジメントが脆弱な場合に、発生します。 有害な重複には、下記の2つのタイプが存在します。 単一のソースで複数のローカルインスタンス 例えば、同一データベース内に、複数テーブルが存在し、同じ顧客を表すインスタンスがある場合、 どちらが正確か把握することが困難です。 複数のソースで単一のインスタンス 例えば、複数のPOSシステムから連携される単一の顧客マスタが存在する場合、 統合する中間テーブルで問題が起きます。 | |
問題の修復により発生 | 手作業によるデータパッチは、DB内のデータに対して直接行われますが、 緊急時行われることが多く問題が発生します。 | 十分なテストを行うことがないため、下記のような問題が起きます。 ・更にエラーが発生 ・必要以上にデータを変更する ・失敗時に、データベースバックアップから戻すしかない。 |
データプロファイリング
データプロファイリングとは、データを検査し品質を評価するために行われるデータ分析の一つの形式になります。
データを理解するにあたり有効な方法ですが、データ品質向上のための第一歩になります。このプロファイリングにより組織は潜在的な問題を特定できます。
データプロファイリングでは、プロファイリングエンジンにより下記のような分析が可能になります。
- NULL数
- 最大値・最小値
- 最大長・最小値
- 個々のカラムに存在する値の度数分布
- データタイプとフォーマット
このプロファイリングをきっかけに、問題を解決するために下記のような他の分析手法を駆使します。
- 業務プロセス分析
- データリネージ分析
- 問題の根本原因を特定するためのより深い分析
データ品質とデータ処理
データ品質の向上には防止の観点がありますが、その他にもデータ処理を施すことにより改善することも可能です。ただし、コストがかかるため基本的には柔流で不具合を作り込まない施策を取るのが一番です。
下記にデータ処理を記載します。
データ処理 | 概要 |
---|---|
データクレンジング | データクレンジング(データの洗浄)や、 スクラブ(データエラーを取り除く)ことで、 データ標準や対象業務ルールに準拠するためにデータを変換します。 ただし、これらは継続的に対応する必要があり 修正コストが必要になるため、基本的には根本的な解決策として、 下記のような対応で、上流で不具合を 作り込まないのが一番です。 ・ データ入力エラーを防止する制御の実装 ・ソースシステムのデータ修正 ・データを生成する業務プロセスの改善 |
データの充実 | データの充実化と強化は、データセットに属性を追加することです。 これにより、品質と有用性を向上させるプロセスになります。 下記により、充実化を図ります。 ・組織内のデータセットを統合する。 ・外部データの購入し統合する。 データの充実化の例を下記に記載します。 1)日時のタイムスタンプ ・問題の根本解決を行う際に追跡のため、生成、更新、廃棄された 日付を記録する 2)データ監査 ・監査により履歴の追跡と検証のために重要なリネージを記録できます 3)参照用語 ・業界固有の専門用語、オントロジ、用語集の整備により、 自社内の業務コンテキストが明確になりデータに対する理解と統制が 強化されます。 4)コンテキスト情報 ・データに対するレビューと分析をするために 場所、環境、アクセス方法、データのタグなどのコンテキスト情報を データに付加します。 5)地理情報 ・地理情報は住所の標準化と位置座標化(ジオコーディング)により 強化できます。下記のようなものを使用します。 ・地域コーディング ・自治体 ・近隣地図 ・緯度・経度の組み合わせ ・その他の位置情報 6)人口統計情報 6-a) 顧客データは、下記のような人口統計情報により強化ができます。 ・年齢 ・婚姻状況 ・性別 ・所得 6-b) ビジネスエンティティのデータは、下記のような情報により 強化ができます。 ・年間売上 ・従業員数 ・専有面積の広さ 7)心理学的情報 ・下記のような情報を付与することで、ターゲット母集団を セグメント化するために利用できます。 ・商品・ブランドの嗜好 ・組織会員 ・レジャー活動 ・通勤交通手段 ・買い物時間の好み ・特定の行動 ・習慣 ・好み 8)評価情報 ・下記のような情報を属性を拡張します。 ・資産評価 ・在庫管理 ・販売促進 |
データの構文解析と書式設定 | データ構文解析は、事前定義されたルールを利用して、 データの内容や価値を定義するためのプロセスです。 |
データ変換と標準化 | ターゲットが従うアーキテクチャが読み取り可能なフォーマットに ソースを変換します。 |
活動内容(アクティビティ)
筆者オリジナルですが、データ品質管理は、下記のプロセスで進める良いと考えます。
多様なステークホルダーとコミュニケーションを綿密に取り、納得の上合意をとることで円滑に進めることができます。
- データ品質管理の企画
- ビジネス戦略と照らし合わせて、重点的に管理するデータを特定
- 具体的には、事業やサービスで重要といえるデータ
- B2Bビジネスであれば、工程間や部署間、サプライチェーン間で使い回されるようなデータ
- 管理対象データのデータ品質がもたらすインパクトを定義(高品質な場合、低品質な場合)
- 現在のガバナンスを確認
- データ品質戦略策定に必要な期間と体制を定義
- ステークホルダーと合意
- ビジネス戦略と照らし合わせて、重点的に管理するデータを特定
- データ品質管理の戦略
- 管理対象データのブレイクダウンと特定
- 業務要件に基づき、業務ルールとデータ品質標準を定義する(目標設定)
- データに対する期待充足度を評価する(現状をアセスメントとプロファイリング)
- 課題と優先度を定義(目標と現状のギャップの特定)
- 課題の解決策を検討(ITと業務プロセスの両面)
- 課題を放置した際のリスクの見積もり
- 課題を取り除くために係る費用と期間を試算
- 体制の策定
- ステークホルダーと合意
- データ品質管理オペレーションの開発
- データ品質特性の特定と目標値の策定
- システム要件とオペレーション要件を定義
- データ品質管理ポリシーの策定
- データ品質管理ルールの策定
- データ品質管理作業手順の策定
- (システム開発があれば)プロファイルツールの組み込み
- データ品質管理オペレーションの運用
- プロファイル、検査、是正
- レポート
- SLAの提示
参考書籍
本記事は、私の経験に基づいて記載していますが、基礎的な知識についてはデータマネジメント知識体系ガイド 第二版(DMBOK2)を参考にしています。最初は章ごとに読み込んだり、後ほど必要になった際に参考にすると良いと思います。
最後に
今回の記事では、「データマネジメントのデータ品質管理」として、データ品質管理とは何か?なぜマネジメントする必要があるか?など解説しました。
これからデータマネジメントに関する業務を始める方の参考になれば幸いです。
今回も読んで頂きましてありがとうございました。
コメント