PR

【データマネジメント】データ品質管理について解説

データマネジメント
記事内に広告が含まれています。

この記事は、データ品質管理とは何か?についてわかりやすく全体像を解説します。これらを読むことで、データ品質管理の必要性や目的、やるべきことがわかるようになります。

想定読者
  • データマネジメントとは何か知らない方
  • データマネジメントを体系的に学びたい方
  • データ品質管理を体系的に学びたい方
  • データアーキテクチャやデータエンジニアリングといったエンジニアに関する知識だけではなく、周辺の知識を学びたい方
得られるメリット
  • データ品質管理とは何かわかる
  • データ品質管理の必要性がわかる
  • データ品質管理の全体像がわかる


また、本記事は、私の経験に基づいて記載していますが、基礎的な知識についてはデータマネジメント知識体系ガイド 第二版(DMBOK2)を参考にしています。最初は章ごとに読み込んだり、後ほど必要になった際に参考にすると良いと思います。

広告

データ品質管理とは?( データ品質とは? )

ひとことメモ。データ品質管理とは?

データ品質管理とは、データ利用する前提となるデータの品質を管理するためのプログラムです。

組織がデータを利用して、戦略的にデータを利用して目標を達成する前提として、データ自体が高品質なデータである必要があります。このデータの品質を業務プロセス、ITプロセス、データマネジメントにより、利用者の要求を満たす活動を指します。

データ品質管理は、プロジェクトのような一過性なものではなく、永続的に繰り返し活動する必要があるプログラムです。このプログラムには、プロジェクトと保守作業が含まれ、計画的に取り組みます。

なぜ、データ品質管理が必要か?

ひとことメモ。データ品質管理が必要な理由

データ品質を管理することで、データの信頼性を高め、リスクを回避し効率性を上げます。

データ品質管理の目的は、組織が利用するデータの「信頼性」を高めることです。信頼性が低いデータを利用した場合、ビジネスで下記の例のような問題を引き起こします。

※信頼性が低いデータを利用した例

  • 誤請求
  • 顧客サービスコールの増加とそれを解決する能力の低下
  • 事業機会の逸失による収益損失
  • 合併・買収の間に発生する業務統合の遅延
  • 不正行為発覚の増加
  • 不正なデータに起因する業務上の意思決定不備がもたらす不備
  • 良好な信用力の欠如による事業の損失

信頼性の高いデータは、リスクを軽減し、コストを削減するだけではなく、効率性が向上し、よりお客様に対して多くの時間を割けます。

データ品質管理の目指す姿(ゴール)

ひとことメモ。データ品質管理のゴールとは?

闇雲にデータを作らず、データ品質の標準や、要件、仕様に照らし合わせてデータを生成します。また、データの品質についてモニタリングと改善を継続的に実施します。

DMBOK2のデータ品質管理のゴールには、下記の記述があります。

  • データ利用者の要件に基づいて目的にあったデータを生成するために、統制されたアプローチを開発する
  • データライフサイクルの一環としてデータ品質統制の標準、要件、仕様を定義する
  • データ品質レベルを測定し、監視し、報告書を作成するプロセスを定義し実施する
  • プロセスやシステムの改善により、データの信頼を向上させる機会を特定し提唱する。

データ品質プログラムの原則

ひとことメモ。データ品質プログラムの原則

データ品質プログラムには、原則があります。これらの原則に沿ってアクティビティを検討する必要があります。

データ品質プログラムは、下記の原則から導かれます。

※筆者が重要と思われる箇所については赤でマーカを引いてます。また、一部コメントを割愛している箇所もあります。

  • 重要性
    • 優先度をつけます。組織とそのお客様にとって最も重要なデータにフォーカスします。
    • 優先度の付け方は、データの重要性と、低品質なデータによりもたらすリスクに基づいて判断します。
  • ライフサイクル管理
    • 生成(調達)から廃棄されるまでの一連のデータライフサイクル全般にわたり管理される必要があります。
    • システム間の移動も含まれます。
  • 予防
    • エラーや、データの利便性を低下させる状況の防止にフォーカスします。
  • 根本原因の修復
    • 根本原因を取り除きます。
    • プロセスやシステム設計に起因する事が多いのが実情です。これらにアプローチします。
  • ガバナンス
    • データガバナンスのアクティビティは、データ品質に寄与する必要があります。
    • 裏を返すと、データ品質に貢献しないものはやらなくて良い
  • 標準重視
    • データを利用するステークホルダーは、データ品質に対する要求を持っています。
    • この要求事項を、データ品質の測定に適用する標準と、それに基づく基準値で定義します。
  • 客観的な測定と透明性
    • データ品質レベルは、客観的かつ一貫性をもって測定します。
    • 測定行為と測定方法で品質が左右されます。ステークホルダーと共有することが重要です。
  • 業務プロセスへの組み込み
    • 業務プロセスのオーナーは、そのプロセスを通じて生成されるデータの品質に責任を負っており、プロセスにデータ品質標準を適用する必要があります。
  • 体系的な実施
  • SLAとの整合性

データ品質評価の軸 (データ品質 評価軸)

データ品質管理を行うにあたり、データの品質の特性や特徴を評価する必要があります。

ひとことメモ。データ品質評価の軸

データ品質評価の軸には、ISO/IEC 25012の規格があります。これを参考にし、組織に必要な品質の標準化を作成します。

各評価軸と評価項目、問題となる例を下記に記載します。

データ品質評価の軸評価項目問題となる例
正確性
(Accuracy)
データの正しさに着目して評価

・書式が正しいか。
・ 誤字脱字などはないか。
・ 意味的な誤りがないか。
・ データに誤りはないか。

・ 「同上」、「〃」などの記述がある。
・ 日付や数字が記述されるべき欄に「不明」など数字以外の文字列が記述
されている。
・ 住所が記述されるべき欄に電話番号が記述されている。
・ フリガナ欄にカタカナとひらがなが混在している。
完全性
(Completeness)
データが完全であることに着目して評価

・用途に応じて必要な項目が網羅されるか
・必須項目に中に含まれていないか。
・ 重要なデータ項目が定義されていない。
・ データが取得できないという理由で必須項目に空欄がある。
一貫性
(Consistency)
データに矛盾がないことに着目して評価

・ データセット内でデータに矛盾はないか。
・ データセット間でデータに矛盾はないか。
・ 住所コードと住所が一致しない。
・ 外部参照に間違いがある。
・ 各項目の個別の値を集計した合計値と、元々データに含まれていた合計値が一致しない。
信ぴょう(憑)
(Credibility)
データの信ぴょう性について着目して評価

・ データの出所が明示されているか。
・ データの更新日が明示されているか。
・ 改ざん防止策が施してあるか。
・特定のデータ作成者やデータ計測機器によるデータの誤りが複数発見された。
・ データがいつ作成されたものか分からない。
・ データの出典や収集方法が不明
最新性
(Currentness)
データが十分に新しいものに維持されていることに着目して評価

・ 公開データの更新サイクルは元データの更新サイクルに対して適切か。
・ データは収集時から十分に短い期間で公開されているか。
・ ファイル等で提供される場合は、最終更新日時及び最新版の所在が明記
されているなど、更新版の有無が確認できるようになっているか。
・データが更新されていない(データが古くなってしまった場合は、データの公開を終了することを検討する必要があります。)。
・ 各年で取りまとめを行っているデータの公開に半年近くかかる。
・ ダウンロードしたファイルの更新版の有無が確認できない。
・ 最新のデータにおいて住所だけ古いまま掲載されている(例:東京市)。
アクセシビリティ
(Accessibility)
データが誰でも使用できるものになっているかに着目して評価

・ファイルで提供している場合、データの使用権を持つ全ての人が利用できるようになっているか。
・ ソフトウェアを通して提供している場合、そのソフトウェアは ISO/IEC 40500 に準拠しているか。
・ 使用している文字セット(常用漢字など)は正しいか。
・ 特殊なファイル形式で公開されている。
・ 常用漢字が定められているにも関わらず、それ以外の漢字がフリガナを伴わず使用されている。
・ 環境依存の文字が使用されている。
標準適合性
(Compliance)
データが標準に適合しているかに着目して評価

・ データの書式は標準に準拠しているか。
・ 使用している文字セットは正しいか。
・ 選択項目に、指定された選択肢以外のデータが入っていないか。
・ 年月日が西暦ではなく和暦で表記されている(例:R2.4.1)。
・ 環境依存の文字やユーザー定義文字が使用されている。
・ 都道府県名が略称で表記されている(例:「東京都」と表記すべきところを「東京」と表記)。
機密性
(Confidentiality)
データの機密性について着目して評価

・ データにアクセスできるのは、アクセスを許可された者に限定されてい
るか。
・ 利用者を制限する場合、暗号化やハッキング対策などが行われているか。
・ データを提供しているソフトウェアに脆弱性がある。
・ データ管理ツールにおいて共有範囲が誤って設定されている。
効率性
(Efficiency)
データの効率性について評価

・ データの内容に重複などがないか。
・ データは効率的に処理できるようになっているか。
・ コードを効果的に使用しているか。
・ データに一貫性はあるか。
・ データに全角と半角が混在するなど、データとデータを結び付ける際に正規化が必要となる。
・ 住所とビル名が別データ項目になっていないなど、データ活用するために分離処理が必要になる。
・ 表計算ソフトで作成されたデータに余分な罫線やスペースが入っている。
・ 他のデータと結合しやすくするための ID やコードが入っていない。
精度
(Precision)
データの精度について着目して評価

・ データの精度は適正に設定されているか。
・ データの精度がそろっているか。
・ データの精度が示されているか。
・ 各データが、小数点以下切捨て、小数点以下2桁まで記録など、精度にばらつきがあり、単純に加算できない。
・ 許容誤差範囲が異なるデータが混在している。
・ 正確な位置を特定する必要のあるデータにおいて、緯度経度の値が粗すぎる。
追跡可能性
(Traceability)
データの追跡可能性について評価

・ 外部データが明確になっているか。
・ データの変更の際に、変更者、変更日などを記録しているか
・ 外部データの出所が明確になっていない。
・ いつ、誰が変更したかが分からない。
・ データの変更箇所や変更方法(例:機械処理なのか人手なのか)が不明。
理解性
(Understandability)
利用者がデータについて理解できるかについて評価

・ データ全体及びその各項目が意味するものを利用者が理解できるようになっているか。
・ データ全体や必要に応じてその各項目にメタデータが提供されているか。
・ 共通語彙基盤1のような意味を定めたものに関連付けがされているか。
・ データの説明がなく、データが意味するものを正確に理解できない。
・ 住所が本店所在地なのか、事業所所在地なのか判断できない。
・ 記述されているコードや略称の意味する内容が不明
可用性
(Availability)
データが利用可能な状態になっているかに着目して評価

・ 必要な時にいつでもデータにアクセスできるようになっているか。
・ データを公開するシステムは常時稼働しているか。
・ 頻繁にシステムが停止する。
・ データ公開システムにアクセス可能な時間帯が限定されている。
移植性
(Portability)
データの移植のしやすさについて着目して評価

・ 標準的なフォーマットで出力できないソフトウェアに依存していないか。
・ データを管理するシステムから標準的な形式によりデータをエクスポートすることができるか。
・ ソフトウェア固有のフォーマットでしか出力できない。
・ PDF や画像データであるため再利用できない。
・ システムからデータをエクスポートできない。
回復性
(Recoverability)
データの回復性について着目して評価

・ データのバックアップが保存されているか。
・ システム障害が発生した場合であっても、継続してデータを提供するバックアップシステムが存在するか。
・ バックアップされないディスク上にのみデータが保存されている。
・ 特定のサーバーのみからしかデータが取得できない。
※ デジタル庁の「データ品質管理ガイドブック」から引用

データ品質問題を発生する一般的な問題

データの生成〜廃棄までのデータライフサイクルのどの時点でも発生する可能性があります。多くの問題は、複数の原因と要因を持っています。

ひとことメモ。データ品質問題を発生する一般的な問題

データ品質問題を発生する問題には、一般的にわかっているものがります。これらを踏まえて予め業務プロセスやITシステムの設計に組み込むことが必要になります。

これらの問題を防ぐ方法として、下記が考えられます

  • I/F設計の改善
  • 処理の一環として行うデータ品質ルールのテスト
  • システム設計におけるデータ品質の重点化
  • 自動化プロセスにおける主導介入の厳格な制御

具体的には、下表のようなものが考えられます。

一般的な問題概要解説
リーダーシップの欠如一般的には、データ入力ミスと考えがちです。

多くは高品質なデータに対する
組織のコミットの欠如により
引き起こされています。
下記が障害となるポイントです。

・リーダーシップとスタッフに見られる意識の欠如
・業務に対するガバナンスの欠如
・リーダーシップとマネジメントの欠如
・改善を正当化することの難しさ
・不適切または無効な手段を使った価値を測定
データ入力プロセスデータ入力インタフェイス良くない設計だと、入力者が任意のフィールドをスキップしたり、
初期値をそのまま利用します。
リストエントリの順序ドロップダウンリストの入力順序が
データ入力エラーに影響を与えます。
フィールドの多重使用データモデルやユーザインターフェイスを
変更せずに、異なる業務目的で
同じフィールドを再利用しようとする。

その結果、矛盾と混乱を生みます。
トレーニング入力プロセスの知識不足。

下記のような場合、
データ品質以外の動機に従って
誤った行動を取るおそれがあります。

・入力者がデータに与える影響をわかっていない
・入力の正確さではなく速さが評価されている
業務プロセスの変更業務プロセスは随時変わります。
このタイミングで包括的にシステムに
組み込まれるとは限りません。


新規要件や、変更要件に対応するためには
インタフェイスを改良しないと、データに影響を与える危険性が出ます。
一貫性のない業務プロセスの実行一貫性がない業務プロセスからは、
一貫性のないデータが生み出さる危険性が高くなります。


一貫性のない業務の原因は、下記のようなものが考えられます。
・トレーニング、ドキュメントの不足・不備
・要件の変更
データ処理機能データソースに関する誤った知識下記が原因で問題が起きる可能性があります。
・エラー
・変更
・不十分
・未更新のシステム文書
・不十分な知識移転(異動や退職等の引き継ぎ
不足)

複数システムの統合などは、システム間の関係が
記述された限られた知識に基づくため、下記のような場合に失敗しやすいです。

・入手可能なソースに対する知識レベルが異なる
・スケジュールに余裕がない
陳腐化された業務ルール時間の経過により業務ルールも変更になります。

ルールは定期的に見直しされて更新されますが、
技術的観点の考慮を怠ると、問題が特定できない
または、誤判定を引き起こします。
変更されたデータ構造ソースシステムは、
下流のデータ利用者に通知することなく、または、
変更を考慮する十分な時間がないままデータ構造を
変更してしまう可能性があります。

これにより、無効な値が生成されたり、データの移動や読み込みを阻む新たな状況が発生したり、
すぐには検出できない微妙な変化が起きたりします。
システム設計参照整合性製薬の不備高品質なデータを保証するには、
アプリケーションやシステムレベルの参照整合性が必要になります。
設定されない場合や、検証がオフな場合に下記のような問題がおきます。

・一意性ルールに従わない重複データ
・一部のレポートには含まれるが、
他のレポートからは除外されている孤立したレコード
一意制約の不備一意制約がない場合、データのインスタンス(レコード)が複数発生します。

これにより、データ集計結果に重複による水増しが発生します。
不正確なプログラミングが生む間違い言わずもがな。
データモデルの誤りデータモデル内に設けられた前提と
実際のデータが異なる場合に、
データに品質問題が発生します。

具体的には、下記のようなことが考えられます。
・実際のデータがフィールド長を超えたため一部失われる。
フィールドの多目的利用単一の項目を複数の目的で再利用する際に、

下記のようなデータが混在します。
・紛らわしい値
・不明瞭な意味
時系列データの不一致統合されたディクショナリが存在しない場合に、
複数のシステムで異なる日付形式、時間形式が
実装される可能性があります。

これにより、ソースシステム間でデータの不一致や、損失が発生します。
脆弱なマスタデータ管理マスタデータ管理が未成熟な場合に、信頼できないデータソースが採用される恐れがあります。

その場合、データソースが正確という誤解を生み、検知が非常に困難なデータ品質の問題を引き起こします。
データの重複データマネジメントが脆弱な場合に、発生します。

有害な重複には、下記の2つのタイプが存在します。

単一のソースで複数のローカルインスタンス
 例えば、同一データベース内に、複数テーブルが存在し、同じ顧客を表すインスタンスがある場合、
どちらが正確か把握することが困難です。

複数のソースで単一のインスタンス
 例えば、複数のPOSシステムから連携される単一の顧客マスタが存在する場合、
統合する中間テーブルで問題が起きます。
問題の修復により発生手作業によるデータパッチは、DB内のデータに対して直接行われますが、
緊急時行われることが多く問題が発生します。
十分なテストを行うことがないため、下記のような問題が起きます。

・更にエラーが発生
・必要以上にデータを変更する
・失敗時に、データベースバックアップから戻すしかない。
※ DMBOK2から引用

データプロファイリング

データプロファイリングとは、データを検査し品質を評価するために行われるデータ分析の一つの形式になります。

データを理解するにあたり有効な方法ですが、データ品質向上のための第一歩になります。このプロファイリングにより組織は潜在的な問題を特定できます。

ひとことメモ。データプロファイリング

データプロファイリングにより、データの潜在的な問題を発見できます。

データプロファイリングでは、プロファイリングエンジンにより下記のような分析が可能になります。

  • NULL数
  • 最大値・最小値
  • 最大長・最小値
  • 個々のカラムに存在する値の度数分布
  • データタイプとフォーマット

このプロファイリングをきっかけに、問題を解決するために下記のような他の分析手法を駆使します。

  • 業務プロセス分析
  • データリネージ分析
  • 問題の根本原因を特定するためのより深い分析

データ品質とデータ処理

データ品質の向上には防止の観点がありますが、その他にもデータ処理を施すことにより改善することも可能です。ただし、コストがかかるため基本的には柔流で不具合を作り込まない施策を取るのが一番です。

ひとことメモ。データ品質とデータ処理とは

データ品質を改善するために、データ処理を行うことも可能です。(ただし、上流で作り込まないのが一番です。)

また、情報を付与することでデータの強化も可能です。

下記にデータ処理を記載します。

データ処理概要
データクレンジングデータクレンジング(データの洗浄)や、
スクラブ(データエラーを取り除く)ことで、
データ標準や対象業務ルールに準拠するためにデータを変換します。

ただし、これらは継続的に対応する必要があり
修正コストが必要になるため、基本的には根本的な解決策として、
下記のような対応で、上流で不具合を
作り込まないのが一番です。


・ データ入力エラーを防止する制御の実装
・ソースシステムのデータ修正
・データを生成する業務プロセスの改善
データの充実データの充実化と強化は、データセットに属性を追加することです。
これにより、品質と有用性を向上させるプロセスになります。

下記により、充実化を図ります。
・組織内のデータセットを統合する。
・外部データの購入し統合する。

データの充実化の例を下記に記載します。
1)日時のタイムスタンプ
 ・問題の根本解決を行う際に追跡のため、生成、更新、廃棄された
  日付を記録する
2)データ監査
 ・監査により履歴の追跡と検証のために重要なリネージを記録できます
3)参照用語
 ・業界固有の専門用語、オントロジ、用語集の整備により、
  自社内の業務コンテキストが明確になりデータに対する理解と統制が
  強化されます。
4)コンテキスト情報
 ・データに対するレビューと分析をするために
  場所、環境、アクセス方法、データのタグなどのコンテキスト情報を
  データに付加します。
5)地理情報
 ・地理情報は住所の標準化と位置座標化(ジオコーディング)により
  強化できます。下記のようなものを使用します。
  ・地域コーディング
  ・自治体
  ・近隣地図
  ・緯度・経度の組み合わせ
  ・その他の位置情報
6)人口統計情報
 6-a) 顧客データは、下記のような人口統計情報により強化ができます。
  ・年齢
  ・婚姻状況
  ・性別
  ・所得
 6-b) ビジネスエンティティのデータは、下記のような情報により
    強化ができます。
・年間売上
  ・従業員数
  ・専有面積の広さ
7)心理学的情報
 ・下記のような情報を付与することで、ターゲット母集団を
  セグメント化するために利用できます。
  ・商品・ブランドの嗜好
  ・組織会員
  ・レジャー活動
  ・通勤交通手段
  ・買い物時間の好み
  ・特定の行動
  ・習慣
  ・好み
8)評価情報
  ・下記のような情報を属性を拡張します。
   ・資産評価
   ・在庫管理
   ・販売促進
データの構文解析と書式設定データ構文解析は、事前定義されたルールを利用して、
データの内容や価値を定義するためのプロセスです。
データ変換と標準化ターゲットが従うアーキテクチャが読み取り可能なフォーマットに
ソースを変換します。
※ DMBOK2から引用

活動内容(アクティビティ)

筆者オリジナルですが、データ品質管理は、下記のプロセスで進める良いと考えます。

多様なステークホルダーとコミュニケーションを綿密に取り、納得の上合意をとることで円滑に進めることができます。

  1. データ品質管理の企画
    • ビジネス戦略と照らし合わせて、重点的に管理するデータを特定
      • 具体的には、事業やサービスで重要といえるデータ
      • B2Bビジネスであれば、工程間や部署間、サプライチェーン間で使い回されるようなデータ
    • 管理対象データのデータ品質がもたらすインパクトを定義(高品質な場合、低品質な場合)
    • 現在のガバナンスを確認
    • データ品質戦略策定に必要な期間と体制を定義
    • ステークホルダーと合意
  2. データ品質管理の戦略
    • 管理対象データのブレイクダウンと特定
    • 業務要件に基づき、業務ルールとデータ品質標準を定義する(目標設定)
    • データに対する期待充足度を評価する(現状をアセスメントとプロファイリング)
    • 課題と優先度を定義(目標と現状のギャップの特定)
    • 課題の解決策を検討(ITと業務プロセスの両面)
    • 課題を放置した際のリスクの見積もり
    • 課題を取り除くために係る費用と期間を試算
    • 体制の策定
    • ステークホルダーと合意
  3. データ品質管理オペレーションの開発
    • データ品質特性の特定と目標値の策定
    • システム要件とオペレーション要件を定義
    • データ品質管理ポリシーの策定
    • データ品質管理ルールの策定
    • データ品質管理作業手順の策定
    • (システム開発があれば)プロファイルツールの組み込み
  4. データ品質管理オペレーションの運用
    • プロファイル、検査、是正
    • レポート
    • SLAの提示

参考書籍

本記事は、私の経験に基づいて記載していますが、基礎的な知識についてはデータマネジメント知識体系ガイド 第二版(DMBOK2)を参考にしています。最初は章ごとに読み込んだり、後ほど必要になった際に参考にすると良いと思います。

広告

最後に

今回の記事では、「データマネジメントのデータ品質管理」として、データ品質管理とは何か?なぜマネジメントする必要があるか?など解説しました。

これからデータマネジメントに関する業務を始める方の参考になれば幸いです。

今回も読んで頂きましてありがとうございました。

その他参考情報

コメント

タイトルとURLをコピーしました