- その99: エンタープライズ活動におけるマスタデータ分類の再考
今回は、データマネジメントにおける重要な一要素である「マスタデータ管理」について、少し見直しを加えながら考えることにします。様々なコンサルタントやベンダーの講演において、良くデータは「資産」であるという説明をされることがあります。「資産」というからには、それを利用することで何らかの「価値」を生み出す元であるということが前提となるに違いありません。取引きやイベントの動きとして捉えられる「トランザクションデータ」と対照させて、「マスタデータ」と呼ばれるデータカテゴリが存在します。日本国内ではこのカテゴリを「リソースデータ」と呼んで整理することも行われています。確かにリソースと呼んだ方が「資産」という考え方に近いようにも解釈できます。
この欄でもこれまで何度か紹介してきた「 データマネジメント知識体系 (DMBoK)」ではトランザクションデータに対照するデータを「マスタデータ」と「リファレンスデータ(参照データ)」として説明しています。このDMBoKでの「マスタデータ」は、上記のリソースデータとして括っているものと比較すると、やや幅を狭めた、というより適用イメージを特化したものということができます。ここでのマスタというのはその定義形式(エンティティと呼びます)内の一つ一つのレコード要素(インスタンスと呼びます)の方に着目して、その利用性を意識したデータのことです。こういうインスタンス利用視点で用いられる「マスタデータ」には、「顧客マスタ」「品目/製品マスタ」「得意先マスタ」といったものが代表的なものです。そして、この各インスタンスデータの項目内容や管理品質を上げるための仕組みを機能化して製品として提供しているものが、所謂MDM(マスタデータ管理)」製品という形です。
この狭義のマスタデータに対して区別して呼び表されるようになったものが「リファレンスデータ」です。 実際上は、リファレンスデータも意味の上で3種類に分かれていると考えるのが分かりやすいと思われます。1つ目は、リファレンスという語の「参照」という側面をより強く表すものです(タイプ1)。
企業での使用面からするとこのタイプ1は、外部で定義されその定義を利用するという位置付けです。 例えば、「金融機関コード」「郵便番号/住所コード」「業界標準コード」といったものがこれに相当します。そのコードの値や意味合い、そして粒度などといった内容は自社の外で決められるため、内容の正確性、最新性といった点に注意が必要なデータ群です。
2つ目は、 利用するデータ(狭義のマスタデータ、トランザクションデータ等)との関係においての利用者(人およびシステム)の見る視点(区分、分類、集計単位)などを取り決めるデータです(タイプ2)。このタイプ2データではデータ定義の明確化、利用者(部署等)間の意見調整・仕様化に特に注意を払って管理してゆく必要があります。呼び習わす名称の整理や統一化も必要になることがあります。データ量としては、上記の狭義のマスタデータと比較してレコード量は少なく、またレコードに含まれる属性項目数も余り大きくないという特性があります。主に「XX区分マスタ」「YY分類マスタ」などと既存システム開発では定義されていることが多いでしょう。
3つ目は、タイプ1と2の中間的な位置づけと捉える考え方も有り得ますが、会計システムで利用される「科目コード」のようなものです(タイプ3)。このデータは法律・標準などの外部要請により基本構造の大枠は決まりますが、その利用上の詳細項目分類やコード値の取り決めなどは各企業の決定に任せられるという形です。このコードにより作成・集計された結果データの正確性や説明責任といった点に重点が置かれるということになります。
上記の3分類に加えて広義のマスタデータとして必要になるのが履歴管理という点です。例えば、年度や期を境にデータの括り方に変化が起きるということは良くあります。現時点の瞬間のデータ整合性だけを気にしている内は、この要素は重視されません。しかしビッグデータ時代のデータ利用やデータウェアハウスでの履歴データ活用の必要性が出ると、2年前のデータ結果と今年の結果との比較を行いたいといった要求が出てきます。このときに現時点の括り情報だけを持っていたのでは、括り単位の調整を行うことができないという現象が起きてしまいます。このために、例えば年度毎に日付で参照することのできる履歴マスタという考え方が必要とされるという訳です。
- 今回は、広義のマスタデータの分類把握という見方から議論を進めてみました。
- (先頭に戻る)
- その98: ビッグデータ、DX時代のデータモデリング再考リスト1
この週(11月10日(火))には、筆者の属するデータマネジメント協会日本支部(Dama International Japan Chapter;Dama-J)が主催となり毎年開催するADMC2020(Asian
Data Manaagement Conference 2020)が実施されました( Dama日本支部の詳細はこちら )。現在のコロナウィルス(COVID-19)の環境から、この会も多くのイベント同様ネット環境でのオンライン型での実施となっています。参加者がどれ位あったかの実数を筆者は把握していませんが、Dama-Jの会員に限らず事前の申込みがあれば参加可能でしたので、平日昼間時間帯ながら会員以外でもそれなりの参加であったようです。
テーマは「世界各国におけるDXの取組みとデータマネジメント」で、米国、欧州・アフリカ、南米といった規模での講演者を集めてのカンファレンスとなりました。
その講演の中から今回の記事で筆者が取り上げようと考えているのは、米国のデータモデリングのコンサルタントであり、その分野では数多くの著作本を出しているSteve
Hoberman氏の「Digital Transformation and the Rosedata Stone」講演についてです。「Rosedata」というのは、英国大英博物館に展示されているロゼッタ・ストーン」をもじったHberman氏の造語です。
ロゼッタ・ストーンは古代エジプト語(神聖文字、民衆文字)とギリシア文字の三種類の言葉で書き記された碑文石で、その後の研究を通じてエジプトのヒエログリフなど古代語文献の解読に大いに役立ったものです。このロゼッタ・ストーンの果たした役割とHoberman氏の専門であるデータモデルの位置付けとが似たものであるという思いが込められた造語だと考えられます。また「Rose」にはバラ花を指す以外に「美人」を意味する使い方があるため、筆者の推測ですがデータを使うという点において、その貴重さをイメージしているのかも知れません。
この講演でのHoberman氏の主要メッセージとしては、次の2点があったと筆者は受け止めました。(1)DXやビッグデータ利用に向けたアジャイル開発といった環境において、特に近年のアプリケーション開発過程では設計・開発者にはデータモデリングという過程が軽視されてきている。一方でビジネスで利用するデータの意味を含めた理解の重要性は以前から変わっていない。そういった中で従来のデータモデリングステップとしてデータモデラーの中で認知されている、概念データモデル(CDM)、論理データモデル(LDM)、物理データモデル(PDM)という流れを容易に理解されにくくなっており、こういった風潮への対応が急務である。(2)このような中で、ビジネスで利用するデータ理解とその視覚化の重要性は変わっていないのだから、それを理解し更に有効にデータの意味合いをビジネスの関係者と共にコミュニケートし整理する方法が必要とされる。そのために、従来の流れを意識させるCDMという呼び方を少し変えて、「The
Business Data Model」という整理の仕方を提案する。これは余りに詳細過ぎず、データの持つ意味合いを関係者との間で必要とされる詳細度でモデル化する有効な手段となり得る。そしてHoberman氏のコンサルティング経験でも実効性を果たしている。
このビジネスデータモデルで利用している記述法や整理方法は 、 筆者の捉えているCDM作成の内容と殆ど変わっていません。一部IE記法(インフォメーション・エンジニアリング記法)から変更が加えられています(例:サブタイプの書き方等)。しかし先に触れたように内容的にはほぼ変わりがありません。DXやビッグデータ環境構築に際して、体験を通して考慮された実際的なデータモデリングに関係する知恵を説明・提案した点が講演のポイントであると考えられます。
- データモデル作成に関する設計・開発者側の意識や態度の変化ということは、高品質のデータを管理・維持するために見過ごすことができないというのが筆者の立場です。データモデルの有効性確保と、現場の捉える手間感覚というものをどのように整合させ、可能な限りライフサイクルを通じたデータ品質維持をしてゆくかという点が、米国に限らず、特に日本国内でも重要性を増してきていると改めて感じさせられた次第です。その課題に向けて、解決のための努力を続けてゆきたいと考えています。
- (先頭に戻る)
-
-
- その97: ビッグデータ、DX時代のデータライフサイクル再考
データの多様性理解とビッグデータの収集・活用。コンピュータおよびAI技術を利用したビジネス、生活環境の利便性向上。こういったキーワードの下に現代社会を動かしてゆこうというのが、情報化社会と言われる昨今の社会的流れということができるでしょう。こういった中で「データは重要である」とか、その延長として「データマネジメントをしっかりと行おう」という意見にも相当の頻度で出会う機会も増えてきていると実感します。「データマネジメント(DM)」の全体像把握という点では、筆者がDM歩き方マップという概念でその取組みへの考え方をこの欄でも紹介してきました。今回は、データの種類や量の増大、そしてデータマネジメントの一つの要素として出てくる「データライフサイクル」について触れようと思います。
データマネジメントに関する体系的なバイブルとして国内でも認知度が上がってきたといえるDMBoK(データマネジメント知識体系ガイド)第2版では、このデータライフサイクルをどこで扱っているでしょうか?答えを先に出すと、その話題は主に第9章「ドキュメントとコンテンツ管理」で取り上げられています。このテーマは各知識領域からの入出力との関係から見ると、やや独立性が高い話題として扱う項目として位置付けられていることが分かります(DM歩き方マップより)。そして章間の参照関係として見ると、「ドキュメントとコンテンツ管理」を直接参照しているのが、第1章「データマネジメント」、第6章「データストレージとオペレーション」、第7章「データセキュリティ」、第8章「データ統合と相互運用性」、第10章「参照データとマスタデータ」、第12章「メタデータ管理」、第14章「ビッグデータとデータサイエンス」の7つの章。
一方第9章から直接参照するのは、 第6章「 データストレージとオペレーション」、 第8章「データ統合と相互運用性」、第10章「参照データとマスタデータ」、第11章「データウェアハウジングとビジネスインテリジェンス」、第13章「データ品質」、第14章「ビッグデータとデータサイエンス」、第15章「データマネジメント成熟度アセスメント」の7つの章という具合です。(章の日本語名は、同書日本語版での用語を参照している)
この関係を要約すると、データの定義・蓄積・移動・利用準備視点で「データ内容」を取り上げ、蓄積データを運用し、共用・利用提供、内容の品質管理・維持性という視点で「データ内容」を取り扱おうとしていると見ることができます。このような中で必要とされる考え方が、蓄積し取り扱うデータ(文書)を、その生成場面から廃棄までのデータ生殺与奪を把握管理し、断捨離の考え方を適用するという視点が「データライフサイクル管理」の考え方であるという訳です。このデータライフサイクル管理をうまく実現するためには、データ/文書に関する、所謂「CRUD」、及び「データフロー」そして全体ボリューム、および移動量をしっかりと捉える必要があるということになります。そして廃棄のタイミングは物理的運用面、法律的保管条件、利用者期待面
という3要素が制約要素になるという考え方です。
- 生成データの多様性(生成部門/場所・地域/手段)とい入力面、データ利用期待者の多様性(データ種類/データ対象期間/データ形態)といった要素が、このライフサイクルに影響を与える管理要件の要素になるということになります。その要件により、データライフサイクル管理に対する負荷的設計・管理・運用作業が増減するという訳です。この全体ストーリを組み立て、作り上げるのがデータアーキテクトの役割であるとおいうことができるでしょう。データ利用者に関する制約が関わることになるため、データ断捨離に当たっては、関係者の要求調整が大きく関わるということにもなるでしょう。「データライフサイクル管理」というのはこのような全体観をもって実行する物だということです。
- ビッグデータやDXといった流行言葉に惑わされることなく、データマネジメント全体設計に関わる立場に置かれる担当者は日々の活動へ取り組む必要があるというのが、今回の一つの結論(筆者からのメッセージ)です。
- (先頭へ戻る)
その96: 論理データモデルでもインスタンスを意識することの必要性
昨夜(9月24日)は、リモート形式での定例Dama Japan 第10分科会(データモデル分科会)が、12名の参加者を迎え実施されました。そこでは図書館利用/管理を題材に各自データモデルを作成し、その表現内容について議論をしながらモデル作成への理解を深めるという話題でした。筆者も論理データモデル(LDM)を作成し意見交換を行いました。他の参加者と比較して筆者のLDMで特徴的たっだのは、書籍貸出・返却といったイベントで履歴管理を行うことを入れているという点だったと思います。このLDMに興味のある方は、「游悠レポートサイト」2020-007で公開していますので参照下さい(当ページの上部にある「游悠レポートサイト」ボタンをクリックすることで辿り着けます)。
この議論の中で話題として出た訳ではありませんが、筆者が最近データモデル作成において着目しているのは、LDMにおいてもインスタンスレベルでの表現を入れる必要があるという見方です。これは全てを表現するということではなく、LDM作成の目的が「扱っているデータの意味合い/構造を分かりやすくする、或いは他者と共有すること」という考え方から来ています。特にリファレンスマスタデータという考え方や、グラフデータベースの出現を考慮すると、LDMを従来的なリレーショナル型データベースをイメージとの連携以上の表現ツールとして利用するべきであると考えるからです。
この考え方の一つの材料として、上記のインスタンスレベル表現(I-表現)の取り入れの話題があるという訳です。どういった場合にこのI-表現を用いるべきかということに定まった規則は今のところありませんが、基本は分類や種類の範囲をを説明する上で、関係者での視覚的共通理解を得ることを目的に利用するべきであるという点がポイントになると考えます。データモデルに出現するエンティティの種類を、「リソース系」と「イベント系」という大まかな分類で見分けるということは比較的データモデリングの携わる人々の間で共通認識として受け入れられていると思います。従来は、リソース系は「マスタ(データ)」の代替として概ね捉えられていたという認識でそれほど大きな間違いにはならないと考えますが、その「マスタ」側はこの数年でインスタンス側(例えば、個別顧客や個別商品)の管理を重視する意味での「マスタデータ」と、視点の分類や視点(外部を含む)に重きを置く「リファレンス(マスタ)データ」という分け方になってきています。つまり「リソース系」という一括りを越えた概念で扱う必要性が認識されているということです。この見方の変化は、データの取り扱い方(処理)とエンティティ内インスタンスのボリュームを考慮したものと考えることができます。データの取り扱い方の違いは、マスタデータ管理製品(MDM)の提供する機能や、製品ラインといった点に表れています。
- 一方筆者の見方は、MDM製品とは別にLDMを作成する上での視点の捉え方、表現の範囲を意味しています。この意味で記法(IE、IDEF1X等)の話題とも異なります。データモデルの表現する意味・共有という目的をカバーする上での記述内容に関する議論です。LDMにおいて、ビジネス系の人々を含めてモデルで表現したい意味を分かりやすくするためのポイントとして考えるものです。紙面の関係があり細かな点はここでは省略しますが、基本はモデルの中で表現するデータ世界の範囲を、分類の仕方、種類の明示という点で具体的に表現するということになります。書き方としては記法の提供する「サブタイプ」表現を活用するということになります。
こういった考え方や具体的な内容の例に興味のある方は、是非ご連絡下さい
- (先頭に戻る)
その95: 「客観的」と「主観的」-- その意味をデータモデルと照らして考えてみる
データマネジメント(DM)におけるデータモデルの位置付けを改めて考えていて、「客観的」と「主観的」という言葉が思いフト浮かんできました。デジタル大辞泉(小学館)を試しに引いてみると、以下のようになっています。
客観的(1)主観または主体を離れて独立に存在するさま。(2)特定の立場にとらわれず、物事を見たり考えたりするさま。 主観的(1)表象・判断が、個々の人間や、人間間の心理的性質に依存しているさま。(2)自分ひとりのものの見方・感じ方によっているさま。
そこで試しに和英辞書プログレッシブ和英中辞典(第3版)で英語にしてみると、次のような単語が出ます。 客観的な:objective(ly)、主観的に:subjective(ly)
またオックスフォード現代英英辞典 (8th edition)を上記に基づいて引くと次のように出ています。 objective: (1)not
influenced by personal feelings or opinions; considering only facts, (2)(philosophy)exisiting
outside the mind; based on facts that can be proved subjective: (1)based
onyour own ideas or opinions rather than facts and therefore sometimes
unfair ,(2)(of ideas, feelings or experiences) existing in somebody's mind
rather than in the real world
つまり客観的(なデータモデル)とは、外界にある事物または事実を表していると、作成者個人以外からも認められる表現であるということになります。漠然と個人の内部で描くイメージ、あるいは曖昧な言葉だけで説明されている状態のままでは「客観的」と認めることができないということです。もう少し進めると、客観的と他者からも認められる表現であるからこそ、安心感をもって共通の物・事実として扱うことができるようになるという前提がある、という訳です。
こうした意味合いを持つ「客観性を備えたデータモデル」であるからこそ広く・多くの利用者への共有表現(事実)として活用できるということです。何となしにイメージや漠然とした言葉に基づいてシステムを動かそうとすることに無理が生じるのも
「客観性」が保たれていないからだと言って過言ではないと筆者は考えます。しかし、この客観性という視点に落とし穴がある点にも注意しておくべきでしょう。それは、ある事象・表現に関して、「それが事実である」と認める集団においては、目の前に表現されたデータモデルが、客観的なものであると取り扱い得るということです。従って見る立場によって、複数の事実表現が存在することは否定できません。これが利用上の注意点であるといえるでしょう。
この落とし穴は、利用者・関係者の多様性を考えると、事実上避けて通ることが難しいと見えます。従って、データモデル利用の上では、その取り扱う前提・スコープ・条件・対象者といったことを明示し、そういったいわゆる「メタ情報」を適用するという点を忘れてはならないということです。つまり、客観的(として捉えられる)データモデルの提示・利用に当たっては、先に上げた「メタ情報」を一緒にするということを必要条件にするということです。データモデル定義作業においては、このメタ情報の整備を条件にする必要があります。
- 今回は、「客観性」という視点からのデータモデリングへの取組みのあり方を考察しました。
- (先頭に戻る)
- その94: 【話題】「アブダビ政府データマネジメント標準」をDM歩き方マップ視点で捉えると
- 今回は、「游悠レポート2020-004」として取上げたアブダビ政府のデータマネジメント標準(Ver1.0)の歩き方マップ的グラフから読み取れる内容を紹介します。このデータマネジメント標準は同政府の今後のデータ活用の本格的取組みの第一歩として、UKのコンサルティング会社との共同で整理したデータマネジメント(DM)への方向性をまとめ上げたものです(2016年版。この時点では今後の実行部分は検討中とされる)。この標準作成に先立ってDMポリシーが作成されこれも資料として公開されています。その後の政府作成Webページでは、2019年秋の時点でDMP(データマネジメント・プログラム/プロセッシング)が進行中であることを開示しており、着実にデータマネジメントのための活動を実行していることを伺わせます。この資料については、筆者が参加しているDama日本支部、第11分科会の中で話題として取上げられたものであり、その中での議論を踏まえています。
この標準は、Damaの発行したDMBoKの第1版(2010年)を主体として作成されています(DMBoKの最新は2017年の第2版でDMBoK2としている)。まず同政府のDMモデルとして「データガバナンス」を最上位レベル”OWEND”に位置付け、その下に順に、"DESCRIBED"、"QUALITY"、"ACCCESS"、"USE&SHARE"、"IMPLEMENT"という実行方向につながる6つの階層として表現しています。この階層の中に24のDM要素を結び付け、これら要素をデータのマネジメントと技術的観点から統制すべきDMの13ドメインとして整理しています。この13のドメイン要素を、今回のDM歩き方マップで表現する対象として筆者が取上げました。先に記したように13のドメイン数となっていますが、その内容を見ると、データカタログ(Data
Catalog)、オープンデータ(Open Data)の2ドメインを除いた11ドメインは、DMBoK2で整理された11の知識領域(いわゆるDama DMホィール)と一致していることが分ります。各々の意味合いは少し幅があるものの、整理の視点としてはDMBoK2とも同じ考え方に立っているといえます。データカタログについてはメタデータと、オープンデータはコンテンツという具合に強い関連性がありますので、基本的にデータマネジメントは11の知識領域の考え方をベースに考えてゆくことで大きな問題にはならないと筆者は考えます。
これらの13のドメインと6つの階層の色分けを用いて、筆者のアブダビ版DM歩き方マップ(有向グラフ)を作成しました。ここでのノード関係性(エッジ)は、DM標準資料で整理されている13ドメイン項目に関する統制要素の詳細検討内容シートに基づいています。(1)その各ドメインの大項目統制要素内の項目同士の関連性を全て取上げ、(2)13の各ドメイン間の関連性は、1つの関係を代表させて表現しています(つまり、ドメインの間に1つでも関係性が整理されていれば、ドメイン間に関係エッジ線を結んでいる)。このような形で表わすことにより、大きな目で捉えたアブダビDM標準の考え方を読取ることができると、筆者は考えたからです。
このようにして表わした図が「游悠レポート2020-004」のマップです(pdf版をダウンロードできるようにしていますので、興味ある方はそちらを参照)。
こうして出来上がったマップを調べることにより筆者が理解した点を3点ほど、以下に記述しておきます。(1)先にも記述したが、このDM標準は13ドメインを元にDMBoK1を利用して整理したものだが、DMBoK2で描かれた11のDM知識領域とほぼ合致していると読取ることができる(データカタログ、オープンデータドメインは11の知識領域と関係させて捉えることができることと、各ドメインの意味合いは必ずしも同位置ではないことも前述した)。(2)データ統合と相互関連性(DIIと略す)ドメインは、アブダビ版DM標準では、他のドメイン要素とリンクしていないことが分る。DII領域はデータ活用基盤のためのDWH要素と連携するためのインタフェースの位置付けとして考えることが一般的な捉え方として整理できるため、このアブダビ版で意図するDII要素は、主に外部への繋ぎの要素として位置付けているものだと見ることができる。或る意味、本格的データ活用への第一段階要素として考えていると捉えても良いであろう。(3)メタデータおよびデータカタログの両ドメインがリンク要素としては前方(左より)に位置付けられていることが分る。これは、メタデータ定義および整理の視点に重きが置かれているためと捉えることができる。DMBoK2に基づく一般的な見方からは、既存のメタデータ要素の整理も重要な対象要素と考えることができるため、このドメインはもう少し中間的な位置付け、あるいは後位的な場所(右寄り位置)で表現され易い。これはDMBoK2のホィール表現に表れている。つまり、(2)と合わせて、このアブダビ版DM標準は、第1ステップとして取組むという位置付けが色濃く表わされたモデルおよびロードマップであると読み取れる(この点は、改めて統制ドメイン要素の優先度を見直すと確認できる)。
かなり駆け足で概要を整理・記述しましたが、今回は海外で公開されたDM標準資料を参考に紹介すると共に、そういった内容を、「DM歩き方マップ」の形で視覚的に表現することで読取ることができる情報について説明をしました。今後、関係各位がデータマネジメント領域の話題や課題に取組む上での考え方の参考になれば、筆者の幸甚に資するものです。尚、この記事に関してのご意見等があれば、「お問い合わせ」フォームを介してご連絡下さい。
- (先頭に戻る)
- その93: データマネジメントでのグローバル(大域的)とローカル(局所的)運営の同時性を考える
- コロナウィルス騒動の中、2020年も愈後半に入ることになりました。今回は前回のテーマを広げる形で、データマネジメント(DM)を効果的に運営するための組織形態について考えます。ここで鍵となるのは「グローバルとローカルの同時共存」であると筆者は捉えています。
「データガバナンス(統治)」の語がDM実践において重要性を持つことが認識されているのはいうまでもありません。その証拠に、CDOやデータスチュワードといった用語が以前に比較して、純然たるIT部門関係者以外向けの記事でも取上げられる量が目に見えて増えていることが上げられます。しかし、そういった役割名を持つ職位を設ければそれで終わりというほど、DMへの取組みは生やさしいものでないことも認識され始めていると筆者は感じます。
その理由の大きな要素として、DMにおけるガバナンスは画一的に取扱えないものであることを第一に上げられます。ここで扱う「データ」というのは多層的で多面的な構成要素から成る「仮想的オブジェクト」であるという点を再確認する必要があるということです。多層的というのは、概念・論理・物理という意味の構成面を指します。多面的というのは、取扱う部署/人・適用アプリケーション・利用環境と広がりといった参照要素の多様性を示します。これが一つのデータマネジメントという言葉で表現される管理形態で括られるため、その統制が複雑性の塊であることは明白といえます。
これは取りも直さず、単一の規則を全方位的に取扱うことに無理を生じる対象であることを意味するといえます。つまり論理的整合性を取れる範囲を把握して、その単位で整合性を持たせた管理を行う考え方が合っているということです。それを集大成させたものが全体的(企業で言えば全社的)データマネジメントとして成り立たせる仕組みであるということです。但し、それらの各グループでの管理統制の枠組みだけは統一性/一体感を持つ必要があることはいうまでもありません。この部分を統制要素とするのがガバナンスの目的であるという訳です。これをグローバルなものと位置付ける。先に上げた個別の仕組みがローカル要素であるということです。この考え方が組織内で共有させたものとならない限り、組織全体でシームレスなデータマネジメント環境を達成することは、かなり無理があるというのが筆者の考えるところです(余程の絶対専制的組織であってもと考えます。もしそれが達成されたと感じられるのであれば、完璧に硬直した仕組みとなっていると想像できます)
データに関していえば、システム/組織間の共有要素、個別要素を明確にして、定義を関係者の間で共有できるようにしておくということが求められるでしょう。そしてデータのライフサイクルも把握する必要性があります。そしてこれらが、企業/組織のメタデータとして管理・共有資源として扱われ、また資源としてのマスタデータと、分類視点を提供するリファレンスデータとして資源管理を行うということです。
こういった仕組みは一朝一夕に築くことはできないため(組織や関連システムが大きくなればなる程、その傾向は高まる)、優先度付けと段階を踏んだロードマップ/工程作りが肝になります。そのために強いリーダーシップと関係者コミュニケーションが大切になるという訳です。こういった要素を個人の努力レベルでの業務として放り投げてしまう経営者と組織というのは、早晩DX時代から取り残されたものにならざるを得ないというのが、今回の筆者からの強いメッセージです。そうでなければ、システム、人、情報といった各種資源の無駄使いに終わることでしょう。
- (先頭に戻る)
- その92: 組織横断で、一律的な「データマネジメント対策による効果」を生む課題への対策を考える
今回は、一般的な組織横断的解答としてのデータマネジメント実施策構築の難しさの理由と、この課題解決に導くための考え方について改めて記述します。
データトランスフォーメーション(DX)としてのネットワークおよびコンピュータシステムを通じたビジネスのためのデータ活用という概念の重要性が、昨今幅広く浸透しつつあることは認知されたものといえます。それと共にデータマネジメントという言葉も様々な媒体で頻繁に見ることができるようになりました。それとは裏腹な形で、このデータマネジメントを組織一律的に効果的に実践することの難しさが再認識されてきていると筆者には感じられます。
特にこの課題は、組織が大きければ大きいほど深刻に捉えられていると見えます。それは組織の広がりと共に増えてきたシステム数、アプリケーション数、利用者数、そのシステムを日々流れるデータ量の拡大といったことが影響していることから来ていると言って良いでしょう。いわば、システム利用状態のバラツキが多様化し、一律の対策を取ることで解決するのが難しい「混沌とした」状況から来ているということです。本来システム導入・構築それ自体は論理の一貫性を目標に行っているはずですが、それが多数のプロジェクトとして同時並行的に行われてきたために、総体としての整合性の確保(確認)が難しく、反って柔軟性に欠けたものとして日々運営されているということになります。しかも技術的にはそれぞれのシステム導入時点での最新技術に頼っており、一方でベースとなる技術そのものが徐々に(場合によっては根本的に)変わってきているというジレンマに置かれた流れから来たものといえます。
つまり、構造的に整理すると、ビジネス概念/論理的枠組み(インタフェース)/物理的実装から出来上がるシステムが、その活用分野(アプリケーション)毎に多重に組み上げられており、そこに利用する人という要素が更に関わっている状態からできている仮想世界という状況といえます。こういった世界を一律の基準に沿って統制してゆくことは、却って組織内に混乱を生み出す元になるという方が合理的な見方といえるでしょう。そうとはいえ、その状況のままに時間を過ごしてしまっては一向に課題解決の道を開くことにはなりません。
そこで必要になるのが、成熟度判定に基づくロードマップ作りという考え方です。そこでは、「ビジネスとしての目標の把握」「現状認識」「到達したい状況」「現状と達成ゴールとのギャップ認識」「そのゴールに向うための時間軸と作業ステップ(ロードマップ作り)」という要素を考慮した、具体的な関係者間のイメージ作りと共有という流れです。この中には、勿論達成に必要な資源(費用と人と時系列的関係)への考慮が含まれる訳です。これが関係者の間で共通認識となり、そのイメージ作りされた方向性に向うという環境を準備してこそ、ビジネス成功に向けての一歩を踏み出すことができるということです。
- 困難な状況の解決に向けて、言わば「ローマは一日にして成らず」の諺を肝に命じて、ロードマップに基づく着実で段階を踏んだアプローチを取ることがデータマネジメントの世界にも、大変大きく求められているということだと言うことができるでしょう。そのための計画作りに、強力な実践的アドバイスを提供することこそが、当面の筆者のビジネス目標でもあります。
- (先頭へ戻る)
- その91: データ分析を「業務」と認識することへの疑問
コロナウィルスの話題が続いています。政府の非常事態宣言を全国的に一旦解除するという方針が発表されました。しかし根本的な解決策が見つけ出された訳ではないため、もっぱら経済的視点を優先させて、単純に安心感を広げて人の動きを大きくするというだけではリスクを考慮した対策にはなりません。一般の活動としては、暫くは用心を続けるというのが正しい方向性だといえるでしょう。
それはサテオキ、最近とあるニュースメールで「データ分析業務が“脱・Excel”すべき理由・・(中略)・・」という題目の記事が流れて来ました。その表題を見て、フト感じた内容を書いてみます。
ここで引っ掛かりを感じた点は「データ分析」が「業務」と書かれていたことについてです。データサイエンス、機械学習、ディープラーニングといった言葉が、業界をまたがって広く使われているのが現状といえます。様々なセンサー機器等から生み出されるデータが増大し、そのデータを利用して多くの業務に実用的に活かしてゆこうというのが社会的に認知され、それを筆者も強調してきた経緯があります。従ってこの文脈で「データ活用」が取扱われることを歓迎しています。しかしここで筆者の目に気になってきたのが「データ分析」は「業務」なのかという点でした。細かい点ともいえますが、大事な点であるとも思えるため、敢えてその意味について確認することにします。
ポイントは、何のためにデータ分析という「作業」をするのかという点であることです。何らかのデータが存在し、それを利用して「ある業務上の目的・目標を達成するための情報・知見を得る」ということが、そのデータ分析を行う事の基本的な意味・意義であるということです。つまりここでは「データ分析をする」ということは一つの手段(あるいは技術・ツール)であって、達成するべき目的や目標、基準のない、いわば独立して成り立つ「データ分析」というものがそこにあるわけではないということです。従ってそれが「業務」であることもない訳です。単純に楽しみのために行う「趣味」と(主にビジネス上の)成果を得るための活動である「業務」は異なるという視点からです。
従って、「データ分析」という活動を行うためには、その元あるいは背景となる目標・目的、そしてその到達基準といったものが必要とされるということになります。「データ分析業務」という曖昧なモノが単独であると思ってしまうと、行方知れずの時間消費活動に陥る可能性があるということを筆者は指摘しておきたいという意味です。多分冒頭のニュースメールの表題は、ツールベンダー或いはその販売者の見方が強かったのではないかと筆者は推測しています。「ツールありき」の考え方からきているという意味です。
- ここで確認しておきたいことは、ビジネスにおいて「データ分析」を有益な方法の一つとして利用・活用するためには、「データ分析業務」というようなものが漠然として存在するのではなく、達成すべきビジネス目標・目的を関係者の間で見える形で共有するということが重要であるということです。そうすることによって、際限のない人・モノ・金・情報といったリソースを浪費することなく、日々の企業活動を有益なものにしたいものです。
- (ページ先頭へ戻る)
- その90: 【戯言】コロナウィルス事件を見ながらのマルチヴァース考(今ココにある並行宇宙)
コロナウィルス騒ぎの終着地点はもう少し先の話になりそうですが、多くの人達にとっては自分と社会との関係という点で立ち位置を見直す良い機会であり、またそのための時間を得たということも事実であると考えます。そのような中で日々思考するコトを記しておきます。
今回のコロナウィルスは誰かによって人工的に作られたものであるという話が複数のルートから出て来ています(筆者は、今回のウィルスの見せる特徴からして、恐らくそれは正しいだろうと考えています)。この時期に改めて考えることは、一人一人が己のこととしてどのようなモノを理想として捉え、これによりその進む方向が生まれているということです。それによって辿り着くであろう世界(未来)が変わる。
この見方によれば、それぞれの思考が目の前の世界に同時に混在していると見ることができます。その意味で「今ココにある並行宇宙」と捉えられる。そして各々が生み出す並行宇宙が交わった地点として「イマココ」
が出現するという訳です。そのイマココは、多くの他者の影響を受けながら変化してゆく。己のイメージする世界は、他の誰かの影響を受けざるを得ない状態で替わりながら、己は理想とする世界に向って游いでゆくという状況として考えると分かりやすい。
人との物理的触れあいを制限しようという社会風潮の中で、この並行宇宙における「コトバの役割」の面白さと大切さを感じる出来事が幾つか続きました。その際に使用するコトバというのは簡潔なものであることが理想ですが、これを達成するにはコトバを交わす相手との間に相当程度のイメージ空間共有が必要です。この共有ができているかどうかで、言わば内容の伝わる深さが変わるという見方です。従って、例えばSNSのようなもので単に雰囲気だけで交わされるコトバには多くのすれ違いが生まれるのは当然であり、そこに深い理解(共感的なもの)を求めるには無理があるということだと、筆者は考えます。前提として、互いのイメージ空間共有が前提である。偶にはその共有範囲に関する思い違いもあることでしょう。それは誤差の範囲と捉えられれば、それほど摩擦も感じることがない。しかし、このコトバが通じる世界においては空間的な距離は存在しないといえるでしょう。
ひいては個人としてSNSのようなものを共感的に利用するには、前提が要求されるということです。ただSNS的なものを簡易に連絡を取り合うツールとする使い方もあるため、その役割を限定する意図が筆者にないことだけは記しておきます。一方、こういった所に、企業などからのマーケティングツールとして利用したいという雑音が混じってくると、少しばかり煩わしさを、正直感じることは否めません。それはツールの使い様というところでしょうか。本当は、それがキチント分けられていることが使う側の願いでしょう。テレビにおけるコマーシャルと同様の位置付けです(因みに蛇足ですが筆者は普段からテレビは見ていないため、その煩わしさからは切り離された状態です。)
そこで並行宇宙の話題に再び目を向けましょう。この宇宙は空間的なものではなく、時間的にも混在してそれぞれの個人の目の前に現れていると考えられます。視覚的な機能面を中心に捉えれば、それはホログラムのような映像的イメージと表現できますが、もうすこし感覚の範囲を広げてみれば存在感そのものということができるでしょう。つまり物理的存在は、各人の感覚によって感知されるという訳です。それが一人一人の認知している世界の違いとして現れるているというコト。極端な話しに例えれば、言わば一種の感覚的遊園地として考えると面白さが増す。こういった中でどのような暮らしを営むかという行動を支えるのが、冒頭でいっていた「理想」ということになるでしょうか。
- この項に結論は存在しません。 改めてここでの並行宇宙というのは、筆者の中では個々人の「目前の実在感」として現れるモノだとだけ記しておきます 。
- (先頭に戻る)
-
- その89: EDW 2020 カンファレンスの延期決定、および情報リテラシーということについて
前回の本欄 では、2月時点でのEDW(エンタープライズ・データ・ワールド)主催者の方針案内について紹介しましたが、その後の日本や米国の社会情勢により、色々な変化が起きたためこの欄で紹介をしておきたいと思います。その第一は、日本国内のコロナウィルス対策として各種のイベント・集会・学校などが中止・休校扱いが起きていること(政府からの正式依頼が発表されている)。海外での日本からの渡航者を拒否する国が現れている。また米国においてもレベル2の要注意国として取り扱われている。こういった諸条件を鑑みた上で、今回の米国出張は日本から出るのも、また米国から帰ってくるのも大変な状況を生むものと考え、筆者から参加キャンセルする旨の決定を行いました。この点は、筆者にとっても半年以上前から準備を進めて来ただけに、苦渋の決断といえるものでした。
また一方、その後米国内での感染者増加などの状況も踏まえ、主催者側も正式に開催延期を決定し、3月11日にそれが正式にWebページ掲載実施されました。筆者からみても大変残念なことです。現在は時期をずらしてネット環境を利用してオンラインでのカファレンス形態実施を検討開始しているようです。(トップページに触れたように、当方へもビデオプレゼン依頼が届き4月10日に無事限定公開されました。)
さてこのような状況で、このコロナウィルスの広がりに絡めて「情報リテラシー」ということについて、ここで記しておきたいと考えました。そのきっかけは、3月に入ってからのこの感染状況の発生国からの情報発信の態度が変わってきたことにあります。当該赤龍国からは、対策がうまくいった結果新しい感染者は減少傾向にある、そして逆に海外(日本等)から入国しようとする者に条件を付けることを行いだしているという話。日本が逆に感染源国として扱われ出しているということ。つまり3月以降、何らかの情報戦の状態が生み出されていると見做せるという現象が起きている。
信頼筋からの情報によれば、かの赤龍国での状況は発表とはかなり異なると見做せるということ。それにも関わらず為政者による意図的な操作が起きていると考えられること、また日本国内のマスコミやメディア、一部の政治家などはそういった情報を元に議論・宣伝を行っている状況にあるといった点が、情報取扱いの問題として筆者に意識されているという意味です。背景に制御し、意図的な表面の発信情報だけに頼る姿勢では本当の姿を知ることができないということです。これをここでは「情報リテラシー」の課題として取上げた訳です。
こういった不確定的で、信頼性に疑いの大きい情報/データを元にして、ツールを使ってどんなに綺麗な絵やグラフを描いてみても、参照する者にとっての価値はゼロ点であるといって良い。寧ろ、取り扱い方によっては社会的悪影響を生み出すマイナス効果を生むことがあるといえるでしょう。繰り返しになりますが、情報の発信源や意図を踏まえて、目の前にある情報/データを解釈する必要があるということが、「情報リテラシー」の根幹にあるということです。
そのような点を踏まえながら、現在のコロナウィルスの広がりに関する状況を、冷静に淡々とみてゆきたいと筆者は考えています。今の国家は今後の方向制について大きな岐路に立っていると考えます。また個人個人の取組みも重要性を増してくると考えられます。脚下照顧。
- 【補足】大変気になる情報として、3月13日夕刻時点、この赤龍国は「コロナウィルスは米国が持ち込んだものだ」との情報を流し始めているということを、追記しておきます。今後の国際情勢として着目しておきたい点です。
- (先頭に戻る)
- その88: 【特別版】コロナウィルス対応に関するEDW カンファレンスの方針
本年の1月中旬以降、日本国内で持ちきりになっているコロナウィルス感染に関連して、近頃は首相発信による突然の「全国学校の一斉休校」指示が出されるなど、我が国の対策はかなり出遅れ感を感じ、極端で場当たり的な対応になっている印象が強いという意見もSNS等ネットの世界では多く出される状況になっていると言って過言ではありません。多くのイベントや集合セミナなども中止・延期、或いはネットを利用したオンラインセミナへの変更という対応が目立つようになっています。
このような中で、筆者が参加予定をしているEDW 2020(Enterprise Data World 2020)について、どのような行方になるか固唾を呑んで注視していましたが、本日(2020年2月29日)、EDW主催のDATAVERSITY
CEO名で、今後の方針に関する ”Note to EDW Registrants regarding the Coronavirus" という表題の電子メールが送られてきましたので、こういった事態での海外(米国)のイベント対応に関する参考事例として、ここで紹介したいと思います。
その内容の概略を示すと、以下のようなものです。
・米国San Diego(CA)開催のEDW2020は現時点予定通り実施する方向で進めている。
・US政府、CDC(the Centers for Disease Control)、WHOのガイダンスに従い行動する。開催地ホテルも感染を避けるための諸々の措置を実施してゆく。
・カンファレンスは、「ハグなし、握手なしポリシー適用する」。(スタッフは、「心の内でのハグや肱突き合わせをします。」と補足されています。)
・参加者医療アシスタンスや調子の良し悪し確認を実施。
・CDCやWHOの感染対策等推奨事項に関する変化を毎日ベースで参加者に知らせるように努める。
・CDCのガイダンス・・・詳細記すのは避けるが、基本的には、機会あるごとに20秒以上の水での手洗いを励行すること。(水を使えない時には、60%以上のアルコールを含むハンド消毒液を使う、とあります)
・また、洗浄していない汚れた手で、目、鼻、口等に触らないこと、等々。(日本の状況とは異なって、ここではマスクの話は出て来ません。)
更に、興味のある内容として、「警戒レベル3地域(中国、韓国)、レベル2地域(イラン、イタリア、日本)から来る人は、事前にその旨を届けて欲しい」とあります。筆者はこのメールを受け、早速旅程情報を含んで出席予定の回答連絡を入れておきました。これで、筆者は要注意チェックリストに登録されたかもしれません。
尚、マスク使用については、このEDWの話とは別に、筆者が利用している放送大学の学習センターから「3月の運営」として、この同じタイミングで送られて来たメールの中に記述があったので、それも参考に紹介しておきます。
【マスク使用上の注意点】WHOは、マスクは咳やくしゃみの症状がある場合に使うこと、そのような症状のない人は症状のある人の面倒を見る場合にのみ使うこと、使い終わったマスクは表面に触れないようにして、密閉した袋に入れるなどして適切に捨てることを勧めています。汚染した可能性があるマスクのまま学習センターに入ることのないよう、ご注意ください。(マスクの予防効果は限定的です。マスクを過信することのないようお願いします。)
- この説明はかなり的を得ていると筆者は感じます。これと比較すると昨今のマスク騒ぎは実質的な効果を離れて、行き過ぎた社会反応だと言わざるを得ません。また、この学習センターからの案内文には、A.手洗いの重要性、C.外出を控えることのリスクの考慮、D.詐欺への注意(マスクの件は項目Cとして説明)という項目がありました(省略)。
筆者は、引続きEDWへの参加を前提に準備を進めますが、どういう状況になっても良いような心構えを持ちたいと思います。また、基本的な習慣(必要な手洗い等)が大切であるということも確認しておきたいです。
- (先頭に戻る)
その87: データマネジメント知識体系(DMBOK2)の各章の参照関係を見える化すると
2020年最初のこのコラム(その85)でグラフデータベースといった最近の話題について触れました(そのコラムは、アーカイブで見ることができます)。グラフ表現を利用することで様々なモノやコトの間の関係をデータ化することができ、そのデータから視覚的な表現をすること通じて興味を惹くような知見を得ることができる、或いはそのヒントが得られるという意味です。今回はその具体的な利用法の一つとして、以前にも紹介したことがあるDAMA(データマネジメント協会)が発行するデータマネジメント知識体系 第2版(DMBOK
2nd Edition)を視覚的にグラフ化して捉えようという試みを紹介します。
データを作成する元ネタは上記のようにDMBOK第2版です。この内容をベースに、筆者はある章から他のどういった章を参照しているかを独自に調査しました。少し専門的な用語が入りますが、DMBOK2は第1章から第17章で知識領域の全体像を解説しています。この各章を「ノード」として表現します。そして、ある章Aから他のある章Bへの参照関係を矢印(「エッジ」または「辺」と呼ぶ)で表現します。今回は章の参照関係に方向性があるため、それを矢印で表わす訳です。こういったノードと(有向)エッジで組み合わせて表現した図を有向グラフと呼びます。もしノード同士に方向的な参照関係を表現する必要がなければ、ただの(無向)線で関係を表わし(無向)グラフになります。筆者が作成した今回の有向グラフは、17個のノードと多数の有向エッジ(矢印)で書かれるということです。このグラフ図を「游悠レポートサイト」で公開していますので、興味を抱いた方は、コラム直前にある「游悠レポートサイト」へのボタンをクリックして図を入手して下さい。
因みに、今回のグラフ図では、各ノードを色分けし、参照の元になるノードの色が矢印の色になっています。また矢印の太さが参照関係の強さを表わします(矢印の幅が広いほど参照回数が多いことを示す)。これでどういった内容が見て取れるのでしょうか?(ここからは、当該のグラフ図を参照していることを前提に記述していますので悪しからず)。まずすぐ目に付くのは第1章の「データマネジメント」です。この章はDMBOK2の導入の意味を持ち、基本的には他の殆どの章を紹介する位置付けです。ここでは、特にこの意味を強調するためにノードの大きさを他のノードよりも大きく表現しています。そして、ほぼ中央寄りに位置取りをして作図しています。
次に目立つのは、矢印の太さではないでしょうか。DW-BI(データウェアハウジングとビジネスインテリジェンス)ノードからData-Int-Op(データインターオペラビリティ:DII)へ向く青い矢印が目に付きます。この方向の参照関係がDMBOK2の中で強調されていることになります。そして、そのDIIノードから参照しているもので一番強い関係が、”Storage-Ope”(ストレージとオペレーション)(明るい緑色)です。また、”Ref-Master”(リファレンスとマスターデータ)からの参照(明るい青色)が比較的多いということが見て取れます。人によっては「データ品質(”Data-Qu”ノード)と関係が深いのはどの章なのだろうか」といった観点に目を広げるということがあり得るでしょう。
- DMBOK2に関心のある読者は、他のどのような関係に目を向けたくなるでしょうか?これはそれぞれの目的と創造性に任せられる話題ですので、全てを列挙するということができませんが、モノやコトの関係性をこういった表現で捉えることが、如何に脳の刺激材料になるのかといったことを、この例から見て取れるのではないでしょうか。もっと多量のノードとエッジから構成されるグラフの場合は、かならずしもグラフ図にするということではありません。ノードとエッジの関係を仮想的に管理し、またその内容を条件付けして取り出すことができれば良いということです。これをツールとして提供するのが、冒頭でも触れたグラフデータベースという分類です。現在様々なベンダーからこのためのツールが提供されていますので、興味のある方は是非「グラフデータベース」で検索して下さい。
【参考】最近話題になっているグラフデータベースの例として、Neo4jのサイトを紹介します。リンク参照下さい。
- (先頭へ戻る)
- その86: データマネジメントの成熟度フレームワーク・・・外部的見方(客観的)と内部的見方(主観的)について
Dama Japan(データマネジメント協会日本支部)第11分科会の、令和2年最初のミーティングが先日開催されました。議論の主題は、データマネジメント成熟度の枠組みをベースにして、どのようにテーラリング(またはカスタマイズとも)していったら良いかということでした。その議論の中のフレームワークに関して、筆者の一つの見方を披露したので、今回はその話題について簡単に紹介します。
データマネジメントの成熟度評価というのは、今そこで運営されているデータを管理し利用する状態に関して、ある評価の基準を用意した上で、この見方を利用して現状の状態を評価しようとする試みです。このために整理し定義する評価の枠組みがフレームワークということになります。そしてこのフレームワークに基づいて、具体的な評価内容と視点を用意するという流れになっています。分科会として着目しているフレームワークには複数ありますが、ここではそれらの中での代表格として、CMMI/DMM(最新版はV1.1)とDMBOK第2版(DMBOK2)を上げることができます。これらのフレームワークを比べると、今ここにあるデータ運用・利用環境を見る立場に次のような違いがあるというのが、筆者の考え方でした。
第一のCMMI/DMMというのは、CMMI成熟度シリーズとして前もって検討された複数の成熟度評価アプローチの適用分野について、「データマネジメント」分野にも適用するというスタンスで組立てられています。そしてその評価項目の内容は、外部から客観的な見方で評価しようという立場を取っている。いってみれば企業の会計監査のように、エビデンスベースでの証拠に基づいた現状評価をしようという見方ということができます。従って、この見方を推し進めれば、評価された(企業内の)仕組みの正しい在り方や改善方法の具体策は、その対象者の中で取決めるべきものだという見方になるといえるでしょう。自分たちで解決策のための仕組みを構築し、その約束の下で運営を行うという形になるということです。この解決策のお手本として、例えば他社のケースや業界のベストプラクティスを活用するということはあるでしょう。しかし、繰り返しになりますが成熟度の評価は、活動の証拠を元に第三者の立場から行うというスタンスです。
これに対して、DMBOK2そのものは所謂「知識体系」、BoK本ですから、データマネジメントのプラクティスに関する実践領域に関して技術的な内容を含めた手本集という見方をすることができます。この知識領域が11個の分野として組立てられているということです。それらの領域に関して、プロセスやツール等の外延的情報を説明している(或いはその解決のためにとのような情報を参照すれば良いかを示している)という訳です。従って、この枠組みを元に成熟度評価という見方をしようとすると、提供された分類の各領域についてどのような組み立てをするのかという点を「内部的に」検討する必要があるという点に注意する必要があるのではないかというのが筆者の見方でした。つまり環境の内側の視点として自分たちの実践の仕組みを眺める必要があるという意味です。従ってこの枠組みに沿った成熟度評価は、具体的なプロセスの在り方や利用ツールの環境などを調べるという方向になるだろうという意味です。
以上のように、利用するフレームワークによって、成熟度評価を行う評価者の立場に違いが現れます。そもそも何のために成熟度評価を行うかという「目的の確認」が事前に必要であることは言うまでも無く、評価のために利用するフレームワークの選択にも注意が必要であるということです。筆者の考え方としては、成熟度評価を実施する理由は、対象分野についての(1)現在の状況と、(2)将来の在りたい姿を描き、そのギャップ認識の下に具体的なステップを決める材料とするという点だと考えています。そしてこの具体化のための動機付けと予算化を推し進めるということです。
- いずれのフレームワークを利用するか(或いはそれらをミックスした第三の枠組みを利用)はさておき、企業のデータメネジメントの在り方と、より良いデータ活用環境の構築達成を目指して、成熟度評価というツールを活用したいものです。こういった話題と具体的な進め方に興味のある方は、是非「お問い合せ」ページを通じて筆者にご相談下さい。
- (先頭へ戻る)
- その85: データベースの新たな形:グラフデータベース・・・関係を直接表現する技術
業務系に使用するデータベースシステムとしてリレーショナル型データベースが出現して、ほぼ30年を越える期間が過ぎています。現在はそのようなシステム利用形体においてRDBMSを選択することが当たり前のように行われています。一方でRDBMSのデータ表現形態では開発者として不便(あるいは限界性)を感じる場面が出て来ている。正確にいうならば、元々制約として現れていた箇所が、これまでは何らかの方法で(言葉は良くないが)何とかゴマカシテきたものが、取り扱うデータの種類や量が非常な速さで拡大してきた環境において、扱い難い点が目立つようになってきたともいえます。また、技術や物理環境/装置の進展で、他の方法として費用的にも導入しやすくなってきたといえます。(例えばSSD装置の広がりであったり、今や1TB(テラバイト)のメモリを搭載する計算機も比較的リーズナブルな費用で手に入れることが可能になってきたことなど。)
このような中で、グラフデータベース技術に脚光が浴びせられるようになってきています。これはデータ同士の関係性を直接構造として表現する方式です。例えば、人と人、人と物(またはコト)、イベント事象と状況などを論理的な関係性として直接構造に取込み、表現できるようにすることで、容易大量データの検索や処理を行えるようにする。計算機メモリ容量が飛躍的に拡大可能になったことで、そういう構造を取りやすくなったという背景もあります。また理論的には、グラフ理論」という数学的背景が根拠として後押しをしている形になります。そして技術的にその構造を扱う言語の発展や、利用事例の広がりも見ることが出来ます。このようなツール環境として「Neo4j」が代表的で人気を集めるようになっています。また、集積されたデータを利用する側の立場で理解しやすくするデータ表現(プレゼンテーション)手法も広まってきています。
こういった形で取り扱えるデータ資産が増えると、これを効果的に、また継承可能な形で管理して行きたいという要求が出て来ます。それを実現する一つの手段として「データモデリング」の技術が必要です。それは、グラフデータベースでのデータ表現は(専門的な言葉になりますが)インスタンス同士の関係性の集合という形が基本になるため、欲求に任せて無制限にデータを増やしてゆくと、一体どのようなデータ種類や構成がデータベース内に表現されているかを把握しきれなくなってしまう危険性を持っているという意味です。従って、リレーショナル型データベースの設計でも使われていた「論理データモデリング」の考え方を取入れて基本的なグラフデータベース上のデータ構造を表現することが大切ということになります。その上でインスタンス同士の関係性(リンク)の表現を付加的に、また網羅的に設計情報として取り扱う設計習慣を早くから導入することが、将来の混乱度を軽減するための方法として必要だと、筆者は考えています。
また、グラフデータベース利用の範囲を検討しておくことも必要になるでしょう。元来データ同士の関係性を直接表現してデータを増やして行くという性質上、データの全体量が拡大した場合、現状の管理方式ではデータの終着点が判別できない世界ということになります。それは、インターネット上の世界では終着点が見つからないということと同様です。これは、データ表現する値の集合を正確に知ろうとすると、何が結果(例えば合計値)として正確なものなのかを、利用者が保証できないという問題に繋がる可能性を含んでいるということです。利用者がどこかで限界を設定する(例えば、最大の探索距離を設定して、その先には進まず諦める)という形での利用になる可能性があるということです。そのような制約を考慮して利用範囲や形式を設定するという意味です。
グラフデータベースの持つ特性を活かしながら、適切な利用形体を図って行くというのが、この新しい技術をうまく取り扱う秘訣になるものといえるでしょう。先に上げたNeo4jなどは、無料でも利用できる形で製品ダウンロードもできますし、またその利用に関する資料の提供も積極的に行われています。このコラムを参照した方で興味があれば、是非この製品の使い方を理解する上で早めに利用してみることをお勧めします。
- 今回は、新しいデータ活用の形として着目され初めてているグラフデータベースについて触れてみました。最後に遅ればせのご挨拶ながら、関係各位には本年も宜しくお願い致します。 (先頭に戻る)