アーカイブ

  • その95:  「客観的」と「主観的」-- その意味をデータモデルと照らして考えてみる

    データマネジメント(DM)におけるデータモデルの位置付けを改めて考えていて、「客観的」と「主観的」という言葉が思いフト浮かんできました。デジタル大辞泉(小学館)を試しに引いてみると、以下のようになっています。
    客観的(1)主観または主体を離れて独立に存在するさま。(2)特定の立場にとらわれず、物事を見たり考えたりするさま。 主観的(1)表象・判断が、個々の人間や、人間間の心理的性質に依存しているさま。(2)自分ひとりのものの見方・感じ方によっているさま。
    そこで試しに和英辞書プログレッシブ和英中辞典(第3版)で英語にしてみると、次のような単語が出ます。 客観的な:objective(ly)、主観的に:subjective(ly) またオックスフォード現代英英辞典 (8th edition)を上記に基づいて引くと次のように出ています。 objective: (1)not influenced by personal feelings or opinions; considering only facts, (2)(philosophy)exisiting outside the mind; based on facts that can be proved subjective: (1)based onyour own ideas or opinions rather than facts and therefore sometimes unfair ,(2)(of ideas, feelings or experiences) existing in somebody's mind rather than in the real world

    つまり客観的(なデータモデル)とは、外界にある事物または事実を表していると、作成者個人以外からも認められる表現であるということになります。漠然と個人の内部で描くイメージ、あるいは曖昧な言葉だけで説明されている状態のままでは「客観的」と認めることができないということです。もう少し進めると、客観的と他者からも認められる表現であるからこそ、安心感をもって共通の物・事実として扱うことができるようになるという前提がある、という訳です。

    こうした意味合いを持つ「客観性を備えたデータモデル」であるからこそ広く・多くの利用者への共有表現(事実)として活用できるということです。何となしにイメージや漠然とした言葉に基づいてシステムを動かそうとすることに無理が生じるのも 「客観性」が保たれていないからだと言って過言ではないと筆者は考えます。しかし、この客観性という視点に落とし穴がある点にも注意しておくべきでしょう。それは、ある事象・表現に関して、「それが事実である」と認める集団においては、目の前に表現されたデータモデルが、客観的なものであると取り扱い得るということです。従って見る立場によって、複数の事実表現が存在することは否定できません。これが利用上の注意点であるといえるでしょう。

    この落とし穴は、利用者・関係者の多様性を考えると、事実上避けて通ることが難しいと見えます。従って、データモデル利用の上では、その取り扱う前提・スコープ・条件・対象者といったことを明示し、そういったいわゆる「メタ情報」を適用するという点を忘れてはならないということです。つまり、客観的(として捉えられる)データモデルの提示・利用に当たっては、先に上げた「メタ情報」を一緒にするということを必要条件にするということです。データモデル定義作業においては、このメタ情報の整備を条件にする必要があります。
  • 今回は、「客観性」という視点からのデータモデリングへの取組みのあり方を考察しました。
  • (先頭に戻る)
  • その94:  【話題】「アブダビ政府データマネジメント標準」をDM歩き方マップ視点で捉えると
  • 今回は、「游悠レポート2020-004」として取上げたアブダビ政府のデータマネジメント標準(Ver1.0)の歩き方マップ的グラフから読み取れる内容を紹介します。このデータマネジメント標準は同政府の今後のデータ活用の本格的取組みの第一歩として、UKのコンサルティング会社との共同で整理したデータマネジメント(DM)への方向性をまとめ上げたものです(2016年版。この時点では今後の実行部分は検討中とされる)。この標準作成に先立ってDMポリシーが作成されこれも資料として公開されています。その後の政府作成Webページでは、2019年秋の時点でDMP(データマネジメント・プログラム/プロセッシング)が進行中であることを開示しており、着実にデータマネジメントのための活動を実行していることを伺わせます。この資料については、筆者が参加しているDama日本支部、第11分科会の中で話題として取上げられたものであり、その中での議論を踏まえています。

    この標準は、Damaの発行したDMBoKの第1版(2010年)を主体として作成されています(DMBoKの最新は2017年の第2版でDMBoK2としている)。まず同政府のDMモデルとして「データガバナンス」を最上位レベル”OWEND”に位置付け、その下に順に、"DESCRIBED"、"QUALITY"、"ACCCESS"、"USE&SHARE"、"IMPLEMENT"という実行方向につながる6つの階層として表現しています。この階層の中に24のDM要素を結び付け、これら要素をデータのマネジメントと技術的観点から統制すべきDMの13ドメインとして整理しています。この13のドメイン要素を、今回のDM歩き方マップで表現する対象として筆者が取上げました。先に記したように13のドメイン数となっていますが、その内容を見ると、データカタログ(Data Catalog)、オープンデータ(Open Data)の2ドメインを除いた11ドメインは、DMBoK2で整理された11の知識領域(いわゆるDama DMホィール)と一致していることが分ります。各々の意味合いは少し幅があるものの、整理の視点としてはDMBoK2とも同じ考え方に立っているといえます。データカタログについてはメタデータと、オープンデータはコンテンツという具合に強い関連性がありますので、基本的にデータマネジメントは11の知識領域の考え方をベースに考えてゆくことで大きな問題にはならないと筆者は考えます。

    これらの13のドメインと6つの階層の色分けを用いて、筆者のアブダビ版DM歩き方マップ(有向グラフ)を作成しました。ここでのノード関係性(エッジ)は、DM標準資料で整理されている13ドメイン項目に関する統制要素の詳細検討内容シートに基づいています。(1)その各ドメインの大項目統制要素内の項目同士の関連性を全て取上げ、(2)13の各ドメイン間の関連性は、1つの関係を代表させて表現しています(つまり、ドメインの間に1つでも関係性が整理されていれば、ドメイン間に関係エッジ線を結んでいる)。このような形で表わすことにより、大きな目で捉えたアブダビDM標準の考え方を読取ることができると、筆者は考えたからです。 このようにして表わした図が「游悠レポート2020-004」のマップです(pdf版をダウンロードできるようにしていますので、興味ある方はそちらを参照)。

    こうして出来上がったマップを調べることにより筆者が理解した点を3点ほど、以下に記述しておきます。(1)先にも記述したが、このDM標準は13ドメインを元にDMBoK1を利用して整理したものだが、DMBoK2で描かれた11のDM知識領域とほぼ合致していると読取ることができる(データカタログ、オープンデータドメインは11の知識領域と関係させて捉えることができることと、各ドメインの意味合いは必ずしも同位置ではないことも前述した)。(2)データ統合と相互関連性(DIIと略す)ドメインは、アブダビ版DM標準では、他のドメイン要素とリンクしていないことが分る。DII領域はデータ活用基盤のためのDWH要素と連携するためのインタフェースの位置付けとして考えることが一般的な捉え方として整理できるため、このアブダビ版で意図するDII要素は、主に外部への繋ぎの要素として位置付けているものだと見ることができる。或る意味、本格的データ活用への第一段階要素として考えていると捉えても良いであろう。(3)メタデータおよびデータカタログの両ドメインがリンク要素としては前方(左より)に位置付けられていることが分る。これは、メタデータ定義および整理の視点に重きが置かれているためと捉えることができる。DMBoK2に基づく一般的な見方からは、既存のメタデータ要素の整理も重要な対象要素と考えることができるため、このドメインはもう少し中間的な位置付け、あるいは後位的な場所(右寄り位置)で表現され易い。これはDMBoK2のホィール表現に表れている。つまり、(2)と合わせて、このアブダビ版DM標準は、第1ステップとして取組むという位置付けが色濃く表わされたモデルおよびロードマップであると読み取れる(この点は、改めて統制ドメイン要素の優先度を見直すと確認できる)。

    かなり駆け足で概要を整理・記述しましたが、今回は海外で公開されたDM標準資料を参考に紹介すると共に、そういった内容を、「DM歩き方マップ」の形で視覚的に表現することで読取ることができる情報について説明をしました。今後、関係各位がデータマネジメント領域の話題や課題に取組む上での考え方の参考になれば、筆者の幸甚に資するものです。尚、この記事に関してのご意見等があれば、「お問い合わせ」フォームを介してご連絡下さい。
  • (先頭に戻る)
  • その93:  データマネジメントでのグローバル(大域的)とローカル(局所的)運営の同時性を考える
  • コロナウィルス騒動の中、2020年も愈後半に入ることになりました。今回は前回のテーマを広げる形で、データマネジメント(DM)を効果的に運営するための組織形態について考えます。ここで鍵となるのは「グローバルとローカルの同時共存」であると筆者は捉えています。

    「データガバナンス(統治)」の語がDM実践において重要性を持つことが認識されているのはいうまでもありません。その証拠に、CDOやデータスチュワードといった用語が以前に比較して、純然たるIT部門関係者以外向けの記事でも取上げられる量が目に見えて増えていることが上げられます。しかし、そういった役割名を持つ職位を設ければそれで終わりというほど、DMへの取組みは生やさしいものでないことも認識され始めていると筆者は感じます。

    その理由の大きな要素として、DMにおけるガバナンスは画一的に取扱えないものであることを第一に上げられます。ここで扱う「データ」というのは多層的で多面的な構成要素から成る「仮想的オブジェクト」であるという点を再確認する必要があるということです。多層的というのは、概念・論理・物理という意味の構成面を指します。多面的というのは、取扱う部署/人・適用アプリケーション・利用環境と広がりといった参照要素の多様性を示します。これが一つのデータマネジメントという言葉で表現される管理形態で括られるため、その統制が複雑性の塊であることは明白といえます。

    これは取りも直さず、単一の規則を全方位的に取扱うことに無理を生じる対象であることを意味するといえます。つまり論理的整合性を取れる範囲を把握して、その単位で整合性を持たせた管理を行う考え方が合っているということです。それを集大成させたものが全体的(企業で言えば全社的)データマネジメントとして成り立たせる仕組みであるということです。但し、それらの各グループでの管理統制の枠組みだけは統一性/一体感を持つ必要があることはいうまでもありません。この部分を統制要素とするのがガバナンスの目的であるという訳です。これをグローバルなものと位置付ける。先に上げた個別の仕組みがローカル要素であるということです。この考え方が組織内で共有させたものとならない限り、組織全体でシームレスなデータマネジメント環境を達成することは、かなり無理があるというのが筆者の考えるところです(余程の絶対専制的組織であってもと考えます。もしそれが達成されたと感じられるのであれば、完璧に硬直した仕組みとなっていると想像できます)

    データに関していえば、システム/組織間の共有要素、個別要素を明確にして、定義を関係者の間で共有できるようにしておくということが求められるでしょう。そしてデータのライフサイクルも把握する必要性があります。そしてこれらが、企業/組織のメタデータとして管理・共有資源として扱われ、また資源としてのマスタデータと、分類視点を提供するリファレンスデータとして資源管理を行うということです。

    こういった仕組みは一朝一夕に築くことはできないため(組織や関連システムが大きくなればなる程、その傾向は高まる)、優先度付けと段階を踏んだロードマップ/工程作りが肝になります。そのために強いリーダーシップと関係者コミュニケーションが大切になるという訳です。こういった要素を個人の努力レベルでの業務として放り投げてしまう経営者と組織というのは、早晩DX時代から取り残されたものにならざるを得ないというのが、今回の筆者からの強いメッセージです。そうでなければ、システム、人、情報といった各種資源の無駄使いに終わることでしょう。
  • (先頭に戻る)
  • その92: 組織横断で、一律的な「データマネジメント対策による効果」を生む課題への対策を考える

    今回は、一般的な組織横断的解答としてのデータマネジメント実施策構築の難しさの理由と、この課題解決に導くための考え方について改めて記述します。

    データトランスフォーメーション(DX)としてのネットワークおよびコンピュータシステムを通じたビジネスのためのデータ活用という概念の重要性が、昨今幅広く浸透しつつあることは認知されたものといえます。それと共にデータマネジメントという言葉も様々な媒体で頻繁に見ることができるようになりました。それとは裏腹な形で、このデータマネジメントを組織一律的に効果的に実践することの難しさが再認識されてきていると筆者には感じられます。

    特にこの課題は、組織が大きければ大きいほど深刻に捉えられていると見えます。それは組織の広がりと共に増えてきたシステム数、アプリケーション数、利用者数、そのシステムを日々流れるデータ量の拡大といったことが影響していることから来ていると言って良いでしょう。いわば、システム利用状態のバラツキが多様化し、一律の対策を取ることで解決するのが難しい「混沌とした」状況から来ているということです。本来システム導入・構築それ自体は論理の一貫性を目標に行っているはずですが、それが多数のプロジェクトとして同時並行的に行われてきたために、総体としての整合性の確保(確認)が難しく、反って柔軟性に欠けたものとして日々運営されているということになります。しかも技術的にはそれぞれのシステム導入時点での最新技術に頼っており、一方でベースとなる技術そのものが徐々に(場合によっては根本的に)変わってきているというジレンマに置かれた流れから来たものといえます。

    つまり、構造的に整理すると、ビジネス概念/論理的枠組み(インタフェース)/物理的実装から出来上がるシステムが、その活用分野(アプリケーション)毎に多重に組み上げられており、そこに利用する人という要素が更に関わっている状態からできている仮想世界という状況といえます。こういった世界を一律の基準に沿って統制してゆくことは、却って組織内に混乱を生み出す元になるという方が合理的な見方といえるでしょう。そうとはいえ、その状況のままに時間を過ごしてしまっては一向に課題解決の道を開くことにはなりません。

    そこで必要になるのが、成熟度判定に基づくロードマップ作りという考え方です。そこでは、「ビジネスとしての目標の把握」「現状認識」「到達したい状況」「現状と達成ゴールとのギャップ認識」「そのゴールに向うための時間軸と作業ステップ(ロードマップ作り)」という要素を考慮した、具体的な関係者間のイメージ作りと共有という流れです。この中には、勿論達成に必要な資源(費用と人と時系列的関係)への考慮が含まれる訳です。これが関係者の間で共通認識となり、そのイメージ作りされた方向性に向うという環境を準備してこそ、ビジネス成功に向けての一歩を踏み出すことができるということです。
  • 困難な状況の解決に向けて、言わば「ローマは一日にして成らず」の諺を肝に命じて、ロードマップに基づく着実で段階を踏んだアプローチを取ることがデータマネジメントの世界にも、大変大きく求められているということだと言うことができるでしょう。そのための計画作りに、強力な実践的アドバイスを提供することこそが、当面の筆者のビジネス目標でもあります。
  •  (先頭へ戻る)
  • その91:  データ分析を「業務」と認識することへの疑問

    コロナウィルスの話題が続いています。政府の非常事態宣言を全国的に一旦解除するという方針が発表されました。しかし根本的な解決策が見つけ出された訳ではないため、もっぱら経済的視点を優先させて、単純に安心感を広げて人の動きを大きくするというだけではリスクを考慮した対策にはなりません。一般の活動としては、暫くは用心を続けるというのが正しい方向性だといえるでしょう。

    それはサテオキ、最近とあるニュースメールで「データ分析業務が“脱・Excel”すべき理由・・(中略)・・」という題目の記事が流れて来ました。その表題を見て、フト感じた内容を書いてみます。

    ここで引っ掛かりを感じた点は「データ分析」が「業務」と書かれていたことについてです。データサイエンス、機械学習、ディープラーニングといった言葉が、業界をまたがって広く使われているのが現状といえます。様々なセンサー機器等から生み出されるデータが増大し、そのデータを利用して多くの業務に実用的に活かしてゆこうというのが社会的に認知され、それを筆者も強調してきた経緯があります。従ってこの文脈で「データ活用」が取扱われることを歓迎しています。しかしここで筆者の目に気になってきたのが「データ分析」は「業務」なのかという点でした。細かい点ともいえますが、大事な点であるとも思えるため、敢えてその意味について確認することにします。

    ポイントは、何のためにデータ分析という「作業」をするのかという点であることです。何らかのデータが存在し、それを利用して「ある業務上の目的・目標を達成するための情報・知見を得る」ということが、そのデータ分析を行う事の基本的な意味・意義であるということです。つまりここでは「データ分析をする」ということは一つの手段(あるいは技術・ツール)であって、達成するべき目的や目標、基準のない、いわば独立して成り立つ「データ分析」というものがそこにあるわけではないということです。従ってそれが「業務」であることもない訳です。単純に楽しみのために行う「趣味」と(主にビジネス上の)成果を得るための活動である「業務」は異なるという視点からです。

    従って、「データ分析」という活動を行うためには、その元あるいは背景となる目標・目的、そしてその到達基準といったものが必要とされるということになります。「データ分析業務」という曖昧なモノが単独であると思ってしまうと、行方知れずの時間消費活動に陥る可能性があるということを筆者は指摘しておきたいという意味です。多分冒頭のニュースメールの表題は、ツールベンダー或いはその販売者の見方が強かったのではないかと筆者は推測しています。「ツールありき」の考え方からきているという意味です。
  • ここで確認しておきたいことは、ビジネスにおいて「データ分析」を有益な方法の一つとして利用・活用するためには、「データ分析業務」というようなものが漠然として存在するのではなく、達成すべきビジネス目標・目的を関係者の間で見える形で共有するということが重要であるということです。そうすることによって、際限のない人・モノ・金・情報といったリソースを浪費することなく、日々の企業活動を有益なものにしたいものです。
  •  (ページ先頭へ戻る)
  • その90:  【戯言】コロナウィルス事件を見ながらのマルチヴァース考(今ココにある並行宇宙)

    コロナウィルス騒ぎの終着地点はもう少し先の話になりそうですが、多くの人達にとっては自分と社会との関係という点で立ち位置を見直す良い機会であり、またそのための時間を得たということも事実であると考えます。そのような中で日々思考するコトを記しておきます。

    今回のコロナウィルスは誰かによって人工的に作られたものであるという話が複数のルートから出て来ています(筆者は、今回のウィルスの見せる特徴からして、恐らくそれは正しいだろうと考えています)。この時期に改めて考えることは、一人一人が己のこととしてどのようなモノを理想として捉え、これによりその進む方向が生まれているということです。それによって辿り着くであろう世界(未来)が変わる。 この見方によれば、それぞれの思考が目の前の世界に同時に混在していると見ることができます。その意味で「今ココにある並行宇宙」と捉えられる。そして各々が生み出す並行宇宙が交わった地点として「イマココ」 が出現するという訳です。そのイマココは、多くの他者の影響を受けながら変化してゆく。己のイメージする世界は、他の誰かの影響を受けざるを得ない状態で替わりながら、己は理想とする世界に向って游いでゆくという状況として考えると分かりやすい。

    人との物理的触れあいを制限しようという社会風潮の中で、この並行宇宙における「コトバの役割」の面白さと大切さを感じる出来事が幾つか続きました。その際に使用するコトバというのは簡潔なものであることが理想ですが、これを達成するにはコトバを交わす相手との間に相当程度のイメージ空間共有が必要です。この共有ができているかどうかで、言わば内容の伝わる深さが変わるという見方です。従って、例えばSNSのようなもので単に雰囲気だけで交わされるコトバには多くのすれ違いが生まれるのは当然であり、そこに深い理解(共感的なもの)を求めるには無理があるということだと、筆者は考えます。前提として、互いのイメージ空間共有が前提である。偶にはその共有範囲に関する思い違いもあることでしょう。それは誤差の範囲と捉えられれば、それほど摩擦も感じることがない。しかし、このコトバが通じる世界においては空間的な距離は存在しないといえるでしょう。

    ひいては個人としてSNSのようなものを共感的に利用するには、前提が要求されるということです。ただSNS的なものを簡易に連絡を取り合うツールとする使い方もあるため、その役割を限定する意図が筆者にないことだけは記しておきます。一方、こういった所に、企業などからのマーケティングツールとして利用したいという雑音が混じってくると、少しばかり煩わしさを、正直感じることは否めません。それはツールの使い様というところでしょうか。本当は、それがキチント分けられていることが使う側の願いでしょう。テレビにおけるコマーシャルと同様の位置付けです(因みに蛇足ですが筆者は普段からテレビは見ていないため、その煩わしさからは切り離された状態です。)

    そこで並行宇宙の話題に再び目を向けましょう。この宇宙は空間的なものではなく、時間的にも混在してそれぞれの個人の目の前に現れていると考えられます。視覚的な機能面を中心に捉えれば、それはホログラムのような映像的イメージと表現できますが、もうすこし感覚の範囲を広げてみれば存在感そのものということができるでしょう。つまり物理的存在は、各人の感覚によって感知されるという訳です。それが一人一人の認知している世界の違いとして現れるているというコト。極端な話しに例えれば、言わば一種の感覚的遊園地として考えると面白さが増す。こういった中でどのような暮らしを営むかという行動を支えるのが、冒頭でいっていた「理想」ということになるでしょうか。
  • この項に結論は存在しません。 改めてここでの並行宇宙というのは、筆者の中では個々人の「目前の実在感」として現れるモノだとだけ記しておきます 。
  • (先頭に戻る)
    • その89:  EDW 2020 カンファレンスの延期決定、および情報リテラシーということについて

      前回の本欄 では、2月時点でのEDW(エンタープライズ・データ・ワールド)主催者の方針案内について紹介しましたが、その後の日本や米国の社会情勢により、色々な変化が起きたためこの欄で紹介をしておきたいと思います。その第一は、日本国内のコロナウィルス対策として各種のイベント・集会・学校などが中止・休校扱いが起きていること(政府からの正式依頼が発表されている)。海外での日本からの渡航者を拒否する国が現れている。また米国においてもレベル2の要注意国として取り扱われている。こういった諸条件を鑑みた上で、今回の米国出張は日本から出るのも、また米国から帰ってくるのも大変な状況を生むものと考え、筆者から参加キャンセルする旨の決定を行いました。この点は、筆者にとっても半年以上前から準備を進めて来ただけに、苦渋の決断といえるものでした。

      また一方、その後米国内での感染者増加などの状況も踏まえ、主催者側も正式に開催延期を決定し、3月11日にそれが正式にWebページ掲載実施されました。筆者からみても大変残念なことです。現在は時期をずらしてネット環境を利用してオンラインでのカファレンス形態実施を検討開始しているようです。(トップページに触れたように、当方へもビデオプレゼン依頼が届き4月10日に無事限定公開されました。

      さてこのような状況で、このコロナウィルスの広がりに絡めて「情報リテラシー」ということについて、ここで記しておきたいと考えました。そのきっかけは、3月に入ってからのこの感染状況の発生国からの情報発信の態度が変わってきたことにあります。当該赤龍国からは、対策がうまくいった結果新しい感染者は減少傾向にある、そして逆に海外(日本等)から入国しようとする者に条件を付けることを行いだしているという話。日本が逆に感染源国として扱われ出しているということ。つまり3月以降、何らかの情報戦の状態が生み出されていると見做せるという現象が起きている。

      信頼筋からの情報によれば、かの赤龍国での状況は発表とはかなり異なると見做せるということ。それにも関わらず為政者による意図的な操作が起きていると考えられること、また日本国内のマスコミやメディア、一部の政治家などはそういった情報を元に議論・宣伝を行っている状況にあるといった点が、情報取扱いの問題として筆者に意識されているという意味です。背景に制御し、意図的な表面の発信情報だけに頼る姿勢では本当の姿を知ることができないということです。これをここでは「情報リテラシー」の課題として取上げた訳です。

      こういった不確定的で、信頼性に疑いの大きい情報/データを元にして、ツールを使ってどんなに綺麗な絵やグラフを描いてみても、参照する者にとっての価値はゼロ点であるといって良い。寧ろ、取り扱い方によっては社会的悪影響を生み出すマイナス効果を生むことがあるといえるでしょう。繰り返しになりますが、情報の発信源や意図を踏まえて、目の前にある情報/データを解釈する必要があるということが、「情報リテラシー」の根幹にあるということです。

      そのような点を踏まえながら、現在のコロナウィルスの広がりに関する状況を、冷静に淡々とみてゆきたいと筆者は考えています。今の国家は今後の方向制について大きな岐路に立っていると考えます。また個人個人の取組みも重要性を増してくると考えられます。脚下照顧。
    • 【補足】大変気になる情報として、3月13日夕刻時点、この赤龍国は「コロナウィルスは米国が持ち込んだものだ」との情報を流し始めているということを、追記しておきます。今後の国際情勢として着目しておきたい点です。
    • (先頭に戻る)
    • その88:  【特別版】コロナウィルス対応に関するEDW カンファレンスの方針

      本年の1月中旬以降、日本国内で持ちきりになっているコロナウィルス感染に関連して、近頃は首相発信による突然の「全国学校の一斉休校」指示が出されるなど、我が国の対策はかなり出遅れ感を感じ、極端で場当たり的な対応になっている印象が強いという意見もSNS等ネットの世界では多く出される状況になっていると言って過言ではありません。多くのイベントや集合セミナなども中止・延期、或いはネットを利用したオンラインセミナへの変更という対応が目立つようになっています。

      このような中で、筆者が参加予定をしているEDW 2020(Enterprise Data World 2020)について、どのような行方になるか固唾を呑んで注視していましたが、本日(2020年2月29日)、EDW主催のDATAVERSITY CEO名で、今後の方針に関する ”Note to EDW Registrants regarding the Coronavirus" という表題の電子メールが送られてきましたので、こういった事態での海外(米国)のイベント対応に関する参考事例として、ここで紹介したいと思います。

      その内容の概略を示すと、以下のようなものです。
      ・米国San Diego(CA)開催のEDW2020は現時点予定通り実施する方向で進めている。
      ・US政府、CDC(the Centers for Disease Control)、WHOのガイダンスに従い行動する。開催地ホテルも感染を避けるための諸々の措置を実施してゆく。
      ・カンファレンスは、「ハグなし、握手なしポリシー適用する」。(スタッフは、「心の内でのハグや肱突き合わせをします。」と補足されています。)
      ・参加者医療アシスタンスや調子の良し悪し確認を実施。
      ・CDCやWHOの感染対策等推奨事項に関する変化を毎日ベースで参加者に知らせるように努める。
      ・CDCのガイダンス・・・詳細記すのは避けるが、基本的には、機会あるごとに20秒以上の水での手洗いを励行すること。(水を使えない時には、60%以上のアルコールを含むハンド消毒液を使う、とあります)
      ・また、洗浄していない汚れた手で、目、鼻、口等に触らないこと、等々。(日本の状況とは異なって、ここではマスクの話は出て来ません。)

      更に、興味のある内容として、「警戒レベル3地域(中国、韓国)、レベル2地域(イラン、イタリア、日本)から来る人は、事前にその旨を届けて欲しい」とあります。筆者はこのメールを受け、早速旅程情報を含んで出席予定の回答連絡を入れておきました。これで、筆者は要注意チェックリストに登録されたかもしれません。

      尚、マスク使用については、このEDWの話とは別に、筆者が利用している放送大学の学習センターから「3月の運営」として、この同じタイミングで送られて来たメールの中に記述があったので、それも参考に紹介しておきます。 【マスク使用上の注意点】WHOは、マスクは咳やくしゃみの症状がある場合に使うこと、そのような症状のない人は症状のある人の面倒を見る場合にのみ使うこと、使い終わったマスクは表面に触れないようにして、密閉した袋に入れるなどして適切に捨てることを勧めています。汚染した可能性があるマスクのまま学習センターに入ることのないよう、ご注意ください。(マスクの予防効果は限定的です。マスクを過信することのないようお願いします。)
    • この説明はかなり的を得ていると筆者は感じます。これと比較すると昨今のマスク騒ぎは実質的な効果を離れて、行き過ぎた社会反応だと言わざるを得ません。また、この学習センターからの案内文には、A.手洗いの重要性、C.外出を控えることのリスクの考慮、D.詐欺への注意(マスクの件は項目Cとして説明)という項目がありました(省略)。

      筆者は、引続きEDWへの参加を前提に準備を進めますが、どういう状況になっても良いような心構えを持ちたいと思います。また、基本的な習慣(必要な手洗い等)が大切であるということも確認しておきたいです。
    •  (先頭に戻る)
    その87:  データマネジメント知識体系(DMBOK2)の各章の参照関係を見える化すると

    2020年最初のこのコラム(その85)でグラフデータベースといった最近の話題について触れました(そのコラムは、アーカイブで見ることができます)。グラフ表現を利用することで様々なモノやコトの間の関係をデータ化することができ、そのデータから視覚的な表現をすること通じて興味を惹くような知見を得ることができる、或いはそのヒントが得られるという意味です。今回はその具体的な利用法の一つとして、以前にも紹介したことがあるDAMA(データマネジメント協会)が発行するデータマネジメント知識体系 第2版(DMBOK 2nd Edition)を視覚的にグラフ化して捉えようという試みを紹介します。

    データを作成する元ネタは上記のようにDMBOK第2版です。この内容をベースに、筆者はある章から他のどういった章を参照しているかを独自に調査しました。少し専門的な用語が入りますが、DMBOK2は第1章から第17章で知識領域の全体像を解説しています。この各章を「ノード」として表現します。そして、ある章Aから他のある章Bへの参照関係を矢印(「エッジ」または「辺」と呼ぶ)で表現します。今回は章の参照関係に方向性があるため、それを矢印で表わす訳です。こういったノードと(有向)エッジで組み合わせて表現した図を有向グラフと呼びます。もしノード同士に方向的な参照関係を表現する必要がなければ、ただの(無向)線で関係を表わし(無向)グラフになります。筆者が作成した今回の有向グラフは、17個のノードと多数の有向エッジ(矢印)で書かれるということです。このグラフ図を「游悠レポートサイト」で公開していますので、興味を抱いた方は、コラム直前にある「游悠レポートサイト」へのボタンをクリックして図を入手して下さい。

    因みに、今回のグラフ図では、各ノードを色分けし、参照の元になるノードの色が矢印の色になっています。また矢印の太さが参照関係の強さを表わします(矢印の幅が広いほど参照回数が多いことを示す)。これでどういった内容が見て取れるのでしょうか?(ここからは、当該のグラフ図を参照していることを前提に記述していますので悪しからず)。まずすぐ目に付くのは第1章の「データマネジメント」です。この章はDMBOK2の導入の意味を持ち、基本的には他の殆どの章を紹介する位置付けです。ここでは、特にこの意味を強調するためにノードの大きさを他のノードよりも大きく表現しています。そして、ほぼ中央寄りに位置取りをして作図しています。

    次に目立つのは、矢印の太さではないでしょうか。DW-BI(データウェアハウジングとビジネスインテリジェンス)ノードからData-Int-Op(データインターオペラビリティ:DII)へ向く青い矢印が目に付きます。この方向の参照関係がDMBOK2の中で強調されていることになります。そして、そのDIIノードから参照しているもので一番強い関係が、”Storage-Ope”(ストレージとオペレーション)(明るい緑色)です。また、”Ref-Master”(リファレンスとマスターデータ)からの参照(明るい青色)が比較的多いということが見て取れます。人によっては「データ品質(”Data-Qu”ノード)と関係が深いのはどの章なのだろうか」といった観点に目を広げるということがあり得るでしょう。
  • DMBOK2に関心のある読者は、他のどのような関係に目を向けたくなるでしょうか?これはそれぞれの目的と創造性に任せられる話題ですので、全てを列挙するということができませんが、モノやコトの関係性をこういった表現で捉えることが、如何に脳の刺激材料になるのかといったことを、この例から見て取れるのではないでしょうか。もっと多量のノードとエッジから構成されるグラフの場合は、かならずしもグラフ図にするということではありません。ノードとエッジの関係を仮想的に管理し、またその内容を条件付けして取り出すことができれば良いということです。これをツールとして提供するのが、冒頭でも触れたグラフデータベースという分類です。現在様々なベンダーからこのためのツールが提供されていますので、興味のある方は是非「グラフデータベース」で検索して下さい。

    【参考】最近話題になっているグラフデータベースの例として、Neo4jのサイトを紹介します。リンク参照下さい
  •  (先頭へ戻る)
  • その86:  データマネジメントの成熟度フレームワーク・・・外部的見方(客観的)と内部的見方(主観的)について

    Dama Japan(データマネジメント協会日本支部)第11分科会の、令和2年最初のミーティングが先日開催されました。議論の主題は、データマネジメント成熟度の枠組みをベースにして、どのようにテーラリング(またはカスタマイズとも)していったら良いかということでした。その議論の中のフレームワークに関して、筆者の一つの見方を披露したので、今回はその話題について簡単に紹介します。

    データマネジメントの成熟度評価というのは、今そこで運営されているデータを管理し利用する状態に関して、ある評価の基準を用意した上で、この見方を利用して現状の状態を評価しようとする試みです。このために整理し定義する評価の枠組みがフレームワークということになります。そしてこのフレームワークに基づいて、具体的な評価内容と視点を用意するという流れになっています。分科会として着目しているフレームワークには複数ありますが、ここではそれらの中での代表格として、CMMI/DMM(最新版はV1.1)とDMBOK第2版(DMBOK2)を上げることができます。これらのフレームワークを比べると、今ここにあるデータ運用・利用環境を見る立場に次のような違いがあるというのが、筆者の考え方でした。

    第一のCMMI/DMMというのは、CMMI成熟度シリーズとして前もって検討された複数の成熟度評価アプローチの適用分野について、「データマネジメント」分野にも適用するというスタンスで組立てられています。そしてその評価項目の内容は、外部から客観的な見方で評価しようという立場を取っている。いってみれば企業の会計監査のように、エビデンスベースでの証拠に基づいた現状評価をしようという見方ということができます。従って、この見方を推し進めれば、評価された(企業内の)仕組みの正しい在り方や改善方法の具体策は、その対象者の中で取決めるべきものだという見方になるといえるでしょう。自分たちで解決策のための仕組みを構築し、その約束の下で運営を行うという形になるということです。この解決策のお手本として、例えば他社のケースや業界のベストプラクティスを活用するということはあるでしょう。しかし、繰り返しになりますが成熟度の評価は、活動の証拠を元に第三者の立場から行うというスタンスです。

    これに対して、DMBOK2そのものは所謂「知識体系」、BoK本ですから、データマネジメントのプラクティスに関する実践領域に関して技術的な内容を含めた手本集という見方をすることができます。この知識領域が11個の分野として組立てられているということです。それらの領域に関して、プロセスやツール等の外延的情報を説明している(或いはその解決のためにとのような情報を参照すれば良いかを示している)という訳です。従って、この枠組みを元に成熟度評価という見方をしようとすると、提供された分類の各領域についてどのような組み立てをするのかという点を「内部的に」検討する必要があるという点に注意する必要があるのではないかというのが筆者の見方でした。つまり環境の内側の視点として自分たちの実践の仕組みを眺める必要があるという意味です。従ってこの枠組みに沿った成熟度評価は、具体的なプロセスの在り方や利用ツールの環境などを調べるという方向になるだろうという意味です。

    以上のように、利用するフレームワークによって、成熟度評価を行う評価者の立場に違いが現れます。そもそも何のために成熟度評価を行うかという「目的の確認」が事前に必要であることは言うまでも無く、評価のために利用するフレームワークの選択にも注意が必要であるということです。筆者の考え方としては、成熟度評価を実施する理由は、対象分野についての(1)現在の状況と、(2)将来の在りたい姿を描き、そのギャップ認識の下に具体的なステップを決める材料とするという点だと考えています。そしてこの具体化のための動機付けと予算化を推し進めるということです。
  • いずれのフレームワークを利用するか(或いはそれらをミックスした第三の枠組みを利用)はさておき、企業のデータメネジメントの在り方と、より良いデータ活用環境の構築達成を目指して、成熟度評価というツールを活用したいものです。こういった話題と具体的な進め方に興味のある方は、是非「お問い合せ」ページを通じて筆者にご相談下さい。
  •    (先頭へ戻る)
  • その85:  データベースの新たな形:グラフデータベース・・・関係を直接表現する技術

    業務系に使用するデータベースシステムとしてリレーショナル型データベースが出現して、ほぼ30年を越える期間が過ぎています。現在はそのようなシステム利用形体においてRDBMSを選択することが当たり前のように行われています。一方でRDBMSのデータ表現形態では開発者として不便(あるいは限界性)を感じる場面が出て来ている。正確にいうならば、元々制約として現れていた箇所が、これまでは何らかの方法で(言葉は良くないが)何とかゴマカシテきたものが、取り扱うデータの種類や量が非常な速さで拡大してきた環境において、扱い難い点が目立つようになってきたともいえます。また、技術や物理環境/装置の進展で、他の方法として費用的にも導入しやすくなってきたといえます。(例えばSSD装置の広がりであったり、今や1TB(テラバイト)のメモリを搭載する計算機も比較的リーズナブルな費用で手に入れることが可能になってきたことなど。)

    このような中で、グラフデータベース技術に脚光が浴びせられるようになってきています。これはデータ同士の関係性を直接構造として表現する方式です。例えば、人と人、人と物(またはコト)、イベント事象と状況などを論理的な関係性として直接構造に取込み、表現できるようにすることで、容易大量データの検索や処理を行えるようにする。計算機メモリ容量が飛躍的に拡大可能になったことで、そういう構造を取りやすくなったという背景もあります。また理論的には、グラフ理論」という数学的背景が根拠として後押しをしている形になります。そして技術的にその構造を扱う言語の発展や、利用事例の広がりも見ることが出来ます。このようなツール環境として「Neo4j」が代表的で人気を集めるようになっています。また、集積されたデータを利用する側の立場で理解しやすくするデータ表現(プレゼンテーション)手法も広まってきています。

    こういった形で取り扱えるデータ資産が増えると、これを効果的に、また継承可能な形で管理して行きたいという要求が出て来ます。それを実現する一つの手段として「データモデリング」の技術が必要です。それは、グラフデータベースでのデータ表現は(専門的な言葉になりますが)インスタンス同士の関係性の集合という形が基本になるため、欲求に任せて無制限にデータを増やしてゆくと、一体どのようなデータ種類や構成がデータベース内に表現されているかを把握しきれなくなってしまう危険性を持っているという意味です。従って、リレーショナル型データベースの設計でも使われていた「論理データモデリング」の考え方を取入れて基本的なグラフデータベース上のデータ構造を表現することが大切ということになります。その上でインスタンス同士の関係性(リンク)の表現を付加的に、また網羅的に設計情報として取り扱う設計習慣を早くから導入することが、将来の混乱度を軽減するための方法として必要だと、筆者は考えています。

    また、グラフデータベース利用の範囲を検討しておくことも必要になるでしょう。元来データ同士の関係性を直接表現してデータを増やして行くという性質上、データの全体量が拡大した場合、現状の管理方式ではデータの終着点が判別できない世界ということになります。それは、インターネット上の世界では終着点が見つからないということと同様です。これは、データ表現する値の集合を正確に知ろうとすると、何が結果(例えば合計値)として正確なものなのかを、利用者が保証できないという問題に繋がる可能性を含んでいるということです。利用者がどこかで限界を設定する(例えば、最大の探索距離を設定して、その先には進まず諦める)という形での利用になる可能性があるということです。そのような制約を考慮して利用範囲や形式を設定するという意味です。

    グラフデータベースの持つ特性を活かしながら、適切な利用形体を図って行くというのが、この新しい技術をうまく取り扱う秘訣になるものといえるでしょう。先に上げたNeo4jなどは、無料でも利用できる形で製品ダウンロードもできますし、またその利用に関する資料の提供も積極的に行われています。このコラムを参照した方で興味があれば、是非この製品の使い方を理解する上で早めに利用してみることをお勧めします。
  • 今回は、新しいデータ活用の形として着目され初めてているグラフデータベースについて触れてみました。最後に遅ればせのご挨拶ながら、関係各位には本年も宜しくお願い致します。   (先頭に戻る)