アーカイブ2023年

  • その141:  円周率(Π)での「数値0~9」出現度数分布を調査した話

    今回は2023年の話題の最後として、通常のデータマネジメント話とは方向を変えて、筆者が何となしに抱いていた「ある疑問」への試みについて紹介します。その疑問は、ほぼ誰もが知っていると考えられる代表的無理数「円周率(Π)」についてであり、「無限に続く小数点列について、各桁に現れる数値(0~9)は一体どのような出現傾向があるのだろうか?」ということでした。

    これを調べる方法として、円周率の小数点第1位から第10000位の値を対象に(注1)、1000桁ごとに数値「0」から「9」迄の値がどれ位の頻度で出現するかをカウントし、それを積み上げ棒グラフに描いて視覚化する方針にしました。そのカウントしグラフ化した結果を本稿の最後に掲示しています(因みにこのカウント手段としては言語Rの環境を使用しました)。この結果グラフでの横軸は、小数点以下1000桁毎に10000迄の1000の数値計数を積み上げ棒グラフの形にしたものです。1本の棒グラフでは、値ゼロ(Val0)から値9(Val9)のそれぞれの出現数を色分けで表しています。従って1本の棒グラフ内の各数値の出現数を合計すると1000になります。

    この結果グラフをざっと眺めると、各1000桁内に現れる値0~9迄のカウント値には極端な差が出ていないように見て取れます。1000桁グループ毎の桁数値がほぼ均等に出現すると判定して良いかを評価するには、0~9の各数値の出現期待値が100回(1000/10)と近くなっているかを調べる必要があります。このために各数値の期待出現率が10%として評価できるかをカイ(Χ)2乗検定を用いて調べました。その結果を表1に示します。この結果を概観すると、小数点桁2001~3000位の出現部分を除き、各1000桁内の数値の出現数は10%と見做すことを否定できないということになりました。(また、小数点以下10000桁としてカウント集計した数は、数値0から9迄、それぞれ、968回、1026回、1021回、974回、1012回、1046回、1021回、970回、948回、1014回となっています)

    この結果を得ての筆者の思いとしては、円周率Πの小数点以下で示す値の無限数列を構成する数値がほぼ均等に出現すると考えてもよさそうだということです。円周率の桁に現れる数値を使って乱数生成の一つの種としてとして利用する可能性を感じています。円周率の値は様々な場面で出現利用されていますが、改めてこのΠという値の持つ不思議さを筆者は感じている次第です。
  • (注1) ここで用いる円周率(Π)の値は、データ分析ツール提供会社であるWolframのWebサイトから入手利用した。最後の桁は丸め処理が施されるため、今回は小数点以下10002桁分のデータを用いた。
  • (先頭に戻る)
  • 表1 1000桁毎出現値のΧ2乗評価でのp-値
    桁位(1000桁毎)
    各桁数値10%出現期待
    とした場合のp-値
    1~1000
    0.8564
    1001~2000
    0.8395
    2001~3000
    0.0067
    3001~4000
    0.577
    4001~5000
    0.403
    5001~6000
    0.4118
    6001~7000
    0.5503
    7001~8000
    0.4559
    8001~9000
    0.9918
    9001~10000
    0.4083
  • その140:  ガバナンス(統制)と自由と自在と

    データマネジメントを考える上でDMBoK2などでは「データガバナンス(データ統制)」という要素が重要視されており、統制的組織活動を通じて取り扱うデータへの信頼性、品質を向上させるという目的への一つの手段として扱われています。その構成要素として、組織立てとプロセス管理に重点が置かれているのがDMBoK解説の要点だと理解されます。そしてこの内容を規定するのが統制的管理のためのルール作りであるという関係です。更にデータ品質管理における共通概念として、データフローにおける下流でのデータエラー検知に重点を置くよりも、上流に当たる(データの)入り口で入力を可能な限り正しくし、また加工の設計・製造・変換過程を整理・確立した上で、最後の出口付近として検証・確認の意味付けで正当性を試験するという流れが重要であると広く認識されています。

    ところがこのルール作りの難しさというのは、上流から流れるデータの多様性(意味・定義・経路・タイミング・量など)があるために、ある一時点で確定したと想定された内容が次の時点には変化して姿を変えることが少なくない点に重きがあると考えられます。そしてこの課題解決に対応するアプローチとして、メタデータとそれを保持するデータカタログを整備し、それをベースにする処理過程(データリネージとも呼ぶ)を極力自動化するというのが近年の流れになってきていると理解されます(例えば、米EDMCのCDMCアプローチなど)。いってみれば、これは機械的な手段を通じて人間が介入する自由度を大きく削減する方向性を狙ったアプローチ/方向性だと捉えることができるでしょう。

    この自由度削減という流れに対し、「自在性」を拡大するという方向性があるのではないかというのが今回の一つの視点です。その内容検討の前に一つ用語について確認しておきます。それは「自由」と「自在」という似た意味にも捉えられる言葉の微妙な立ち位置の違いについてです。「自由」というのは、機械的合理化を基礎付けるための管理「統制」とは対立する概念で用いられることがしばしばです。ある意味、行動的自由を制約する延長線の行き着く先に統制概念が存在する西洋的方向性が強調されていると見れば分かり易いでしょう。これに対し、ここでの「自在」には一種東洋的な幅をもった響きが含まれ、ある種の束縛の中にあっても思いのままにモノ・コトを扱う様を表していると捉えると、その両者の意味合いの違いを認識することが可能であるという訳です。

    それでは、この統制と共存する自在アプローチがどのようなものでありえるかと言えば、それは統制に平行した人間意志の存在が見いだせるか否かに関わってくるものと筆者には考えられます。正直なところ、昨今大規模データに基づく機械的技術の導入を用いた合理化の方向がやたらと「AIの活用」という名の下にコマーシャルとして喧伝され過ぎているのではないかという疑問が筆者にはあります。そこでは、機械的・数値的・媒介変数的に導き出され、表出された現象理解をやたらとビジネスに絡め利用しようとする無定見さが前面に押し出されているように感じられるということです。これに対して、利用者・利用環境を踏まえた東洋的な許容性を含んだ規則作り、運用方針があり得るという考え方に着目したいということです。謂わば「自ずから整う」自律方式を積極的に取り入れる方向からデータ品質の向上を目差したいということになります。

  • こういった考えに基づき、今後の東洋的統制(ガバナンス)構築のあり方について考察を深めて行きたいと筆者は考えているところです。技術を利用できるところは積極的に取り入れつつも、人間の介入を意義を高めるという方向でプロセス化を進められることが一つの理想的な協働データマネジメント指向を作るきっかけになると期待しています。
  • (先頭に戻る)
    • その139 :  数の概念と四則演算モデル化の一つの物語り

      前回、概念定義とモデル化とが密接な関係にあり重要性を持つことを、やや遠回しの言い回しで考察しました。今回は「数の概念と四則演算の関連性」について近頃思う所を記述します。この現実世界をモデル化する上で、言葉を通じてモノの概念をイメージ化定義を行うと共に、数を利用して性質を表現すると考えると面白いのではないでしょうか。この視点を出発点として、数の持つ性質を一つの物語として考えることにしました。

      学校算数(数学)での数分類の第一歩は「自然数」に始まります。これはモノを1(壱)として認識し、各を数え上げながら総量として表すことに役立つ初歩といえるでしょう。この応用過程で、「足し算(加算:+)」が数え上げの結果を表現する計算規則として現れたとここで仮定しましょう。数え上げ実行の中で、モノを移動しながらの数え上げの前の状態と、後の状態をヒトは意識し始めた訳です。そのうちに全てを数え上げ移動した中で、全てが前の位置から無くなった状態が意識され「無くなった状態:0(零)」を表そうとした。そのうち加算として増える側と対照して、減ってゆく元の側に目を向けて「引き算(減算:-)」が規則となる。増加と反対方向の動きとして減少に目が行く。更に過剰の移動から無いものの席を埋める概念としてマイナス(-)の位置付けが発生し、負の数を含めた「整数」としての数意識を生んだと考えましょう。

      加算による増加の過程から、一つ一つのモノの数え上げを同じ数からなるグループとしてまとめて、そのグループ数を扱うと、増加傾向をより短時間に扱えることが分かる。つまり「掛け算(乗算:-)」の発生につながる。そしてこの考え方が減少方向にも通じていることが認識される。それでは「割り算(除算)」の生まれた原因はというと、あるモノ(個またはグループ)」を分割するところから始まったと考えるのが分かり易いでしょう。これにより「分数(有理数)」が表現されます。そして四則演算の組合せが一通り成立する。これで日常取り扱う数の世界が全て揃ったかと一時は満足したものの、数を小数を用いて表そうとすると、小数点以下に延々と同じ数が続く無限世界や、分数で扱うことのできない数があることが分かってくる。それ以外に、円の半径/直径と円周の長さの関係や、直角三角形の直角を挟む辺と斜辺の関係を有理数の範囲で表そうとしてもできないことに気付く。そこで無理数の中で特定の性質を表すものに名前を付けたり(円周率パイ(Π)やルート記号(√)でその性質を表すといった工夫が成された。勿論、これで表現しきれない数値群は放っておかれたままです。それでも日常的には困らないとしておく。これらを「無理数」と名付け、数の全体とする(但し、除算の分母にはゼロは使うことができないという制約付きです)。

      これで数が全て扱えるようになったかといえば、高次の方程式の解を考える中で、これまでの数概念では扱えない数の世界があることに気付く人間があった。そこで虚数単位「i(アイ)」の登場となります。これにより、それまでの数群は「実数(Real number)」としてラベルが付けられ、新たな単位で表される数を「虚数(imaginary number:仮想の数)」と名付けます。この虚(仮想)表現というのは、高次方程式解を表すのに導入された特別の数であって、日常の世界では利用価値がないものと考えられたことから名付けられたようです。しかし、直接目に見ることのできない世界(電気・電子工学方面では電流iと区別するために虚数単位を「j(ジェイ)」で表現。流体力学、量子力学等でも便利に使われる)では有用な概念であることが分かり便利に利用されています。このため「イメージ数」というのは似つかわしくないのかも知れません。何れにしても、日常世界で主に使われる「実数」とは異なる性質を持つと理解されています。数学的には、概念の異なる単位を導入した多元数の一例として実数と区別されることがある。

      ここまでは数の世界の物語の前半ですが、筆者には「数」に関する疑問が幾つもあり、これらの課題を考える楽しみがあります。その幾つかを紹介しておきます。(1)数直線概念において、ゼロ(原点)は特異点であり、この意味で正数と負数の関係は方向性の違いが表現できれば良く、直線関係でなくても良いのではないだろうか。(2)乗除算でのマイナスの役割は折り返しを意味しており、それが負数と正数の乗除算での規則に反映されている。一方虚数単位は、いわゆる自乗関係において、虚数の世界を実数の世界に影響を与えるという役割を果たしている。この本来の意味は何であろうか(この影響として、虚数平面では倍数と回転、或いはベクトル表現で扱われています)。虚数を「”実数部"+"純虚数部"」として「プラス記号(+)」でつないで表現する方法は、その名称と共に何らかの誤解を与える表記方法であるのかもしれません。などなど、、、(笑々)。
    • (先頭に戻る)
    その138 :  数学の論理性とデータモデルの果たすべき役割を考える

    今回もデータモデル談義が続きます。先日、経済学と数学の関連について講義形式で説明している本 (注※) を見直した際に、次のような考えが浮かんできたためそのアイデアを紹介する回となります。この書籍自体は、数学の核を成すものは「その絶対的な論理性」であり、これを基盤にした考え方が今日の経済学に取り入れられていることを歴史的・文化的話題を交えながら解説したものでした。本稿の執筆者が考えていたのは経済との関連ではなく、「数学のもつ論理性」がどういうことであり、これとデータモデルを作ることがどういった関係にあるのかという点です。「データモデルが現実世界を仮想世界に表現するための一つの核となる要素である」という基本的見方からすれば、それを考えることもあながち無駄ではないだろうという視点です。

    この本の著者は、(掻い摘まんで見れば)「数学者の前提とする公理というものは、数学の歴史からして一つの仮定であることが分かってきたが、その仮定を運用する論理は『数学的絶対性をもつ論理の進め方である』」と語っていることを筆者は理解しました。それはユークリッド幾何学から非ユークリッド幾何学が生まれた流れと見られます。筆者の考察点は「それでは、その絶対性は何を基盤としたものなのうだろうかという所」にあります。簡単な例で議論すると、果たして「1+1=2」という表現は、本当に絶対的なものから来ているのだろうか?よくよく見てみると、この単純な恒等式にさえも、幾つかの仮定(或いは「定義」という方が解りやすいか)が含まれていることが見てとれます。まず「+」とはどういう約束か?次に「=」とは何を表すか??「(左右の辺が)等しい」というのはどういう意味か???そもそも「1」とは何を示しているか???? 数学が科学の端緒として受け入れられ始めた中世ヨーロッパでは、乗算が多くの人々に受け入れられるのに時間を要したとも伝えられています(別途、森毅氏著書より)。先の式を恒等式として捉えると、果たして実用的世界において「リンゴ1個」と「ミカン1個」を足すことにどんな意味が含まれているのだろうか?

    つまりこのような概念変化が受け入れられるためには、「1+1=2」という式は、実は恒等式ではなく、変数を含む方程式と理解するのが正しいという「意識の変化」が生まれるといえるのではないか。そうすると「1」には随分と多くの意味の存在が隠されていると見えます。或いは、多くの意味・性質を絶対的に削ぎ落として「完全な抽象化」を行った状態と見ることもできます。その完全な抽象化が仮定された上での式への解釈を「数学的論理で繋いでいる」という方が分かりやすいのかもしれません。数学的論理の基盤の第1歩である「同一律(the law of identity)」は、完全な定義の存在そのものを前提としているということになりますが、「その完全な定義は完全な抽象化の存在を元にしている」というのが分かりやすいかもしれません。ある意味「神の領域」といえるものでしょうか。

    このように見てゆくと、曖昧ともいえる現実世界を、更に論理で動かそうとする仮想世界である計算機上の世界は、その完全性に一歩でも近づくためのモデル化が必須であるということが理解されるのではないでしょうか。ここではデータのモデル化によるモノ・コト表現に加えて、それらをどう取り扱うのかというプロセス表現が必要となるため、複雑化は一段と高まります。更に関係者が増えるほどその表現量は幾何級数的なものにならざるを得ない。これを確実にするための手段として、単なる文章だけでなく視覚的表現とその共有推進の果たす役割は少なくないといえます。

    正確度・安全度を高めるために、正確なモデル化とその共有の重要性が理解され、広まることの一助となれば、本稿の目的が果たされると考えて今回は終了とします。
  • (注※) 「数学嫌いな人のための数学」 小室直樹著、2001年12月(第5刷)、東洋経済新報社
  • (先頭に戻る)
  • その137:  「人間原理」の視点からみたデータモデリング の果たす役割

    本文に入る前に一つ個人的なご報告です。前回までの記事で話題にしていた第2種電気工事士試験受験の件ですが、 5月の科目試験(CBT形式)、7月の技能試験を経て、8月中旬に無事合格の通知が届きました。さて、この電気に関わる物理学の基本中の基本的考えの中に「人間原理」というものがあります。簡単には「この宇宙、この世界は、人間が認識しているから存在している。人間が認識しなかったら、この宇宙は、はなから存在しない」という主張です。例えていえば、「人が全く存在しない山奥で、大木が何らかの理由で音を立てて倒れたとして、果たしてこれは一つの現象として人間に認知されるのだろうか?」といった議論につながる内容だと考えることができます。

    なぜ「人間原理」の話題を取り上げたかといえば、世の中の仕組み(モノ・コトおよびプロセス)を見ようとして、その現象を人が認識し整理するために、その見方をモデル化した上でないと他者(例えば最近流行のAI)にうまく伝えられないだろうということです。もっとも近年話題になっているディープラーニング技術では、「膨大なデータを与えるだけで何らかの論理的構成を勝手に組み立ててもらえる」と反論する方があるかもしれません。その議論の当否は一旦横においておき、先の議論を進めます。ビジネスにおける対象(モノ・コト)をどのようにある存在と認識して、その対象に対してどう振る舞うか或いは管理するかのロジックとプロセスを書き上げ、それを共通認識化する必要があるということがここでのポイントです。

    モデル化に当たっては、データの視点からは対象とするモノ・コトを定義し扱う要素項目を列挙するということから始まります。定義のためには、関係者がそのモノ・コトをどのように扱っているかの内容を正しく理解・列挙する必要があります。このために通常利用されるのが、業務マニュアル、関係部門の用語集、IT環境で使用している画面内容といったものです。経験上、これらが最新化されていることは余り多くないのがでしょう。これらはデータ・マネジメントとしてカバーするべき領域です。次にそれらのデータ要素が業務上どのように入力され、変更・更新され、誰にどのように参照されているかという点の理解・確認が必要です。また扱うデータ同士の関係性を表現することも求められます。これらはプロセスとフローという形で整理されるでしょう。そうして整理されるものが現状(または将来に向けての)あるべき姿として捉えられたものになる訳です。それがデータおよびプロセスのモデルです。こうして初めて他者に伝える基盤が整うということです。

    それらのモデルをどのように表現・記述したら、速やかに、誤りなく伝えられるかということに役に立つのが「技術」と「教育」の位置付けとなります。ここで大切なのは、技術先行ではないという点です。往々にしてツール導入をすることがデータ管理そのものだと誤解をしてしまう管理者があることに注意をしておく必要があります。また、技術を効果的に広げるための関係者教育も必要になることを忘れてはいけません。こういった要素の導入には、経営者の人的投資、技術的投資、時間の投資といった要素への深い理解と支援が必要です。これこそがCIOといわれる役職の必要な理由だともいえます。
  • 冒頭で掲げた「人間原理」が、どのようにビジネス理解、DX推進に関わってくるのかが伝えられれば、この稿の役割は果たせたものと筆者は考えます。後は、この考え方をどのように実践に取り入れるかが問われることでしょう。
  • (先頭に戻る)
  • その136:  時には「物理的視点から初めてみようではないか」という話(その3 )

    さて、前2回で触れた2種電気工事士の実技試験参加を昨22日(土)に終了し、後は8月下旬の合否発表を待つばかりとなりました。試験会場(居住地域)の参加者には電気関係を専門とするらしい高校生から実務に携わっていそうな人々、そして年配の方など様々な背景の人々があり、それらの人々が大会場の一つのフロアに机を並べて、恐らく500人以上が実技に携わる様は壮観の一言に表せるかと感じた次第。後で話を聞いたのですが、この試験は近年特に人気が高まって、3万人以上の受験者があるとのことで2度びっくりでした。ここで改めて感じたのは、日常的に家庭やオフィス、工場等で利用される電気施設を構築、維持管理する上で、利用技術やツールの標準化、そしてそれを使うノウハウ・知識の一様化と教育の拡充という点でした。

    これを本欄の主要テーマである「データマネジメントおよびIT領域」に単純に並べてみると、ソフトウェアやデータという目に見えない対象を扱うという点を考慮しても、利用する技術やツール類、それを活用・管理する標準化、そして携わる人という諸要素において、かなり底が浅いまま進んできて習慣化してしまっているのではないかと感じています(資源や優秀な人材を豊富な資金で集められる大企業を除く)。これはある程度専門的な教育を受けずにいても、プログラマーであると称して働くことができたいわゆる「人月商売」の許された過去の業界の弊害であると思われます。それはいまでも余り変わっていないかもしれない。それは 正直、かなりの程度自己流で進められることの少なくない「開発」という作業として象徴される。

    その延長で、ある意味場当たり的に作られ使い続けられるとも見えるソフトウェア群の存在と、逆の意味で短寿命のアプリケーションが販売され続けるということの弊害。そして誰も本当の中身や意味を正確に理解できないままに使わざるを得ないデータとプログラムの集合体。一方で、時間量だけを重要視して、品質の構築・維持に目が 届 かないという 少なくないマネージャの存在。昨今大きな問題となっている国の番号管理問題にもその典型的な状態が現れているのではないかと著者には思えています(しかも、その構築・管理に携わっているのが、世間では大手グループの一員と考えられている有名システム企業であるという点も悩みは深い問題といえるのではないか(余談ですが、そういった大きな課題を理解せずに声を荒げるだけの担当大臣は更に問題外とも思えます)。

    それでは、そういった状況を改善するためにはどうすれば良いかという点については万能の銀の弾丸があるとは言えません。地道にデータマネジメントの文化を広げるというのが現時点の筆者の立場であり、そのためにこのような文章を連ねているということです。本来は、そういったシステムに関わる技術者の免許性といった仕組みが必要な可能性を、動機付けという面で感じます。これには技術者の絶対数の充足という点で反対も多そうです。一方で標準化技術やツール類というのも、必ずしも確立されたものを永久に使い続けるのが良いという訳ではなく、ベースになる基本技術の変化や時代性に応じて入れ替えを行う必要性があります。それが筆者の以前から記述している「技術ライフサイクルと断捨離視点」の必要性です。
  • 冒頭で述べていた電気回路を扱う物理的技術世界では、これまで余り知らなかった様々なツール(工具類)が作られ販売されていることに改めて驚きました。そういったツールの利用方法や使うためのノウハウ情報がYouTubeで無料で流れているという点にも、今回気付かされたことを補足して今回の話題を締めたいと思います。
  • (先頭に戻る)
  • その135:  時には「物理的視点から初めてみようではないか」という話(その2 )

    前回は、電気工事士資格試験をきっかけに、物理的視点に目を向けるという話題への取り掛かりまでを説明しました。今回は、その物理的視点の位置付けを少し考えてみます。電気工事という主題を再確認すると、まず論理的には回線の基本的な接続関係を示す「単線図」というのがあり、これが論理的な回路のイメージです。そして実際に電気的な回路と様々な機器(例えば、コンセント、蛍光灯、スイッチ)を介しての電気コードや電線の具体的な組み立ての関係性を表現する「複線図」という物理図に落とし込まれることになります。ここまでは前回の記事で触れています。

    細かい点については省きますが、電気には電流・電圧・抵抗(機器)という性質があり、それを接地(いわゆるアース)、非接地の電源と各電線/コードを介して閉じた回路を構成します。これに各コードを流れる電流量、利用周辺の温度関係や電線/コードの長さといったものが制約として実際の回路構成上の約束が生まれています。但し、先に書いた複線図では環境的な制約までは表現されません。あくまでも物理的な電気回路の組み立て方までをカバーします。この回路構成が正しく組み立てられないと、蛍光灯が点かなかったり、電球交換時に交換者の感電の危険性を伴うといった不整合が生まれるため、その理解が重要な役割を果たします。

    それをこのコラムの本来のテーマである「データ管理」に置き換えると、「単線図」が「論理(データ)モデル」であり「利用データの全体観と繋がりをを表すもの」、そして「複線図」が様々な物理制約(例えば、利用データベースや使用データ量など)を加味した実装の青写真として当て嵌めることができます。物理制約は、利用するシステム環境や使用データ(量・質)によって大きく異なる複雑性を持つため、正しい物理図の作成と維持管理がシステムの作成や日々の利用、環境の移行性・安全性といった内容に大きな影響を与えます。従って、正しい論理図とそれを元にして、更に複雑な実装関係を表す「物理図」の取り扱い、実稼働システムとの整合性管理というのがより一層の重要な役割を持ちます。

    電気回路の組み立て以上に、目に見え難く数段の正確性・日常的運用性を求められるシステムの中核となる物理モデル図の作成・維持管理のためには、可能な限りの誤りが入り込まないための工夫が求められます。そのための材料提供が「データマネジメント」の考え方であり、これを支援するための様々なツールの果たす役割であるということができます。これをしっかりと行うことがシステムに携わる技術者の立場であり、これを実行するための資源(人・資金・モノ・時間)の確保を保証するのが経営者の立場です。投入可能な資源量には制約があるのは事実ですが、こういった位置付けを踏まえたシステム経営を、大きな問題発生を防ぐ手段として望みたいものです。

    データマネジメントを着実に実行する上で、一つ大きな制約となり得るのが「基盤技術の変化」です。技術の変化は増々加速している状況ですが、どういった技術をタイムリーに利用し、変化に対応できるかという点をカバーするのが「ライフサイクル管理」という考え方です。これは日々のシステム利用・運用という視点と異なるスキル・情報が求められるため、これに対処する人材が求められるでしょう。これまではいわゆるCIOにその視点が要求されていたということでしょうが、昨今の変化の激しさの中で、更にタイムリー性を組織的に組み込むには専門的な知識と見方が必要という点から、別の役割(例えばチェンジマネジャーのようなもの)が必要と考えられます。ここには、既存の環境の断捨離視点も入ることでしょう。
  • (先頭に戻る)
  • その134:  時には「物理的視点から初めてみようではないか」という話(その1)

    近頃はメタバースといったゲーミング的世界の話題が増大して、現実世界の視点を徐々に忘れようという方向に動かされつつある印象を筆者は抱きます。常日頃多勢の見方だけから見ることに違和感をもつ天邪鬼な筆者は、時には物理的な世界を見直す視点から話題を進めても良いのではないだろうかと考え、今回はそういった話題です。

    実は、筆者は余り自分の周りの電気設備がどのように構築されているのか常日頃意識せずに過ごしていました。しかし地方への移住を画策するに従い、生活に必須となっている身の回りの電気的な世界がどうなっているかに興味を持ち始めました。すると、案外都会地の大通りでは電柱が消え始め(地下埋設化)脇道に入るとまだ電柱設備が存在し、一方地方では電柱がまだまだ活躍の場を広げていることに改めて気付いたわけです。この電柱を経由して流れる電気はいったいどのように管理され、日々の生活を支えているのだろうか? そして何か非日常的な事柄発生時には、自分がどのように対応ができるのだろうかという疑問が突然湧き出しました。

    そういった中で目に飛び込んで来たのが「電気工事士」資格制度の話題です。職業的に電気工事に付きたいことではないのですが、受験テキストを眺めると、身の回りの電気設備がどのような約束毎で構築維持されているかの基本ルールの塊であることが分かりました。そこで早速テキストを買い入れ、俄の電気的物理世界の独学に飛び込んだ。普段使いをしている割には、自分が電気のことを殆ど分かっていないことに気付き、高校時代に囓った物理を思い出して、電気学と磁気学の初歩学習から始まり、この物理世界の不思議さに改めて気付きました(とはいっても常識的な概念知識を仕入れましたが、ニコラ・テスラに近づく原理世界の理解には程遠い(笑))。

    「日常的電気世界」は回路作りを通して電気の流通を構築することで利用できるようになっている。この回路の構成は、電気機器(ネットワークを構成する電線、コード群を含む)からできており、論理的なトポロジーで一旦記述されていることが分かりました。しかしその論理的構成図を理解しただけでは、日常的電気生活を支える物理環境は構築できません。それを可能とするには、電線の回路作りを具体化する物理線図を描く必要があります。これを「複線図」と呼び図式化します。この論理的つながりの「トポロジー(単線図)」と物理的回路構成を表現する複線図との関係(変換)を理解しなければ、電気の実用化ができないわけです。更にその物理的回路を支える具体的構成物(電線種類、電線工事に使う管(鋼、ビニル)等)、そして温度条件や電気量に応じた回路パスの制約といった内容の組立て構成理解が必須事項になります。更には後ろにそれらの電気的回路構成作りを行うための様々な道具類が控えています。

  • 一つの感想としては、これらは筆者がこの欄で色々触れてきた「データモデル」概念に近いなということでした。これらの内容については次回に説明したいと思います。因みにこの取り掛かりである「第2種電気工事士」の筆記試験は今年度からCBT形式で受験できるようになりました。知識ゼロからの2ヶ月間集中学習により、5月の受験結果は無事合格となりました。資格化のためには、次に本当にガチガチの物理につながる「実技試験」を受ける必要があり、筆者も工事用具を買い込み鋭意練習を始めたところです(笑)。[次回に続く]
  • (先頭に戻る)
  • その133: 「個体的視点から捉える性質」と「集合的感性で表現される社会」モデル考

    前回は「木も見て森も見る」という、社会モデルをミクロとマクロの両面同時的見方を取入れる方法を改めて考えました。今回は人間社会を「個を捉えること」および「集団的特徴から代表的性質で表すこと」という二つの面から社会モデルの理解を進めてみます。これは電磁波の代表とされる光の性質の物理学的議論から、一応の代表的結論仮説が導かれている筋道が、筆者には「人間社会のモデル」に大変良く似ていると感じられたところから、推し進めようとしています。

    物理学の世界では長い間、光の表す2面的性質「粒子性と波動性」をどう説明できるかが問題となり、多くの世界的物理学者の議論の的になってきました。そして一応の結論として出されたのが「光というのは、粒子でもなく波でもないもの、つまりその両面性を同時に兼ね備えたものだ」ということでした。つまり、結果として出てきた論点は、細かな1要素として観察した場合には「個粒子」であり、それが光束という集団として性質を捉えれば「波」の性質として出現・観察されるということだと筆者は理解しています。どうしてそのような性質を示すのかという仮説的議論については物理の専門家に任せるものとして、筆者が興味を抱いた着眼点は、この結果として表われている二面性の方で、今回の論点です。

    この二面性は人間社会に似ていると筆者には感じられます。一人一人の「個」人として観察される場合の振る舞いはそれこそ千差万別(億者億別?)ですが、集団あるいはクラスタとして群を把握しその群の特徴を統計的に把握しようとする科学的アプローチが、光という自然現象を捉える仕方そのものだと見える訳です。違いは個別的光子を一つ一つ外側から識別はできないが、人間社会においては名前等の属性を付与することで個の振る舞いを「判別可能」だと考えられている点です。例えば、集団としての特徴から各グループへのアプローチを提案するマーケティング手法などは、かなり乱暴に言えば統計力学、量子学的な見方にそっくりだと筆者は感じます。様々な人間社会の集団特性を統計的、データマイニング的に捉え、具体的な個人へのアプローチを図る材料とするために個人データやそれに類する属性情報をビジネス的に生み出そうとしているのが、ここ何年ものビッグデータやデータマイニングの発想だと考えることができます。

    人間の関係性を「ベクトル多次元空間」を利用して整理するモデル化の有効度、は上記の類似性から得られるものだと筆者には捉えられます。AI技術が有効なのもこの方面から見てゆくと分かり易い気がしています。それはある意味、本当の「個」そのものの理解は飛ばして群として扱う「科学的」アプローチだと言えるかもしれません。集団の関係性の強さは、個々の人間が持つ表層意識の興味の強さと方向から生まれると表せます。個あるいは集団的反発の大きさは、その個または集団の表す興味度と方向性の違いから来ていると理解する仕方です。このモデル表現を意識することで、更なる人間社会アプローチが明確になるのではないかと筆者は捉えています。

    一方で「個」を生かす考え方は、上記の集団的(統計的?)アプローチとは別な基礎が必要になると捉えられます。これが今後の「個」を知るための視点であり、筆者のこれからの考察課題の方向性だと見ておくことにします。
  • (先頭に戻る)
    • その132: データ管理/活用に当たって「木を見て森も見る」ための工夫

      DXやAI活用という題材をうまく生かすためには、その基本であるデータの姿と動き方をシッカリと把握することが大切なことはいまさら強調する必要が無いといえるほど、その重要性が広く認識されてきています。しかしそれを問題が起きないように管理しきることができるというのは中々難しい課題となっていることは事実です。この理由としては、多様な立場の関係者が各々の業務上の立場から、多くのタイミングで共通の情報にアクセスし、しかもその間の矛盾性を避けることが必須であるからです。その矛盾のなさを支えるものがデータに関する、利用文脈に沿った「姿」と「動き方」を正しく認識し、管理できる形を維持するということです。

      ここで電子的な仮想環境で表現するデータに対する期待は、それを造り維持する立場と利用する立場で大きく異なり、更にそれを取扱う見方(細かさ/粒度)に多様性がある点にあります。これを成功裏に管理するために「木を見て森も見る」という考え方の重要性がある訳です。それをしっかりと行うための視点に「姿」把握のためのデータ地図と「動き方」管理のための(出発点から到着点に至る)データフロー管理という2大ポイントです。これに加えて、関係者が誰でも信頼してデータを利用できるようにするための仕掛けとしてデータガバナンス管理と品質の維持(メンテナンスを含む)が組織的な工夫として必要とされるという関係です。

      ここで「木を見て森も見る」ためにはどうするかという点を簡単に議論します。木を見るというのは、個々の最小粒度に近いレベルでデータを扱いたいという要求に応えるものです。また森も見るというのは、ビジネスの背景(文脈)を踏まえた作成と利用を可能にするために全体像を捉える視点から来るものです。敢えて「森も」と記述した理由は、「森」という全体像の見方だけでなく、その全体像が詳細粒度までどのような関係性を一緒に把握しておく必要性があるという意味です。その管理の難しさを効率的に支えるためにツールをうまく活用するということが合わせて望まれます。この「木も森も見る」ための地図(データモデル)作りの仕掛けがデータモデル作成の階層化(概念、論理、物理、利用ビュー)と、性質から捉えるデータ区分(マスタデータ、エベントデータ等の分類)を矛盾無しに管理してゆく考え方です。

      そして、それが理屈だけに留まらず組織的に有効に働かせるための「データガバナンス」、更にこの全体の流れが有効に働いていることと不良が発見された場合の対応管理としての「データ品質管理」という要素を組合わせるという関係になります。利用ビューの管理については、様々な立場から見るデータ利用の形という視点が係わってくるため、データ作成と保有の状態だけでなく、切り口の共通性を整理し共有化するという要素が加わります。これがマスタデータを更に一段拡張化した「参照データ」管理という見方になります。

      これらの各要素について細かく具体的に記述するまでの紙面はここにはありませんが、上記の考え方を踏まえて、これまで筆者が紹介してきたDMBoK(データマネジメント知識体系(第二版) (※) )のような資料を入口として見直すことが推奨されます。また関連する材料として、筆者の過去の記事も見て頂くことができます。
    • 注※1 データマネジメント知識体系ガイド(第二版) DAMA日本支部他、監訳 2018年、日経BP発行
    • (先頭に戻る)
    その131: 近年の、データ/情報解釈の基本的道筋を考える

    昨年後半から、画像データを元にした処理・解釈(所謂コンピュータビジョン分野)の実験を試していましたが、その過程でイメージされてきたデータ/情報の技術・応用について簡単に記述したいと想います。あくまで筆者の現時点の理解に基づく内容です。補足して頂ける内容があれば、筆者宛「お問い合せ」欄経由からでも、遠慮無くご連絡下さい( お問合わせページ )。

    取り扱われるデータには、画像・言語(文字・音声)、音響など様々な形式がありますが、現在研究・利用されているデータサイエンス手法(多変量解析や深層学習(ディープラーニングなど))で着目されているアイデアは、データ/情報距離とそれを処理するアルゴリズムやニューロネットワーク構築といったものだと考えられます。 そこでは 数学的・計算的な処理内容を基本技術として、データ/情報を数値化表現してネットワーク・パラメータ変換手法により、適用する変数の選択・変換・決定とフィードバックを行うといったものです。ここでは数値化変換されたデータ/情報をベクトル/テンソル技法を適用して超多次元空間での位置として表します。そしてその空間においての、データ/情報距離の近接性を利用して、当該データ/情報の分類やクラス化を行うといった内容です。そしてそこで分類された出力を、計算機を通じて人間(または処理装置)の応用しやすい結果として出力するという手順。このような内容を通じてAI(深層学習の応用)と呼んでいる場合が多いようです。

    ここでまず課題となるのは、元になるデータ/情報の数値表現化手法ですが、画像データの場合、画像内ピクセルの色情報を利用することが基本です。そしてそれを様々な深層ネットワークを介して、大量のデータから変数選択、パラメータ構築、その結果の出力再表現化を行います。そして結果として得られた深層学習網(パラメータを含む)へ、新規画像の分類・解釈を行うという形です。ここでのポイントは超大規模のデータを入力したネットワークモデル構築、元のデータ/情報解釈方法、そして出力分類といったようなものです。言ってみれば、人間による「データ分析」というよりも、計算機と深層ネットワークの力を使った「工学的応用」という方が近いと筆者には思えます。ここでも無記 (注1) 的解釈をすれば、何にでも使えてしまいそうな技術乱用のリスクを孕んでいそうです。そのためには技術と哲学の密接な関係性を背景に備える必要がありそうです。

    元のデータ/情報が言語系(文字/音声)の場合では、基本要素(形態素/音素と語の連係性/分布)といった内容を入力にして、統計的手法や類似性解釈を通じて出力を利用するという形です。ここでも深層学習領域技術が適用される例が少なくないようです。音の場合には周波数、分布やサイクル、音の大小組合わせといったものが入力データ表現として利用するのが基本。出力の応用面は、やはりニーズに基づいた設計が肝となります。

    いずれも最近の技術では、(超)大容量のデータとそれを処理化する高速化技術(画像ではGPUなどの専用機器)をふんだんに消費することが求められているといえます。先に書いたように、どのようにモデル化表現をするかという点が応用面を拡大するために重要視されるため、基本技術としてのハード/ソフトウェアだけでなく、情報学的側面が今後重要になるものと考えられます。そういう意味では、従来のライブラリアン/司書的な内容からアプローチされてきた図書館情報学も、近年このデータサイエンス領域に近づいてきた面があるようです。先の無記の発想からは、哲学面からの視点も見逃すことができないでしょう。

  • 注※1 この「無記」という考え方については、本メッセージ集の「その128」(2022年)で触れているので、そちらも参照。
  • (先頭に戻る)
  • その130: データ利用の信頼性を高める活用を再確認する

    本年最初のメッセージのテーマとして「データ利用の信頼性を高める」ための話題を改めて取上げることにしました。様々なプレゼンテーション画面を支援するツールの出現には目を見張るものがありますが、背景に「利用するデータそのものの信頼性」を高める発想がなければ、どんなに綺麗に表現された画面でもその本当の価値はゼロに等しい、と考えられるためです。もしかしたら、最近の事例を見るとゼロどころか社会にとってマイナスにもなるとも言えます。

    基本に戻って、データを利用するための要素として次のようなものがあります。 (1)素材としてのデータ。これにはいわゆる大元となる1次データ、そしてそれをベースに加工・編集された2次、3次データ・・・があります。そしてその1次データがどのような範囲をカバーしているかといった、(2)データのスコープ、があります。そしてそのデータによってどんな要素世界を表したいかという、(3)データによる表現世界である「モデル」が3番目の要素として存在します。これはデータ分析を通じた仮説の説明に当たるでしょう。ここには仮説の表す抽象化能力(ケイパビリティ)が大切な補助要素です。そしてその仮説モデルをどこまで分かりやすく表現できるかといった、(5)表現技術とそれを支える表現ツールが利用されます。特にここ数年の様々な表現ツールの出現には目を見張るものがあります(その背景には、計算機能力(CPU/GPU、メモリ、記憶媒体等)の劇的な変化があります。(6)データ表現と分析技術の多様化といったものも見逃すことができません。AI利用というのもこの話題に入るでしょう。

    データの意味のある分析のためには、(7)背景知識が必要です。この背景を正しく捉え、把握しているているという前提無しには、出力内容は「絵に描いた餅」に成りかねないということになります。この意味で、昨今の情報活用を目指す人材教育には欠かせない視点と考えます。いわば利用する技術は単に道具であり、「無記性 (※1) 」を備えるものと考えられるため重要度が高い要素です 。また、要素(1)に関連しますが、(8)データの示す時間的・空間的「粒度/細かさ」も考慮要素に含まれます。そして忘れてはならない要素として、(9)データの適用限界を認識している点が最も大切になると筆者は考えています。これは単にスコープや背景という点だけではなく、元のデータがどこまで仮説を支えることができるかを、曇りの無い目で見て判断するかということに係わるからです。

    データから表される仮説や表現というのは、往々にして「結論ありき」という目線で作られてしまう可能性があります。分析や仮説作成者にとって取扱いやすい、或いは仮説(結論)を指示する部分に拘ってしまう可能性(落し穴)があることを忘れてはならないということです。作成者の意図を指示するデータだけを扱ってしまうという大きな罠が、綺麗に表現されたグラフや図に潜んでいるかもしれません。標準的なインターネット検索ツールで見ることができるデータ世界は、全体の5%程度に過ぎないというネット専門家の記事もあります。そして近頃次第に気付く人々が増えてきているといわれますが、大手IT企業のブラウザとその背後では「見せたくないデータや記事が意図的に削除され、アクセスできないように統制されているということも話題になってきています。これはネットのデータ世界の話だけでなく、世界的に大手マスコミの流すニュース類は、かなり偏った内容傾向があるという点を否定できない、という意見も少なくありません。特に、ここ数年の社会の混乱を引き起こしているはやり病に係わる話題に絡んで顕著にその傾向が現れているように思われます。

    いずれにしても、今回取上げたような「データ利用の信頼性を高める」要素に留意して、提供されたデータおよび、そこから出されている仮説/表現を解釈・利用するだけの知恵を持つ必要性が高まってきていると考えます。このところの数年間は世間全般が、曖昧なデータに振り回されていると感じる昨今の傾向からの、年頭からの筆者の思いです。

  • 注※1 この「無記」という考え方については、本メッセージ集の「その128」(2022年)で触れているので、そちらも参照。
  • (先頭に戻る)