- その133: 「個体的視点から捉える性質」と「集合的感性で表現される社会」モデル考
前回は「木も見て森も見る」という、社会モデルをミクロとマクロの両面同時的見方を取入れる方法を改めて考えました。今回は人間社会を「個を捉えること」および「集団的特徴から代表的性質で表すこと」という二つの面から社会モデルの理解を進めてみます。これは電磁波の代表とされる光の性質の物理学的議論から、一応の代表的結論仮説が導かれている筋道が、筆者には「人間社会のモデル」に大変良く似ていると感じられたところから、推し進めようとしています。
物理学の世界では長い間、光の表す2面的性質「粒子性と波動性」をどう説明できるかが問題となり、多くの世界的物理学者の議論の的になってきました。そして一応の結論として出されたのが「光というのは、粒子でもなく波でもないもの、つまりその両面性を同時に兼ね備えたものだ」ということでした。つまり、結果として出てきた論点は、細かな1要素として観察した場合には「個粒子」であり、それが光束という集団として性質を捉えれば「波」の性質として出現・観察されるということだと筆者は理解しています。どうしてそのような性質を示すのかという仮説的議論については物理の専門家に任せるものとして、筆者が興味を抱いた着眼点は、この結果として表われている二面性の方で、今回の論点です。
この二面性は人間社会に似ていると筆者には感じられます。一人一人の「個」人として観察される場合の振る舞いはそれこそ千差万別(億者億別?)ですが、集団あるいはクラスタとして群を把握しその群の特徴を統計的に把握しようとする科学的アプローチが、光という自然現象を捉える仕方そのものだと見える訳です。違いは個別的光子を一つ一つ外側から識別はできないが、人間社会においては名前等の属性を付与することで個の振る舞いを「判別可能」だと考えられている点です。例えば、集団としての特徴から各グループへのアプローチを提案するマーケティング手法などは、かなり乱暴に言えば統計力学、量子学的な見方にそっくりだと筆者は感じます。様々な人間社会の集団特性を統計的、データマイニング的に捉え、具体的な個人へのアプローチを図る材料とするために個人データやそれに類する属性情報をビジネス的に生み出そうとしているのが、ここ何年ものビッグデータやデータマイニングの発想だと考えることができます。
人間の関係性を「ベクトル多次元空間」を利用して整理するモデル化の有効度、は上記の類似性から得られるものだと筆者には捉えられます。AI技術が有効なのもこの方面から見てゆくと分かり易い気がしています。それはある意味、本当の「個」そのものの理解は飛ばして群として扱う「科学的」アプローチだと言えるかもしれません。集団の関係性の強さは、個々の人間が持つ表層意識の興味の強さと方向から生まれると表せます。個あるいは集団的反発の大きさは、その個または集団の表す興味度と方向性の違いから来ていると理解する仕方です。このモデル表現を意識することで、更なる人間社会アプローチが明確になるのではないかと筆者は捉えています。
一方で「個」を生かす考え方は、上記の集団的(統計的?)アプローチとは別な基礎が必要になると捉えられます。これが今後の「個」を知るための視点であり、筆者のこれからの考察課題の方向性だと見ておくことにします。
- (先頭に戻る)
-
- その132: データ管理/活用に当たって「木を見て森も見る」ための工夫
DXやAI活用という題材をうまく生かすためには、その基本であるデータの姿と動き方をシッカリと把握することが大切なことはいまさら強調する必要が無いといえるほど、その重要性が広く認識されてきています。しかしそれを問題が起きないように管理しきることができるというのは中々難しい課題となっていることは事実です。この理由としては、多様な立場の関係者が各々の業務上の立場から、多くのタイミングで共通の情報にアクセスし、しかもその間の矛盾性を避けることが必須であるからです。その矛盾のなさを支えるものがデータに関する、利用文脈に沿った「姿」と「動き方」を正しく認識し、管理できる形を維持するということです。
ここで電子的な仮想環境で表現するデータに対する期待は、それを造り維持する立場と利用する立場で大きく異なり、更にそれを取扱う見方(細かさ/粒度)に多様性がある点にあります。これを成功裏に管理するために「木を見て森も見る」という考え方の重要性がある訳です。それをしっかりと行うための視点に「姿」把握のためのデータ地図と「動き方」管理のための(出発点から到着点に至る)データフロー管理という2大ポイントです。これに加えて、関係者が誰でも信頼してデータを利用できるようにするための仕掛けとしてデータガバナンス管理と品質の維持(メンテナンスを含む)が組織的な工夫として必要とされるという関係です。
ここで「木を見て森も見る」ためにはどうするかという点を簡単に議論します。木を見るというのは、個々の最小粒度に近いレベルでデータを扱いたいという要求に応えるものです。また森も見るというのは、ビジネスの背景(文脈)を踏まえた作成と利用を可能にするために全体像を捉える視点から来るものです。敢えて「森も」と記述した理由は、「森」という全体像の見方だけでなく、その全体像が詳細粒度までどのような関係性を一緒に把握しておく必要性があるという意味です。その管理の難しさを効率的に支えるためにツールをうまく活用するということが合わせて望まれます。この「木も森も見る」ための地図(データモデル)作りの仕掛けがデータモデル作成の階層化(概念、論理、物理、利用ビュー)と、性質から捉えるデータ区分(マスタデータ、エベントデータ等の分類)を矛盾無しに管理してゆく考え方です。
そして、それが理屈だけに留まらず組織的に有効に働かせるための「データガバナンス」、更にこの全体の流れが有効に働いていることと不良が発見された場合の対応管理としての「データ品質管理」という要素を組合わせるという関係になります。利用ビューの管理については、様々な立場から見るデータ利用の形という視点が係わってくるため、データ作成と保有の状態だけでなく、切り口の共通性を整理し共有化するという要素が加わります。これがマスタデータを更に一段拡張化した「参照データ」管理という見方になります。
これらの各要素について細かく具体的に記述するまでの紙面はここにはありませんが、上記の考え方を踏まえて、これまで筆者が紹介してきたDMBoK(データマネジメント知識体系(第二版)
(※) )のような資料を入口として見直すことが推奨されます。また関連する材料として、筆者の過去の記事も見て頂くことができます。
- 注※1 データマネジメント知識体系ガイド(第二版) DAMA日本支部他、監訳 2018年、日経BP発行
- (先頭に戻る)
その131: 近年の、データ/情報解釈の基本的道筋を考える
昨年後半から、画像データを元にした処理・解釈(所謂コンピュータビジョン分野)の実験を試していましたが、その過程でイメージされてきたデータ/情報の技術・応用について簡単に記述したいと想います。あくまで筆者の現時点の理解に基づく内容です。補足して頂ける内容があれば、筆者宛「お問い合せ」欄経由からでも、遠慮無くご連絡下さい(
お問合わせページ )。
取り扱われるデータには、画像・言語(文字・音声)、音響など様々な形式がありますが、現在研究・利用されているデータサイエンス手法(多変量解析や深層学習(ディープラーニングなど))で着目されているアイデアは、データ/情報距離とそれを処理するアルゴリズムやニューロネットワーク構築といったものだと考えられます。
そこでは 数学的・計算的な処理内容を基本技術として、データ/情報を数値化表現してネットワーク・パラメータ変換手法により、適用する変数の選択・変換・決定とフィードバックを行うといったものです。ここでは数値化変換されたデータ/情報をベクトル/テンソル技法を適用して超多次元空間での位置として表します。そしてその空間においての、データ/情報距離の近接性を利用して、当該データ/情報の分類やクラス化を行うといった内容です。そしてそこで分類された出力を、計算機を通じて人間(または処理装置)の応用しやすい結果として出力するという手順。このような内容を通じてAI(深層学習の応用)と呼んでいる場合が多いようです。
ここでまず課題となるのは、元になるデータ/情報の数値表現化手法ですが、画像データの場合、画像内ピクセルの色情報を利用することが基本です。そしてそれを様々な深層ネットワークを介して、大量のデータから変数選択、パラメータ構築、その結果の出力再表現化を行います。そして結果として得られた深層学習網(パラメータを含む)へ、新規画像の分類・解釈を行うという形です。ここでのポイントは超大規模のデータを入力したネットワークモデル構築、元のデータ/情報解釈方法、そして出力分類といったようなものです。言ってみれば、人間による「データ分析」というよりも、計算機と深層ネットワークの力を使った「工学的応用」という方が近いと筆者には思えます。ここでも無記
(注1) 的解釈をすれば、何にでも使えてしまいそうな技術乱用のリスクを孕んでいそうです。そのためには技術と哲学の密接な関係性を背景に備える必要がありそうです。
元のデータ/情報が言語系(文字/音声)の場合では、基本要素(形態素/音素と語の連係性/分布)といった内容を入力にして、統計的手法や類似性解釈を通じて出力を利用するという形です。ここでも深層学習領域技術が適用される例が少なくないようです。音の場合には周波数、分布やサイクル、音の大小組合わせといったものが入力データ表現として利用するのが基本。出力の応用面は、やはりニーズに基づいた設計が肝となります。
いずれも最近の技術では、(超)大容量のデータとそれを処理化する高速化技術(画像ではGPUなどの専用機器)をふんだんに消費することが求められているといえます。先に書いたように、どのようにモデル化表現をするかという点が応用面を拡大するために重要視されるため、基本技術としてのハード/ソフトウェアだけでなく、情報学的側面が今後重要になるものと考えられます。そういう意味では、従来のライブラリアン/司書的な内容からアプローチされてきた図書館情報学も、近年このデータサイエンス領域に近づいてきた面があるようです。先の無記の発想からは、哲学面からの視点も見逃すことができないでしょう。
- 注※1 この「無記」という考え方については、本メッセージ集の「その128」(2022年)で触れているので、そちらも参照。
- (先頭に戻る)
- その130: データ利用の信頼性を高める活用を再確認する
本年最初のメッセージのテーマとして「データ利用の信頼性を高める」ための話題を改めて取上げることにしました。様々なプレゼンテーション画面を支援するツールの出現には目を見張るものがありますが、背景に「利用するデータそのものの信頼性」を高める発想がなければ、どんなに綺麗に表現された画面でもその本当の価値はゼロに等しい、と考えられるためです。もしかしたら、最近の事例を見るとゼロどころか社会にとってマイナスにもなるとも言えます。
基本に戻って、データを利用するための要素として次のようなものがあります。 (1)素材としてのデータ。これにはいわゆる大元となる1次データ、そしてそれをベースに加工・編集された2次、3次データ・・・があります。そしてその1次データがどのような範囲をカバーしているかといった、(2)データのスコープ、があります。そしてそのデータによってどんな要素世界を表したいかという、(3)データによる表現世界である「モデル」が3番目の要素として存在します。これはデータ分析を通じた仮説の説明に当たるでしょう。ここには仮説の表す抽象化能力(ケイパビリティ)が大切な補助要素です。そしてその仮説モデルをどこまで分かりやすく表現できるかといった、(5)表現技術とそれを支える表現ツールが利用されます。特にここ数年の様々な表現ツールの出現には目を見張るものがあります(その背景には、計算機能力(CPU/GPU、メモリ、記憶媒体等)の劇的な変化があります。(6)データ表現と分析技術の多様化といったものも見逃すことができません。AI利用というのもこの話題に入るでしょう。
データの意味のある分析のためには、(7)背景知識が必要です。この背景を正しく捉え、把握しているているという前提無しには、出力内容は「絵に描いた餅」に成りかねないということになります。この意味で、昨今の情報活用を目指す人材教育には欠かせない視点と考えます。いわば利用する技術は単に道具であり、「無記性
(※1) 」を備えるものと考えられるため重要度が高い要素です 。また、要素(1)に関連しますが、(8)データの示す時間的・空間的「粒度/細かさ」も考慮要素に含まれます。そして忘れてはならない要素として、(9)データの適用限界を認識している点が最も大切になると筆者は考えています。これは単にスコープや背景という点だけではなく、元のデータがどこまで仮説を支えることができるかを、曇りの無い目で見て判断するかということに係わるからです。
データから表される仮説や表現というのは、往々にして「結論ありき」という目線で作られてしまう可能性があります。分析や仮説作成者にとって取扱いやすい、或いは仮説(結論)を指示する部分に拘ってしまう可能性(落し穴)があることを忘れてはならないということです。作成者の意図を指示するデータだけを扱ってしまうという大きな罠が、綺麗に表現されたグラフや図に潜んでいるかもしれません。標準的なインターネット検索ツールで見ることができるデータ世界は、全体の5%程度に過ぎないというネット専門家の記事もあります。そして近頃次第に気付く人々が増えてきているといわれますが、大手IT企業のブラウザとその背後では「見せたくないデータや記事が意図的に削除され、アクセスできないように統制されているということも話題になってきています。これはネットのデータ世界の話だけでなく、世界的に大手マスコミの流すニュース類は、かなり偏った内容傾向があるという点を否定できない、という意見も少なくありません。特に、ここ数年の社会の混乱を引き起こしているはやり病に係わる話題に絡んで顕著にその傾向が現れているように思われます。
いずれにしても、今回取上げたような「データ利用の信頼性を高める」要素に留意して、提供されたデータおよび、そこから出されている仮説/表現を解釈・利用するだけの知恵を持つ必要性が高まってきていると考えます。このところの数年間は世間全般が、曖昧なデータに振り回されていると感じる昨今の傾向からの、年頭からの筆者の思いです。
- 注※1 この「無記」という考え方については、本メッセージ集の「その128」(2022年)で触れているので、そちらも参照。
- (先頭に戻る)