- その154 : 生成AIブームの課題考
ここのところ生成AIに関する記事及び話題が引きも切らず生まれる状況となっています。新しい技術の進展とその利用ケースが増えるにつれ、爆発的に増大するデータ(量だけでなく種類も含む)を取り扱う人側の丁寧な対応・処理実施に間に合わなくなってきていることが、第一のきっかけとなっているでしょう。更に、製品提供側からの誇大ともいえるようなマーケティング、及び経営的・経済的な効率性要求、技術者側の導入アピールといったものもブームに拍車を掛ける動機となっているように筆者には考えられます。また技術の応用・適用範囲の拡大の期待も上げられるでしょう。
AI 技術適用の範囲は、 旧来のような計画・構成化されたデータを越え、画像(動画を含む)、文章データといったものを取り込むに連れ一方で、世の中に出回る「データもどき」の信頼性はますます低下していると筆者には捉えられています。ここには、実用化達成のための効率性(How
Many/How Long)、とにかく技術を導入して経済的利益を生み出したいという欲求(How Much)、技術利用性の容易化(How to)という要素が大きな影を落としているでしょう。それが闇雲に導入され、安易に利用されうるという面(結果の提供側/受け手側)に起き得る結果について、必ずしも目が届いているとは考え難いと言えるのが実情ではないでしょうか。
利用の元になるデータの信頼性に誰が責任を持っているのかという点にも不安が残ります。筆者が経験した技術提供者側の説明を元にすれば、提供内容の権利・責任は技術利用者の責任で行って欲しいと投げています。利用元データ収集については、必ずしも収集者が全責任を負っているという訳ではありません(実際筆者の認知している中で、官公庁において、意図的であるかどうかは不明ですが、正しい情報収集を放棄している例が存在します)。AI出力結果の利用者は、それが正しいものと仮定して使用せざるを得ないというのが実状です。最低限、結果出力のための出所を説明する出典情報を付加することは必須でしょうが、この出典を明確に答えることができるかというと、現状では難しいという返答が想定されます。ただ、これを改善するための試みが進められているのも確かで、LLMやRAG技術と連携しデータの背景にある意味(セマンティクス)をどう取り入れるかという研究・開発もあります。
結局のところ、マーケティングや営業活動から生まれる過度なメッセージに惑わされることなく、情報発信・活用に携わる責任ある利用者として、或いは適切な智慧を巡らす情報賢者としての視点が本来的に求められる時代が迫ってきているということでしょう。以前の回で本欄に記述したように、デジタル・サニハ(審神者)の研究・工夫が必須のものとなっている訳です。AI環境から出力される結果を闇雲に左から右へと手渡すだけでなく、間に入る仕掛け(智慧)を、今後考えてゆきたいというのが筆者の立場です。
- (先頭に戻る)
- その153 : 知識グラフ(Knowledge Graph:KG)利用例について
知識グラフ(KG)として作成され、その活用事例として游悠レポート2025-002で海外での発表資料を元にして構成した内容を先に紹介しました(游悠レポートページ参照)。そこではイタリアの大学機関によるKG構築と、そのデータを用いた分析・活用例を説明しました。本資料を用いて、財)日本データマネジメント協会の第15分科会で概要説明を行いました。
この資料を筆者が準備しようとした背景には、知識グラフ及びそのデータベースという言葉を良く目にする機会が増えたものの、その実際について、案外国内で理解している方は多くないのではないかと感じたことに始まります。つまり、グラフデータベース(GDB)を利用した環境を作成することがKGの完成ではなく、その構築と活用における必要要素を紹介する必要があると考えた点です。GDB構築の第一歩は、インスタンス群を事実(ファクト)として取込み表現することから始まりますが、そこではどのような概念が表されているかを利用者(あるいは機械)が認識できる必要があります。そのためには、その概念情報をGDB内で表す必要があり、これが今までこの欄で議論してきた「オントロジー(Ontology)」です。それは、簡単に言えば、物事の「概念クラス」を表現することから始まります。
しかし概念クラスを記述しただけでは活用上では不十分であり、それに加えて概念同士の関係性を加える必要があり、それがプロパティまたはリレーションと呼ばれるものです。この関係性は、第一に概念クラス同士での表現と、第二に概念クラスに含まれる個別インスタンス間の関係の両方で記述される必要があります。それで活用に先立ったデータベースとしての前準備が整いますが、KG活用としては、更にネットワークデータの分析手法(サブグラフ作成、グラフデータ指標化、分析アルゴリズム適用)が必要になります。ここまで含めた一連の流れ全体を含めて、やっとKGの分析・活用という方法論の理解につながるというのが重要な点です。
- こういった全体像を理解する上で、先の資料が役立つはずですので、興味ある方は是非当該資料を参照下さい。また、本格的なKG活用のためには、オントロジーまたはデータモデル表現とその記述ツール、GDB環境、グラフ/ネットワークデータ分析技法の知識などが必要になる点にも留意下さい。
- (先頭に戻る)
- その152 : モノの数え方四方山話
以前この覧で「数の概念と四則演算モデル化の一つの物語り」(第139回)として数を使った表現とデータモデル化との関連を記述したことがあります。今回は日本語でモノを数えるというのはどういう思考であるのかについて、近頃の筆者の頭の中を少々書いてみようと考えます。ご笑覧頂きたく。
モノを数え上げる際に、まず「イチ(一)」から初め、次に「ニ(二)」、順々と「キュウ(九)」、そして「ジュウ(十)」と(日本語で普通は)数えています。これは、ある一纏まりと見える対象(例えばリンゴ)を概念的に捉え、概念的に数字と対応付けを行って量化したものと考えられます。この数え方を十進法と呼び表し、次の数として「ジュウイチ(十一)」として取り上げ、「十の一纏まりに一が増えた」こととして数えるのです。面白いことにここではゼロ(零)から数えることが始まるのではなく一が開始となります。つまり自然数の始まりということです。因みに自然数の中にゼロを含めるかどうかは議論の立場に依存し、初等数学ではゼロという数字を外しているとのことです(参考1)。
また、歴史学等では、紀元0年は外して扱われるが、天文学者等は、計算上での不都合を避けるために暦に紀元0年を含めて考えているという話題もあります。何れにしても、数えの原点であるゼロを含める必要があるかどうかが議論の元にあるらしい。四則演算では引き算の必要性ができた時に、負の数と正の数との間に「何もない/数の原点」としてのゼロを考える必要性が出たということでしょう。
漢数字で百一と書きますが、ここでは十の桁が省略され、アラビア数字の記述法では101として空の桁が表現される方法を用いています。
また日本語での別な数え上げ法として「ひ・とつ」、「ふ・たつ」、「み・っつ」、「・・・」、「ここ・のつ」、「と・お」というものもあります。筆者の持つイメージでは、この数え上げは流れを意識したものと捉えていますが、例えば人の生まれの順序を表現する際には「イチロウ」、「ジロウ」、「サブロウ」、「シロウ」、「・・・」といった表現も存在します。数え上げの対象が異なるモノが混在している場合には、例えばリンゴを
1個、バナナを1本として単位を付加して数え分け、それらのグループを考える場合には、籠という枠を用いて一籠(の中にあるモノ)として数える工夫が行われます。高度に抽象化された「2」という数字で表すモノは、例えば1足す1の結果としても、「リンゴ2(個)」と「リンゴ1個にバナナ1本をセットにした1籠内の2」とは物理的に違いが生じているという有様です。
こうして、子供たちでも日常的に行っている単純な「数え上げ動作と言語化」でさえ概念表現と意味合いの多様性が存在していることが理解されます。つまり、前回までの稿でオントロジーやデータモデル表現を議論した中でも共通した話題として、対象とするモデル表現を正しくしておくことの重要性認識が再燃化できるといえるのではないでしょうか。ましてや多くの文化が交差しえる多言語世界においては、その重要性が一層高まるものといえるでしょう。こういった基底にある認識の多様性を前提にすることは非常に大切であり、AIチックな出力を無批判に受けいれてしまう文化は是非とも避けたいというコメントを付記して、今回の四方山話を終了することにします。
- (参考) 1.日本語Wikiペディア 「数としての0」 (2025年2月25日時点)。
- (先頭に戻る)
- その151 : グラフ・データベース利用を考察する(5)
前回本欄で紹介した、1月22日のDama-Japanでの第15分科会での勉強会説明資料を、早速「游悠レポート2025-01として掲載しました。気になる方はこのページからリンクしている游悠レポートサイトも訪れて下さい。資料題目は「Wine
Ontology活用の探求(5)」となっています。これまで先の分科会では5回に渡って、ワイン評価を含むオントロジーの作成、評価データのモデル表現、グラフデータベースへのデータ取込とデータ検索実践という内容を実施し、参加者とのディスカッションを交わしました。ここではその議論を通じて、筆者が改めて認識・整理した内容の幾つかを概略説明します。
まず、オントロジーのような概念を整理するモデルを作ることの必要性についてです。グラフまたはネットワークデータが着目されているのは、インターネット社会が広まるにつれて、LOD(リンクト・オープンデータ)のような企業や公共機関の持つデータが開示され、それを視覚的に表現・管理し易い方法の一つとして現れた工夫/技術と関係があります。データ利用を人間が話す言葉の延長として表現し、かつコンピュータ社会での通信上、および機械システムとのやり取り性向上の分野として着目し、発展した流れがあるということです。ここではモノやヒトといった個物(専門的には「インスタンス」と呼ぶ)存在物の集合を表現し、またそれらの動きや関係性を記述したいという動機があります。そしてこれをすることがビジネス上メリットを生むことも認識されてきたという背景です。この中で、歴史的には哲学分野で考察されてきたオントロジー分野が情報学と結びついたと考えると、分かり易いかと思います。
インターネット世界が本格的に認識される以前から、コンピュータを利用する分野では、その中で扱うデータの有用性が認識され、それを管理するデータベース技術が発展していました。その過程でデータモデリングという表現技術も進んでいました。ここでは余りオントロジーという言葉とは直接結び着けて広く理解説明されてはいませんでしたが、ここでのデータモデリングの考え方と、オントロジーという概念整理手段が似ていると認識され出しているというのが現在の状況であると見えます。但し、グラフデータを扱う分野は「個物とそれらの関係」を集合的に集め、表現するという方向から入ってきていました。一方でデータベース設計という考え方を先行して開発し育ててきたデータモデリング分野では、エンティティ(存在物)とそれらの関係(リレーション)で表現するという、取扱いの発生視点レベルの違いがあったという点に注意しておきたいと筆者は考えます。
つまり、グラフデータでのオントロジーとインスタンス表現を統合したモデル表現技術の発展が、まだ(リレーショナル)データベースで必要と考えられているデータモデリング技術と連携不足なままでいるという状態が生まれている要因だということです。但し、一部ではオントロジー表現をUMLのモデル図で表現すると説明している研究者もあります。筆者は、百パーセント互換ではありませんが、ER図ツールを用いてオントロジーを表現するという試みを続けています。その意味で、グラフデータベース(インスタンス・データモデル)とリレーショナルモデル(エンティティ・データモデル)との技術的関係性でのモデル化統合が可能ということです。筆者は、グラフデータでの「プロパティ」による関係表現と、リレーショナルモデルでのリレーションシップ表現とは少々違いが生まれそうだという点には注意しておきたいと考えており、それが先に「百パーセント互換でない」と記述した理由です。
また二つ目の話題としては、リレーショナル・データベースのようなデータ管理技術があるのに、何故あえてグラフ・データベース技術に着目する必要性があるのかという議論についてです。現時点の筆者の考えでは、これは先に述べたグラフデータ表現はインスタンス・データモデル表現指向で、一方のリレーショナルモデルはエンティティ・データモデル表現指向だという視点と関係します。簡単に言えば、技術の実現と利用についての「目の付け方と利用方法」違いが生まれるということです。それぞれの特徴を生かして利用するという混合活用という意味ですが、これについては紙面の都合上、次回以降に議論を回したいと考えます。
- (備考) グラフ技術に関連する話題は、これまでの游悠レポート資料の中で扱っているため、興味ある方は参照下さい。
- (先頭に戻る)
- その150 : グラフ・データベース利用を考察する(4)
2025年最初の明るい話題として、京都橘高校グリーンバンドの1月1日午後カリフォルニア/パサデナでのローズパレード演奏行進の話題が入ってきました。2018年以来の参加ですが、いつ見ても素晴らしい演奏更新風景です。こちらを参照下さい(直角に折れる行進路での隊列変更の様子入り)。
さて本題です。2回ほど間に異なる話題を挟みましたが、今回は先のグラフ・データベース関連内容を続けます。(社)日本データマネジメント協会(Damaジャパン)第15分科会の月次定例会が1月22日(水)に予定されています。この回では、これまで話題にしていたオントロジーの具体的題材に、ネット経由で入手可能なワイン・オントロジーを利用し、これに別途手に入れることのできるワイン評価データを組み合わせた形でのモデル化を取り上げています。その検討過程をこれまで4回に渡り説明してきましたが、22日はそのまとめとしての最終回となります。興味ある方は是非参加下さいDamaジャパン会員であれば、分科会リーダに事前申込みをすれば誰でも参加できます(詳細はDamaジャパンWebの分科会活動ページを参照)。
この回では、第一に、構築したオントロジーモデルとそれに基づくグラフ・データベースの実装、第二にOWL/RDF記述形式でのオントロジーに基づくグラフ・データベース実装の幾つかの要点を図解入りで説明します。第三として、構築したグラフ・データベースに対してのSPARQL言語による幾つかの検索と結果の事例を紹介します。更に第四番目に、グラフ表現による視覚化図を加えて説明します。第五番目に、これまでの実装活動を通じて得ることができた知見に基づく構築プロセスの要点と、最後に第六番目として、構築環境説明とオントロジー構築の目的と実施上の注意点について簡単に説明をする予定です。この回の説明資料は、これまでの通り、游悠レポートページ上でダウンロード可能な資料として掲載する予定です。
デジタル庁のWebページでも、ここ数年で様々な行政組織等で、オープンデータの形でのデータを開示されている状況を検索可能となっています。他にも、検索ページ開設もあります。こういった形でのデータはExcelの表形式やリンクトデータという形で入手できることが多くなっています。但しこれらのデータをグラフ・データベースの中に取り込んで意味のある形で論理的に検索可能な状態にするためには、全体のデータ構造や構成、整合性を持った意味付けの情報を準備することが大切です。そのためには、これまで紹介してきたオントロジーモデルを背景に踏まえたハイレベルのメタデータを準備し、その内容にアクセスすることができる環境を用意しておく必要があります。
- 昨今LLMやRAGのようなAI技術と組み合わせて半自動的に意味付けを行うことも試みられてきていますが、高い信頼性を持ったハイレベルのメタデータとして利用できると本格的な保証をするには、現時点ではまだ力不足ではないかというのが筆者の意見です。
ワイン・オントロジーを題材とした試みの分科会での発表はこの回迄として、筆者は、次の研究素材を検討中です。その話題が決まりましたら、引き続きこの欄でも紹介予定です。ご期待下さい。
(備考) グラフ技術に関連する話題は、これまでの游悠レポート資料の中で扱っているため、興味ある方は参照下さい。
- (先頭に戻る)