アーカイブ

  • その151 : グラフ・データベース利用を考察する(5)

    前回本欄で紹介した、1月22日のDama-Japanでの第15分科会での勉強会説明資料を、早速「游悠レポート2025-01として掲載しました。気になる方はこのページからリンクしている游悠レポートサイトも訪れて下さい。資料題目は「Wine Ontology活用の探求(5)」となっています。これまで先の分科会では5回に渡って、ワイン評価を含むオントロジーの作成、評価データのモデル表現、グラフデータベースへのデータ取込とデータ検索実践という内容を実施し、参加者とのディスカッションを交わしました。ここではその議論を通じて、筆者が改めて認識・整理した内容の幾つかを概略説明します。

    まず、オントロジーのような概念を整理するモデルを作ることの必要性についてです。グラフまたはネットワークデータが着目されているのは、インターネット社会が広まるにつれて、LOD(リンクト・オープンデータ)のような企業や公共機関の持つデータが開示され、それを視覚的に表現・管理し易い方法の一つとして現れた工夫/技術と関係があります。データ利用を人間が話す言葉の延長として表現し、かつコンピュータ社会での通信上、および機械システムとのやり取り性向上の分野として着目し、発展した流れがあるということです。ここではモノやヒトといった個物(専門的には「インスタンス」と呼ぶ)存在物の集合を表現し、またそれらの動きや関係性を記述したいという動機があります。そしてこれをすることがビジネス上メリットを生むことも認識されてきたという背景です。この中で、歴史的には哲学分野で考察されてきたオントロジー分野が情報学と結びついたと考えると、分かり易いかと思います。

    インターネット世界が本格的に認識される以前から、コンピュータを利用する分野では、その中で扱うデータの有用性が認識され、それを管理するデータベース技術が発展していました。その過程でデータモデリングという表現技術も進んでいました。ここでは余りオントロジーという言葉とは直接結び着けて広く理解説明されてはいませんでしたが、ここでのデータモデリングの考え方と、オントロジーという概念整理手段が似ていると認識され出しているというのが現在の状況であると見えます。但し、グラフデータを扱う分野は「個物とそれらの関係」を集合的に集め、表現するという方向から入ってきていました。一方でデータベース設計という考え方を先行して開発し育ててきたデータモデリング分野では、エンティティ(存在物)とそれらの関係(リレーション)で表現するという、取扱いの発生視点レベルの違いがあったという点に注意しておきたいと筆者は考えます。

    つまり、グラフデータでのオントロジーとインスタンス表現を統合したモデル表現技術の発展が、まだ(リレーショナル)データベースで必要と考えられているデータモデリング技術と連携不足なままでいるという状態が生まれている要因だということです。但し、一部ではオントロジー表現をUMLのモデル図で表現すると説明している研究者もあります。筆者は、百パーセント互換ではありませんが、ER図ツールを用いてオントロジーを表現するという試みを続けています。その意味で、グラフデータベース(インスタンス・データモデル)とリレーショナルモデル(エンティティ・データモデル)との技術的関係性でのモデル化統合が可能ということです。筆者は、グラフデータでの「プロパティ」による関係表現と、リレーショナルモデルでのリレーションシップ表現とは少々違いが生まれそうだという点には注意しておきたいと考えており、それが先に「百パーセント互換でない」と記述した理由です。

    また二つ目の話題としては、リレーショナル・データベースのようなデータ管理技術があるのに、何故あえてグラフ・データベース技術に着目する必要性があるのかという議論についてです。現時点の筆者の考えでは、これは先に述べたグラフデータ表現はインスタンス・データモデル表現指向で、一方のリレーショナルモデルはエンティティ・データモデル表現指向だという視点と関係します。簡単に言えば、技術の実現と利用についての「目の付け方と利用方法」違いが生まれるということです。それぞれの特徴を生かして利用するという混合活用という意味ですが、これについては紙面の都合上、次回以降に議論を回したいと考えます。
  • (備考)  グラフ技術に関連する話題は、これまでの游悠レポート資料の中で扱っているため、興味ある方は参照下さい。
  • (先頭に戻る)
  • その150 : グラフ・データベース利用を考察する(4)

    2025年最初の明るい話題として、京都橘高校グリーンバンドの1月1日午後カリフォルニア/パサデナでのローズパレード演奏行進の話題が入ってきました。2018年以来の参加ですが、いつ見ても素晴らしい演奏更新風景です。こちらを参照下さい(直角に折れる行進路での隊列変更の様子入り)。

    さて本題です。2回ほど間に異なる話題を挟みましたが、今回は先のグラフ・データベース関連内容を続けます。(社)日本データマネジメント協会(Damaジャパン)第15分科会の月次定例会が1月22日(水)に予定されています。この回では、これまで話題にしていたオントロジーの具体的題材に、ネット経由で入手可能なワイン・オントロジーを利用し、これに別途手に入れることのできるワイン評価データを組み合わせた形でのモデル化を取り上げています。その検討過程をこれまで4回に渡り説明してきましたが、22日はそのまとめとしての最終回となります。興味ある方は是非参加下さいDamaジャパン会員であれば、分科会リーダに事前申込みをすれば誰でも参加できます(詳細はDamaジャパンWebの分科会活動ページを参照)。

    この回では、第一に、構築したオントロジーモデルとそれに基づくグラフ・データベースの実装、第二にOWL/RDF記述形式でのオントロジーに基づくグラフ・データベース実装の幾つかの要点を図解入りで説明します。第三として、構築したグラフ・データベースに対してのSPARQL言語による幾つかの検索と結果の事例を紹介します。更に第四番目に、グラフ表現による視覚化図を加えて説明します。第五番目に、これまでの実装活動を通じて得ることができた知見に基づく構築プロセスの要点と、最後に第六番目として、構築環境説明とオントロジー構築の目的と実施上の注意点について簡単に説明をする予定です。この回の説明資料は、これまでの通り、游悠レポートページ上でダウンロード可能な資料として掲載する予定です。

    デジタル庁のWebページでも、ここ数年で様々な行政組織等で、オープンデータの形でのデータを開示されている状況を検索可能となっています。他にも、検索ページ開設もあります。こういった形でのデータはExcelの表形式やリンクトデータという形で入手できることが多くなっています。但しこれらのデータをグラフ・データベースの中に取り込んで意味のある形で論理的に検索可能な状態にするためには、全体のデータ構造や構成、整合性を持った意味付けの情報を準備することが大切です。そのためには、これまで紹介してきたオントロジーモデルを背景に踏まえたハイレベルのメタデータを準備し、その内容にアクセスすることができる環境を用意しておく必要があります。

  • 昨今LLMやRAGのようなAI技術と組み合わせて半自動的に意味付けを行うことも試みられてきていますが、高い信頼性を持ったハイレベルのメタデータとして利用できると本格的な保証をするには、現時点ではまだ力不足ではないかというのが筆者の意見です。

    ワイン・オントロジーを題材とした試みの分科会での発表はこの回迄として筆者は、次の研究素材を検討中です。その話題が決まりましたら、引き続きこの欄でも紹介予定です。ご期待下さい。

    (備考)  グラフ技術に関連する話題は、これまでの游悠レポート資料の中で扱っているため、興味ある方は参照下さい。
  • (先頭に戻る)