グラフデータベースとは何か

00:01

こんにちは。今日は、久しぶりに部屋の中で録音したいと思います。

つい先日、Londonは、積雪が久しぶりにありましたね。

去年は、こんなに雪が積もったかなっていうぐらいで、外で子供たちが雪だるまを作ったりして遊んでて、

とても綺麗な雪が降ってて、雪国出身の自分としても懐かしい気持ちになりましたね。

じゃあ、今日もやっていきたいと思います。Ken WagatsumaのLondon Tech Talk。

今日は、技術ネタでやっていきたいと思います。

グラフデータベースとは何かについてお話ししていきたいと思います。

そもそも、グラフデータベースとは何かについて、どういったところで使われているかについてお話ししていきたいと思うんですけれども、

なんでグラフデータベースを選んだかというと、

自分が

2021年から2022年、つい先月まで、グラフデータベースを作っている企業で働いていたんですね。

そこで得た知見や経験をもとに、もっとグラフデータベースっていろんな人に知られてもいいかなと思ったので、

Podcastで伝えることにしました。現在はその企業に勤めていないので、

全く利益関係とかはないです。もちろん、話すことで広告料をもらっているとか、そういうのもないので、純粋に技術の話として聞いてもらえればなと思います。

こうした技術の話をするときって、一般的には動画とか、あとはブログ記事を書いたりするってことも多いと思います。

この音声のみで、どこまで技術の話をうまく伝えられるかっていうところに、個人的にチャレンジしていきたいなと思っています。

新しい技術を学んだりするときに、いきなり社教とかするより、自分で大事だなと思っているのは、

いかにコンセプトをメンタルモデルみたいな形に落とし込んでいくか。

伝えるために音声というメディアでどこまでできるかっていうのも

03:02

チャレンジしていきたいと思っていきますではグラフデータベース

とはそもそも何かについてそもそもデータベースとは何かどんなもの

があるかということなんですけどもウェブエンジニアであれば MySQL

とかPosgreSQLとかなどのいわゆる RDBMS リレーショナルデータベース

をよく利用することが多いかもしれませんここにはキーバリュー

ストアですねメモキャストとか Redisのようなものを使ったりする

ことも多いと思いますニュースケースとかによっては MongoDBとかあと

AWSから出しているDynamoDBのようなドキュメント思考データベース

と呼ばれるものであったりカラム思考データベースと呼ばれる

別の種類のデータベースとかいろいろあると思いますデータベース

って言っても別に特別なソフトウェアではなくてただのプロセスですね

一言で言うとデータを保存管理分析するのに優れたソフトウェア

もしくは実行プロセスですデータベースの入力としては基本的にデータベース

がサポートするあらゆる型のデータですよね文字列

であったり数値であったり JSON型とかブログとかをサポートしている

データベースもありますしただ基本的にはそのバイト文字列を

ディスク上に保存しているにすきませんなので基本的にどの

データベースもやることは一緒なんですよデータをバイト文字列

にしてディスクに保存するじゃなんでこんなにたくさんのデータ

があるかデータベースがあるかというところがあるんですけど

これも何かというとじゃあまずこのデータを保存するところ

とかデータを管理するところとかデータを読み出して分析するっていう

ところにいろいろなインターフェースが考えられるからなんですよね

例えば保存しちゃうデータを読み込むときにそのままバイトだけを読み

出してもほぼ分析できないのでクエリ言語というものを作って

今だとSQLがほぼ何を言っても毎回間違いなくしてもうちに

スキルを計算していくために系統を整えた形式というものが

あるんですけれどもこのデータを保存するところやデータを

ほぼメジャーですけれどもSQLというものを使ってデータを読み出して

それをビジュアライズしたりアプリケーションから使って計算したりすると思いますし

そのデータの保存方法もどういうふうに保存するかによって

アプリケーションの適正というのが異なってきます

例えば1行ずつ読み出すようなことが求められる要件のビジネス要件のアプリケーションもありますし

あとは非構造データをまるっとJSONのような形に入れて

まるっとキーで取り出すみたいなハッシュみたいな

06:04

ディスビューティッドハッシュみたいな形で使ったほうがいいこともありますし

あとは

データ分析をするときに大量の同じカラムのデータを

まるっと複数の列から取ってくるほうが優れているような要件もあったりします

なので基本的にどのデータベースでやることと一緒なんですけれども

どう保存するかどう管理するか

それをどう読み出すかというところのインターフェースが

違うことによっていろいろなアプリケーションで使われる

なので例えばMySQLのようなRDBMSがあれば

例えばMySQLのようなRDBMSがあれば

十分かというと全然そうではなくて

複合的なポリグロットなデータベースマネジメントシステムを

基本的には使っていくことになると思います

サービスが成長するにあたって

この部分はバチカフカを使ってみたり

この部分はキーバリューストアを使って

この部分はRDBMSを使ってみたいな形です

今回お話しするグラフデータベースで

メジャーなものとして例えばNeo4jとかあったりするんですけれども

そのグラフデータベースというのも

RDBMSとかキーバリューストアみたいな他のデータベースにとって

変わるものではなくて

それらと同じようにグラフデータを扱うのに適した

ユースケースで使うためのデータベースと

考えてもらえれば問題ないかと思います

基本的にそのデータベースに求められるということは

大量のデータを効率的に検索し作成できる

というところなんですよね

そのデータ構造とアルゴリズムを

ビジネス用に使うことで

条件に合った形で最適化をして

ここら辺の過程というのは本当にデータベースが長年研究されているので

コンピュータサイエンスの中でも

その研究の積み重ねと努力

再緻密なコーディングの積み重ねによって実現されているんですよね

インデックスと呼ばれる副次的なデータ構造を作ったりだとか

ちょっと変わった機構造で表現してみたりだとか

ディスクだけでなくメモリをうまく活用したりだとか

ハードウェアレイヤーで最適化を図ったりだとか

そのビッグデータ時代が到来して

大量のデータを保存するとなると

それだけデータの保存場所が必要となってくるんですけども

保存場所が増えるほどお金もかかってくるので

データをただ保存すればいいだけじゃなくて

いかに少ないサイズで同じことを表現しつつ

コストを最適化できる形で保存していくかということも大事なんですね

コストの最適化やパフォーマンスの最適化だけじゃなくて

データベースを使うのは開発者ですので

開発効率

データベースのも重要となってきます

例えばSQLのような確率化というか

ほとんどのデータベースで使える

クエリ言語があれば学習コストが1回かかれば

ほとんどのデータベースで使えるので

09:01

あとはデバッグツールですとか可視化ツールというのもないと

データベースというのはうまく使っていけないと思います

じゃあグラフデータベースがどういった

グラフにデータに適しているかというところがポイントになってきますね

まず例えばリレーショナルデータベースモデルというのは

これ1970年代でしたかね

もともと理論としてのデータモデルが提唱されて

開発され始めた一番古いデータベースで

リレーションと呼ばれるタプルの集合体

表現されているんですよね

他にノーシークエルというキャッチーなフレーズで

話題になったモンゴDBとかダイナモDBのような

ドキュメント思考データベースというのもあったりしますが

グラフデータベースというのは一言で言うと

グラフ理論で表現できる問題を解くのに最適化されたデータベースです

このグラフ理論というのがポイントですね

このグラフ理論というのはレオンハルト・オイラーという

数学者の人が18世紀に大気化した数学理論なんですよ

これもしかしたら小学校の時の数学の教科書とかで

ストーリーを聞いたことがあるかもしれないんですが

ケイニヒスペルクの7つの橋問題という有名な証明があります

ストーリーとしては18世紀の初め頃に

昔のプロイセンという王国があったんですけども

今のロシアの連邦の中かな

そこの東部の

プロイセンの使徒であるケイニヒスペルクという大きな町がありました

この町の中央にはプレーゲルという大きな川が流れていて

7つの橋が架けられていたんですね

その7つの橋と川によって町のエリアがいくつかに分かれていた

その時に王様が

本当に王様だったかちょっと分からないですけど

偉い人がきっと何かしら偉い人が

このプレーゲル川に架かっている7つの橋というのを

2度通らずに

全て渡って元のところに帰ってくることができるか

これを証明してほしいと頼まれた

それによって証明するために考えた数学の理論というのが

グラフ理論であり

この問題をケイニヒスペルクの7つの橋問題と言います

要するに太筆描きみたいな形ですね

抽象化すると

ここで川が流れている町の

この川が流れている町の

地域をイメージしてほしいんですけど

橋によって2つの地域が

つながっているとします

12:00

2つのそれぞれの地域を丸を描いて

橋を線のような形で表現すると

その7つの橋があるので

7つの線とそれによってつながれた複数の地域というのが

丸と線で表現できると思います

このグラフ理論の中では

この丸のことをノード

説と言ったり

この線のことをエッジ編と呼ぶんですけども

このノードとエッジで抽象化したんですよね

この7つの橋モデル

このノードとエッジと呼ばれる丸と点で

解くことができる問題のこと

というのがいわゆるグラフ理論で表現できる問題

なので面倒くさいので

デジタルモデルとしてはすごい簡単で

線と点で表現できるもの全てってなります

じゃあプラクティカルな例でいくと

どういうものがあるかというと

まず1つは皆さんが使っているウェブページですね

セマンティックウェブです

それぞれのウェブページをノード

ハイパーリンク

Aタグで作るリンクですね

クリックすると飛ぶやつ

ハイパーリンクをエッジとして表現すると

例えばどのページからどのページに

どれぐらいリンクが

貼られているかっていう

ものを作ることが

総スター数

エピソードをシェアする

Instagram シェア画像

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

ken

感想

総スター数

コメント

感想を書く

こちらもおすすめ