Community Over Code Asia 2025、ClickHouseと競合するMySQL互換の分散OLAPベータベースApache Dorisのセッションを紹介

2025年11月18日(火)
松下 康之 - Yasuyuki Matsushita
COC Asia 2025から、分散OLAPデータベースのApache Dorisを解説したセッションを紹介。

The Apache Software Foundation(ASF)が主催するCommunity Over Code Asia 2025から、分散OLAPのためのオープンソースソフトウェアApache Dorisを解説したセッションを紹介する。

「Apache Dorisを使ってAIを探査する実践方法」という意味のタイトル

「Apache Dorisを使ってAIを探査する実践方法」という意味のタイトル

セッションのタイトルは「Apache Doris AI Exploration and Practice」というもので、プレゼンターはYijia Su氏。セッションのページからは「SelectDBシニアソリューションアーキテクト」というタイトルが読み取れる。SelectDBはBeijing Flywheel Data Technologyが開発するApache Dorisの商用版ということを考えると、Apache DorisのコミッターであるSu氏がこのセッションを担当するのは妥当と言える。Apache DorisはBaiduがオンライン広告の分析のためのツールとして開発したソフトウェア(当時の名称はPalo)で、2017年にオープンソースとして公開、2018年にBaiduからThe Apache Software Foundationに寄贈された。SQLとしてはMySQL互換であることが記載されているが、当時のBaiduのオンライン広告分析にはMySQLが使われており、その処理速度とシャーディングの運用に問題を抱えていたBaiduがその問題を解決するために開発したという背景を考えれば、分散並列処理、高速性などが機能として強化されているのは理解できる。

Apache Dorisの公式ドキュメントに書かれている構成図

Apache Dorisの公式ドキュメントに書かれている構成図

このスライドの元はApache Dorisの公式ドキュメントにあるシステム図である。

●公式ドキュメント:Introduction to Apache Doris

データベースやストリーミングデータ、タイムシリーズデータなどを集約してアプリケーションに仲介するというのがApache Dorisの役割だが、他にデータウェアハウス、データレイクなどもソースとして使えるという記述がある。

ワードサラダ的にDorisの機能を紹介

ワードサラダ的にDorisの機能を紹介

このスライドではDorisの特徴を解説しており、リアルタイム性、高速なクエリー、並列処理に加えて、近年流行となっている生成AIとの連携も挙げられている。

そして生成AIの時代にデータウェアハウスに求められる機能を列挙。ここではリアルタイム、並列処理、検索速度などとともに「エコロジーという単語が挙げられているのは興味深いと言える。ここでのエコロジーはDorisを中心にしてエコシステムを形成できていることを訴えたいようだ。

BIをチャットで行うアプリケーションを例に違いを説明

BIをチャットで行うアプリケーションを例に違いを説明

ここではチャットを使ってデータ分析を行うアプリケーションを例に挙げて、従来のシステムとの違いを解説した。ビジネスアナリストがユーザーとして分析したいポイントをデータアナリストに伝えてSQLを書いてそれをデータウェアハウスにクエリーとして投げて長い待ち時間の後に結果が返ってくるという従来のアプリケーションに対して、Dorisを使うことで瞬時に分析の結果が返ってくるという違いを説明しているが、それがどのように実現できているのか?についてはここでは明らかにされない。

これを理解するにはこのスライドよりもDorisの公式ページにある情報が参考になる。

●参考:https://doris.apache.org/

ポイントはフロントエンドとバックエンドが分離されていること、さらに演算を行うインスタンスとストレージも分離されており、メタデータとキャッシュを持つフロントエンド、分析を行うバックエンド、そして実際のデータを保持するS3やHDFSなどのストレージがレイヤーとして構成されているという。

Dorisの概念図。公式ページからの引用

Dorisの概念図。公式ページからの引用

またAlibaba Cloudのドキュメントも参考になるだろう。ここではDorisのマネージドサービスであるApsaraDB for SelectDBについて解説が掲載されており、機械翻訳を用いた日本語版もある。

●参考:ApsaraDB for SelectDB とは

ここではApsaraDB for SelectDBをApache Dorisと置き換えて読み取ることで、Dorisの特徴を理解できるだろう。

Dorisの特徴を再度紹介。拡張性とマルチカタログ、AI関連のエコシステムがポイント

Dorisの特徴を再度紹介。拡張性とマルチカタログ、AI関連のエコシステムがポイント

最後のCore&Ecosystemという部分には生成AI関連の用語が並べられており、これ以降は生成AIとの連携を中心に説明が展開された。

MCPの解説。「AIアプリケーションに対するUSB-Cインタフェース」と説明

MCPの解説。「AIアプリケーションに対するUSB-Cインタフェース」と説明

ここではAnthropicが提唱したMCP(Model Context Protocol)について説明を行った。ここでも従来の各種データベースを接続するMCPとDorisのMCPサーバーによる連携が異なることを説明。MySQLやPostgreSQL、ClickHouseなどが個別にMCPサーバーを使う必要があるのに比べてDorisではそもそもMySQL互換ということもあり、さまざまなデータソースと連携して実行できることを強調している。

Dorisの生成AI関連の機能拡張の予定を紹介

Dorisの生成AI関連の機能拡張の予定を紹介

このスライドではDorisにおける生成AI関連の機能強化をざっくりと紹介した。Vector Searchが2025年Q3にリリース予定の4.0で、大雑把にAI関連の機能と呼ばれるものが2025年Q4の4.1でリリース予定とされる。未来的な構想としてはSemanticをレイヤーとして取り入れると記載されている。

将来計画の続き。MCPサーバー、エージェント、他のモデルなどとの連携が挙げられている

将来計画の続き。MCPサーバー、エージェント、他のモデルなどとの連携が挙げられている

生成AI関連については次のスライドでも紹介され、すでにリリースされているMCPサーバー、Dify、Cursor、LangChainなどとの連携、エージェント機能、そしてAutomatic Fine-tuning PlatformはDoris自体が自律的にパフォーマンスチューニングを行う機能を指すと思われる。

最後にApache DorisはAIエージェントの時代の最適なデータプラットフォームとして開発を進めていくということを示して、プレゼンテーションを終えた。

中国語によるプレゼンテーションを英語のスライドから推測するだけでは不十分であることは容赦頂きたいが、Dorisの公式ドキュメントには多くの情報が英語で記載されている。

特にClickHouseやElasticsearchとのベンチマークも公開されているので、参考にして欲しい。

●参考:Alternative to ClickHouse

すでにAlibaba Cloudでマネージドサービスとしても提供されていることから、Apache DorisはOLAPを大規模な規模で実装し、リアルタイムに近いレスポンスを必要とするアプリケーションには向いていると思われる。ClickHouseとの比較ではClickHouseから移行したユーザーとしてTencent Musicなども紹介されており、機能や性能についても比較表を公開するなど積極的に情報を提供しようとする姿勢が見える。比較対象となっているClickHouseは日本国内で法人として活動を始めたばかりだが、どちらも注目に値するソフトウェアと言えるだろう。注目していきたい。

著者
松下 康之 - Yasuyuki Matsushita
フリーランスライター&マーケティングスペシャリスト。DEC、マイクロソフト、アドビ、レノボなどでのマーケティング、ビジネス誌の編集委員などを経てICT関連のトピックを追うライターに。オープンソースとセキュリティが最近の興味の中心。

連載バックナンバー

データベースイベント
第4回

Community Over Code Asia 2025、ClickHouseと競合するMySQL互換の分散OLAPベータベースApache Dorisのセッションを紹介

2025/11/18
COC Asia 2025から、分散OLAPデータベースのApache Dorisを解説したセッションを紹介。
AI・人工知能イベント
第3回

Community Over Code Asia 2025から異機種GPU対応のスケジューラーHAMiのセッションを紹介

2025/11/12
COC Asia 2025から異機種GPU対応のスケジューラーHAMiのセッションを紹介する。
システム開発イベント
第2回

Community Over Code Asia 2025からByteDanceが開発したTRAEを紹介

2025/11/6
Community Over Code Asia 2025から、ByteDanceが開発したTRAE(The Real AI Engineer)を解説したセッションを紹介する。

Think ITメルマガ会員登録受付中

Think ITでは、技術情報が詰まったメールマガジン「Think IT Weekly」の配信サービスを提供しています。メルマガ会員登録を済ませれば、メルマガだけでなく、さまざまな限定特典を入手できるようになります。

Think ITメルマガ会員のサービス内容を見る

他にもこの記事が読まれています