Community Over Code Asia 2025、ClickHouseと競合するMySQL互換の分散OLAPベータベースApache Dorisのセッションを紹介

The Apache Software Foundation(ASF)が主催するCommunity Over Code Asia 2025から、分散OLAPのためのオープンソースソフトウェアApache Dorisを解説したセッションを紹介する。
セッションのタイトルは「Apache Doris AI Exploration and Practice」というもので、プレゼンターはYijia Su氏。セッションのページからは「SelectDBシニアソリューションアーキテクト」というタイトルが読み取れる。SelectDBはBeijing Flywheel Data Technologyが開発するApache Dorisの商用版ということを考えると、Apache DorisのコミッターであるSu氏がこのセッションを担当するのは妥当と言える。Apache DorisはBaiduがオンライン広告の分析のためのツールとして開発したソフトウェア(当時の名称はPalo)で、2017年にオープンソースとして公開、2018年にBaiduからThe Apache Software Foundationに寄贈された。SQLとしてはMySQL互換であることが記載されているが、当時のBaiduのオンライン広告分析にはMySQLが使われており、その処理速度とシャーディングの運用に問題を抱えていたBaiduがその問題を解決するために開発したという背景を考えれば、分散並列処理、高速性などが機能として強化されているのは理解できる。
このスライドの元はApache Dorisの公式ドキュメントにあるシステム図である。
●公式ドキュメント:Introduction to Apache Doris
データベースやストリーミングデータ、タイムシリーズデータなどを集約してアプリケーションに仲介するというのがApache Dorisの役割だが、他にデータウェアハウス、データレイクなどもソースとして使えるという記述がある。
このスライドではDorisの特徴を解説しており、リアルタイム性、高速なクエリー、並列処理に加えて、近年流行となっている生成AIとの連携も挙げられている。
そして生成AIの時代にデータウェアハウスに求められる機能を列挙。ここではリアルタイム、並列処理、検索速度などとともに「エコロジーという単語が挙げられているのは興味深いと言える。ここでのエコロジーはDorisを中心にしてエコシステムを形成できていることを訴えたいようだ。
ここではチャットを使ってデータ分析を行うアプリケーションを例に挙げて、従来のシステムとの違いを解説した。ビジネスアナリストがユーザーとして分析したいポイントをデータアナリストに伝えてSQLを書いてそれをデータウェアハウスにクエリーとして投げて長い待ち時間の後に結果が返ってくるという従来のアプリケーションに対して、Dorisを使うことで瞬時に分析の結果が返ってくるという違いを説明しているが、それがどのように実現できているのか?についてはここでは明らかにされない。
これを理解するにはこのスライドよりもDorisの公式ページにある情報が参考になる。
ポイントはフロントエンドとバックエンドが分離されていること、さらに演算を行うインスタンスとストレージも分離されており、メタデータとキャッシュを持つフロントエンド、分析を行うバックエンド、そして実際のデータを保持するS3やHDFSなどのストレージがレイヤーとして構成されているという。
またAlibaba Cloudのドキュメントも参考になるだろう。ここではDorisのマネージドサービスであるApsaraDB for SelectDBについて解説が掲載されており、機械翻訳を用いた日本語版もある。
ここではApsaraDB for SelectDBをApache Dorisと置き換えて読み取ることで、Dorisの特徴を理解できるだろう。
最後のCore&Ecosystemという部分には生成AI関連の用語が並べられており、これ以降は生成AIとの連携を中心に説明が展開された。
ここではAnthropicが提唱したMCP(Model Context Protocol)について説明を行った。ここでも従来の各種データベースを接続するMCPとDorisのMCPサーバーによる連携が異なることを説明。MySQLやPostgreSQL、ClickHouseなどが個別にMCPサーバーを使う必要があるのに比べてDorisではそもそもMySQL互換ということもあり、さまざまなデータソースと連携して実行できることを強調している。
このスライドではDorisにおける生成AI関連の機能強化をざっくりと紹介した。Vector Searchが2025年Q3にリリース予定の4.0で、大雑把にAI関連の機能と呼ばれるものが2025年Q4の4.1でリリース予定とされる。未来的な構想としてはSemanticをレイヤーとして取り入れると記載されている。
生成AI関連については次のスライドでも紹介され、すでにリリースされているMCPサーバー、Dify、Cursor、LangChainなどとの連携、エージェント機能、そしてAutomatic Fine-tuning PlatformはDoris自体が自律的にパフォーマンスチューニングを行う機能を指すと思われる。
最後にApache DorisはAIエージェントの時代の最適なデータプラットフォームとして開発を進めていくということを示して、プレゼンテーションを終えた。
中国語によるプレゼンテーションを英語のスライドから推測するだけでは不十分であることは容赦頂きたいが、Dorisの公式ドキュメントには多くの情報が英語で記載されている。
特にClickHouseやElasticsearchとのベンチマークも公開されているので、参考にして欲しい。
すでにAlibaba Cloudでマネージドサービスとしても提供されていることから、Apache DorisはOLAPを大規模な規模で実装し、リアルタイムに近いレスポンスを必要とするアプリケーションには向いていると思われる。ClickHouseとの比較ではClickHouseから移行したユーザーとしてTencent Musicなども紹介されており、機能や性能についても比較表を公開するなど積極的に情報を提供しようとする姿勢が見える。比較対象となっているClickHouseは日本国内で法人として活動を始めたばかりだが、どちらも注目に値するソフトウェアと言えるだろう。注目していきたい。
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- ClickHouseを使ったデータレイクの概要を解説する動画を紹介
- ClickHouseがミートアップ開催。最新情報やPOSデータ分析のユースケースなどを紹介
- OLAPのための高速カラム指向データベースClickHouseの概要を紹介
- ASFによるオープンソースカンファレンスCommunity Over Code Asia 2025が北京で開催。初日のキーノートを紹介
- Community Over Code Asia 2025からByteDanceが開発したTRAEを紹介
- Community Over Code Asia 2025から異機種GPU対応のスケジューラーHAMiのセッションを紹介
- Zabbixの年次カンファレンスがラトビアのリガで開催。初日のキーノートを紹介
- ClickHouseがミートアップ開催。ClickHouseの製品とマーケティング担当のVPにインタビュー
- データ分析システムの全体像を理解する(4) レポーティングツールとセルフサービスBIツール
- KubeCon China 2025、中国のショートビデオサイトによるMLOpsのユースケースセッションを紹介










