KubeCon China 2025、オブザーバビリティの失敗例を解説するセッションを紹介

KubeCon+CloudNativeCon China 2025から、Splunkのエンジニアリングチームのシニアディレクターがオブザーバビリティにおける失敗例を解説したセッションを紹介する。セッションを担当したのはSteve Flanders氏だ。この稿ではセッションの内容に加えて、セッション後に行ったインタビューの内容も合わせて紹介する。タイトルは「Antipattern in O11y:Lessons Learned and How OTel Solves Them」、オブザーバビリティ(O11y)におけるやってはいけないパターンを紹介し、それをどうやってOpenTelemetry(OTel)が解決するのか?という内容だ。
Flanders氏はOpenTelemetryのコントリビューターであり、過去にもThinkITに登場している。2019年に上海で行われたKubeCon China 2019では現地でインタビューを行い、その後、Flanders氏が登場する動画を解説した記事も公開されている。
●参考:KubeCon Chinaで訊いたOpenTelemetryのマージ裏話
●参考:ベンダーニュートラルな可視化ツールOpenTelemetryの最新情報を紹介
ThinkITには過去2回登場していることになるが、CNCFがカンファレンスに使っているSchedというアプリで筆者がセッションを登録したことを感知して、セッション前には挨拶に応えてくれた。セッションの動画は以下から参照可能だ。
●動画:Antipatterns in Observability: Lessons Learned and How OpenTelemetry Solves Them
12のアンチパターンを紹介するセッション
Flanders氏は「Mastering OpenTelemetry and Observability」という書籍の筆者でもあり、OpenTelemetryの前身であるOpenCensusのコントリビューターであったことからOpenTelemetryにも関わるようになった。SplunkがCiscoに買収された経緯から、今ではCiscoのオブザーバビリティプロダクトのエンジニアリングチームにおけるリーダーでもある。
ここから12の例を挙げてオブザーバビリティにおいてやってはいけないパターン、つまり「アンチパターン」を紹介していく内容になった。
アンチパターンの一つとして紹介されたのが「不完全なインストゥルメンテーション」というものだ。ここでは稼働するすべてのコンポーネントをカバーできないことで、障害時の原因解明が難しくなってしまうことを説明。対策として、Javaのコマンドラインや環境変数の設定を説明している。
分散トレーシングについてはダイアグラムを使って説明。多くのコンポーネントが関連することでオブザーバビリティは難しくなる。
実際にどの処理にどれだけ時間がかかっているのか? についても例を使って説明。ここではECサイトなどでは一般的な購入時のチェックアウトのプロセスを示して説明。この例ではカートのアイテムの取得、通貨の処理、送付先住所の取得などに続いて、確認用e-mailの送信などに細分化されていることがわかる。
次のスライドではコンポーネントの相関図を使って処理がどうやって接続されているのかを解説した。
アンチパターンの解説だけではなく、OpenTelemetryについても基本的な内容を説明。ここではOpenTelemetryが取得した情報を仲介するCollectorについて解説を行っている。
実際に設定ファイルの記述例についても解説を行った。
また採取する情報についての命名ルールが確立していないというアンチパターンについても説明し、この例は特にログにおいては起こりがちであると語った。対策としてOpenTelemetryの機能であるSemantic Conventionsを使うことを推奨した。Semantic Conversionsについては以下の公式ドキュメントを参照されたい。
ここからはオブザーバビリティにおける設定などのアンチパターンではなく、プラットフォーム選択におけるアンチパターンを説明する内容に移った。
最初に挙げたアンチパターンはベンダーロックインだ。ここではプロプライエタリーなベンダーのソリューションに依存することでベンダーの支配から脱却することが難しくなり、選択肢が狭められてしまうことを問題点として挙げた。
またオブザーバビリティのためのツールが社内に乱立してしまう問題については、OpenTelemetryがほぼデファクトスタンダードになっていることから、ベンダーを替えてもOpenTelemetry Collectorに準拠した仕様になっているツールを選ぶことが重要だというのが要点だろう。
また社内の組織がサイロ化して協調することが難しいというアンチパターンやオブザーバビリティについて誰がオーナーシップを持つべきか? というアンチパターンについても解説。この辺りになるとテクノロジーの話ではなく組織や責任の在り方まで考えておかないと、ビジネスにマイナスの影響を与えてしまうということが趣旨だろう。インターネットやソフトウェアがビジネスに与えるインパクトが重要になった現状を映し出していると言える。
全体として成功例を解説するのではなく、アンチパターンから改善する方法を解説するという発想のセッションとなっていた。あまり失敗を語りたがらない中国のエンジニアにはどう映ったのだろうか。Flanders氏は最後に最新の著書である「Mastering OpenTelemetry and Observability」を紹介してセッションを終えた。
セッション後のFlanders氏に訊いた
セッションの後にOpenTelemetryのブースでFlanders氏にインタビューを行った。ここではその中からいくつかの回答を紹介する。
簡単に経歴を紹介してください。
Flanders:最初に逢った時からすでに数年が経過していますので、いろいろなことがありましたね。ステルスだったOmnitionからSplunkによる買収、さらにCiscoがSplunkを買収したことで今はCiscoのオブザーバビリティのチームになっています。私はAPMであるAppDynamicsのプロダクトも含むエンジニアリングチームのディレクターをやっています。ここにはOpenTelemetryベースのデータを取得するためのソリューション、GDI(Getting Data In)というソリューションも含まれています。つまり、主にOpenTelemetryに関連した仕事をしていると言っても良いと思いますね。
多くのオブザーバビリティベンダーがそれぞれの強みを出して市場が乱立しているように見えます。これについては?
Flanders:多くのベンダーがこの領域に進出してきているのは、それだけ市場が求めているからだと思います。新興のプレイヤーであればある一点に集中して開発リソースを投下し、差別化できるニッチなポイントソリューションを提供しますが、多くのエンタープライズ企業が求めているのは信頼できるパートナーであり、プロダクトポートフォリオだと思いますね。そういう意味ではCiscoは良いポジションにいると思います。AIについても今や多くのオブザーバビリティベンダーが生成AIを使ったアシスタントを提供していますが、その多くが、エラーの内容を説明したり設定ファイルを書くアシスタントとして使ったりすることなどに留まっていると思います。
しかしエンタープライズ企業にとっては、すでに多くのツールを使ってシステムの運用をやっているわけで、AIだけが単独のツールとして存在するというのではなくJiraやWebExといったツールと連携する必要が出てきていると思います。すでに「SREをサポートするためのAI」という謳い文句のベンダーも出てきているようですから。
その部分ではCisco/Splunkはどんな状況ですか?
Flanders:すでに生成AIを使ったアシスタントは提供していますし、これからはOpenTelemetryの領域でも生成AIを使ったソリューションは出てくると思います。
Ciscoは買収した企業の良さを阻害してしまうということに定評があると個人的には思っていますが、Splunkについては今のところ大丈夫そうですね(笑)
Flanders:将来的にもそうであって欲しいと思っています。
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- ベンダーニュートラルな可視化ツールOpenTelemetryの最新情報を紹介
- Observability Conference 2022、Splunkのエンジニアが説明するOpenTelemetryの入門編
- 【10/27開催】「Observability Conference Tokyo 2025」の参加チケットを販売中!
- 「Observability Conference 2022」開催レポート
- Obervability Conference 2022、OpenTelemetryの概要をGoogleのアドボケイトが解説
- 【CNDW2024】大規模環境でのOpenTelemetry Collector運用とOpAMPの活用
- KubeCon Europe 2025、DynatraceのDevRelにインタビュー。F1でも使われているオブザーバビリティとは?
- DevOps全体の監視・調査・障害対応を自動化・効率化 「Splunk Observability Cloud」が DXをスピードアップする
- Oracle Cloud Hangout Cafe Season4 #4「Observability 再入門」(2021年9月8日開催)
- FinOps X Day Tokyo開催、FinOpsの概要から生成AIでの応用までを解説