「Grafana Cloud」の先進的ユーザーであるグリーが10年をかけて到達した「オブザーバービリティ」とは

グリーが10年をかけて築いた
オブザーバービリティの進化

セッションで岩堀氏は、グリーにおけるメトリクス基盤の進化とその課題について解説した。グリーでは、2015年頃のAWS移行を契機に、メトリクス基盤としてOSSのGrafanaとPrometheusの導入を開始。その後、2020年にはGKE環境でGrafana Cloudの利用を開始し、2021年にはオンプレミス環境も従来のGangliaベースのシステムからGrafana Cloudへと移行したという。これにより、オンプレミス、AWS、Google Cloudのすべてのメトリクス基盤がGrafanaに統一された。

また、Grafana/Prometheusスタックを採用した理由や、マルチクラウド環境への適応、長期間の運用で直面した課題とその対応策について語られた。

Grafanaを10年間使ってきた経験を解説する岩堀氏のセッション

岩堀氏はまず、グリーのインフラストラクチャーの規模について説明し、60のインスタンスが稼働しており、それらが3つの異なる環境に分類されることを紹介した。

この3つの環境とは、

オンプレミス環境に構築された仮想マシンベースのインフラストラクチャー
Amazon Elastic Kubernetes Service(Amazon EKS)を活用したAWS上のKubernetesクラスター
Google Kubernetes Engine(GKE)を用いたGoogle Cloud上のKubernetesクラスター

である。これらの環境は、それぞれの要件に対応しつつも、統一されたオブザーバービリティ基盤のもとで運用されている。

グリーのインフラストラクチャーの概要。3つのタイプが存在する

その内容を解説したスライドでは、3つのタイプのインフラストラクチャーに対し、主にGrafanaのソリューションを、タイムシリーズデータベースであるPrometheusと組み合わせて活用していることが紹介された。

岩堀氏が所属するモニタリングユニットが提供するオブザーバービリティの概要

主にゲームの特性に起因する高い応答性への対応と、ビジネスサイドからの要求である年単位での比較分析を可能にするため、長期間のメトリクス保存が求められていることが紹介された。これにより、ゲームというビジネスモデルに適した監視基盤の必要性が明確になった。

また、監視対象となるシステムの構成についても、3つのタイプをそれぞれ紹介。特に、GKE上のコンテナークラスターからGrafana Cloudへ連携する仕組みについて詳しく解説された。

GKEからGrafana Cloudへの連携するシステム構成を解説

EKS/AWSではオープンソース版のGrafanaを、GKE/GCPではGrafana Cloudを活用し、同じユーザー体験を提供することがモニタリングユニットの発想であったことが紹介された。これにより、インフラストラクチャーが異なっても、統一された観測性を維持することを目指したチームの取り組みが強調された。

また、オンプレミス環境をクラウドサービスへ移行するためのアプローチとして、シンプルな構成を追求し、既存のGanglia環境の機能を代替するパッケージやダッシュボードを提供したことが説明された。これは、オンプレミスからクラウド移行を検討しているエンジニアにとっては参考となる内容だろう。

オンプレミスの監視基盤のアプローチ

最後に、10年にわたりオンプレミス環境からオープンソースを活用したクラウドサービス、さらにマネージドなクラウドサービスへと移行を経験したエンジニアとしての知見が解説された。

ここでは、インフラストラクチャーが変わっても同じユーザー体験を提供することの重要性や、「ダッシュボードの民主化」と呼ばれる、ユーザーが自由にカスタマイズできるダッシュボード機能について説明が行われた。

さらに、PrometheusがKubernetesのデファクトスタンダードとなったことでエコシステムが活性化し、コミュニティによるツールやソフトウェアの発展によって、よりリッチな監視基盤の構築が可能になったことが語られ、セッションは締めくくられた。

グリーの10年を掛けたGrafanaによる監視基盤移行の振り返り

グリーのオブザーバービリティ戦略と今後の展望

ここからは、セッションで紹介されたグリーの監視基盤の変遷やクラウド移行の背景を踏まえ、岩堀氏が現場で直面した課題や技術的な判断について詳しく伺ったインタビューをお届けする。

セッションでは、オンプレミスからクラウドへの移行の前にGangliaからGrafanaへ変更した経緯が解説されていましたが、岩堀さんはツールの選定にも関わっていたのですか。

私は直接ツールの選定には関わっていませんでしたが、グループのエンジニアが評価を行いました。Gangliaからの移行にあたっては、大規模な分散システムに適したツールを選定するという観点で評価が行われたはずです。その際、タイムシリーズデータベースとしてPrometheusが最適だという結論が社内で出ていました。

もう1つの理由として、オンプレミス環境ではインスタンスの変動が少ないのに対し、クラウド環境ではサーバーを必要に応じて起動・停止するため、自動的にインスタンスを検出できる仕組みが求められました。そこで、サービスディスカバリー機能を備えたPrometheusが適していたこと、さらにPrometheusと最も相性の良い監視基盤としてGrafanaが選ばれたことが決め手となったようです。グリーのシステムでは、カスタムメトリクスを重視し、それを高度に活用していたため、それらをPrometheusとGrafanaの組み合わせで柔軟に実装できることも、採用の大きな要因となりました。

株式会社グリーシニアリードエンジニア岩堀草平氏

AWSではオープンソース版のGrafanaを使用していましたが、GKEのインフラストラクチャーへ移行する際にクラウドサービス版を選択したのはどのような理由からですか。

ちょうどその頃、Grafana Cloudが利用可能になったことも大きな要因の1つでした。すでにAWSでGrafanaを使用していたため「GKEでも同じユーザー体験を維持したい」という意図もありました。

また、グリーのビジネス領域の開発を担当するデベロッパーは「監視基盤そのものに手間をかけたくない」という考えもあったと思います。そのため「運用負担を軽減しながら同じ監視環境を提供できるGrafana Cloudの採用が最適だった」という判断に至りました。

今回のカンファレンスではScripted-Dashboard機能が将来的に廃止されることが何度も説明されていました。グリーのダッシュボードでもこの機能を使用しているかと思いますが、それについて不安はありませんか。

Scripted-Dashboardの廃止は数年前から公表されていたので、特にショックはありませんでした。しかし、この機能を活用しているのは比較的Grafanaを使い込んでいるユーザーが多いと思うので、今後の移行方針については多少の不安はありました。

ただ、今回Grafana Scenesが発表され、React.jsのコードを書けば同様の機能が実現できることが分かったので、書き直しの作業は必要になりますが安心感は得られました。

「オブザーバービリティ」と言うとログやメトリクスの話が中心になりますが、アプリケーションの性能を分析するAPM(Application Performance Monitoring)の領域については、どのようにお考えですか。

現在、APMについては他のツールを使用して実施していますが、「OpenTelemetry」が登場して事実上のデファクトスタンダードとなったことで、状況が変わりつつあります。

Grafanaには「Tempo」というトレーシングツールがあり、それと組み合わせることでAPMの実現も可能になると考えています。そのため、現在は導入の可能性を含めて検討を進めている段階です。

今後の展望についてお聞きしたいのですが、将来的にグリーのオブザーバービリティはどのように進化していくと考えていますか。

現在のクラウド環境をさらに拡大するというよりは、トレーシングやプロファイリングなどの機能を組み合わせて、より高度なオブザーバービリティを実現したいと考えています。

現時点ではAWSとGCPを組み合わせたハイブリッドな環境を構築していますが、今後は観測できる領域を広げる方向で発展させていく予定です。

「ハイブリッド」という言葉が何度か出てきましたが、これは複数のパブリッククラウドを使い分ける「マルチクラウド」とは異なる概念なのでしょうか。

そうですね、一般的な定義では「ハイブリッドクラウド」はオンプレミスとクラウドを組み合わせた環境を指すと思います。

今回のお話の中ではオープンソースとマネージドサービスを異なるクラウドプラットフォーム上で組み合わせて運用する意味で「ハイブリッド」という言葉を使っていました。

最後に、Grafana Labsに対して要望があればお聞かせください。

クラウドサービスを利用する以上、エンジニアであっても毎月の請求額は気になってしまいます。為替レート(円ドルレート)の影響もあるため一概には言えませんが、やはり価格は安いに越したことはありませんからね。

また、グリーのビジネスの特性かもしれませんが、新しいゲームのリリースやキャンペーンなど、短期間で大量のリソースを消費するケースが多くあります。そういった場面では、通常の料金体系とは異なる、短期間のみ利用できるインスタンス向けの価格プランがあると、ユーザーとしては非常にありがたいですね。

まとめ

ダイナミックに変動するインフラストラクチャーやアプリケーションのオブザーバービリティに関しては「Grafanaのソリューションに満足している」と語る岩堀氏。

一方で、プロファイリングやトレーシング、新しいダイナミックなダッシュボード、さらにはAPM(Application Performance Monitoring)といったシステムの可視化に対しては、大きな期待を寄せていることが伝わるインタビューとなった。

著者

松下康之 - Yasuyuki Matsushita

この著者の記事一覧この著者の
記事一覧

フリーランスライター＆マーケティングスペシャリスト。DEC、マイクロソフト、アドビ、レノボなどでのマーケティング、ビジネス誌の編集委員などを経てICT関連のトピックを追うライターに。オープンソースとセキュリティが最近の興味の中心。

連載バックナンバー

クラウドSponsored

第2回