【CNDS2025】 数百万台のサーバーを守る仕組みを解き明かすマイクロソフトのSREとAIOpsの最新アプローチ

SREとは何か -- 信頼性を支える工学的アプローチ
クラウド運用の現場では、ハードウェアの故障、人的ミス、ソフトウェアのバグといった「避けがたい事象」が日常的に起こる。そうした中で求められるのが、信頼性を持続的に担保する運用手法であり、それを体系化したものがSRE(Site Reliability Engineering)である。
登壇したマイクロソフトの乃村翼氏は、SREを「組織がシステムやサービスの信頼性を、適切なレベルで持続的に達成するための工学分野」と定義し、「信頼性」「適切なレベル」「持続的」という3つの観点が重要であると語る。単に「落ちない」のではなく、ユーザーの期待通りに動き続けること、理想論でなくビジネス要件に合った信頼性水準を見極めること、そして、それを継続するための自動化や人材育成が不可欠であると強調した。
続いて乃村氏は、AzureにおけるSREの体制を紹介した。マイクロソフトが提供するAzureは、全世界で60を超えるリージョン、300以上のデータセンター、数百万台のサーバーから構成される、桁違いのスケールを誇るクラウドプラットフォームである。これほどの規模になれば、どこかで常にハードウェア障害や機能変更が発生しており、それを前提とした運用体制が不可欠となる。
こうした背景のもと、AzureにおけるSREチームのミッションは、「すべての開発・運用担当エンジニアが、信頼性の高いサービスを安全かつ容易に構築・運用できるよう支援すること」と定められている。その目的は、単に障害に対応するのではなく、継続的に高品質なクラウドサービスを提供する仕組みそのものを整えることである。
SREはAzureの開発部門に属し、全体で数百名規模の組織として構成されている。役割に応じて「Change SRE」「Services SRE」「Apps SRE」などのチームに分かれ、開発チームと密に連携しながら日々の運用を支えている。開発側との信頼関係を築くことが、SREとしての活動の土台となっている。
Playbookに基づくSREのワークフローとサービスオンボーディング
AzureのSREチームが担う業務は多岐にわたる。具体的にはサービスのオンボーディングや変更レビュー、障害分析、オンコール対応、リスク評価、標準化推進などが含まれ、いずれもサービスの信頼性と運用効率を高めることを目的としている。
これらの活動を共通の思想とプロセスで支えるのが、SRE Playbookと呼ばれる内部フレームワークである。Playbookには6つの基本原則が定められており、SREの活動の根幹をなしている。例えば「当事者意識と共同責任」では、SREが開発チームと対等な立場で運用を支える姿勢を求めており、「データに基づく判断」では、KPIやメトリクスをもとに業務の優先順位を決定する姿勢が明確にされている。その他「実証済みの手法の尊重」「集中と成果」「再利用可能なプラクティス」「Azureとの整合的進化」なども原則として掲げられている。
Playbookに基づくワークフローは6つのフェーズに分かれており、サービスの構成把握、健全性の監視、運用効率の向上、変更管理の自動化、リスク低減、スケーラビリティ確保といった観点から、段階的に信頼性を高めていく仕組みとなっている。
各フェーズには、達成すべき成果やKPIが定められており、たとえば「Operational Efficiency」では、アラートの誤検知率やトラブルシューティングガイド(TSG)の整備率が重要指標となっている。
なかでも重要な概念のひとつが、SDP(Safe Deployment Practice)である。これは、安全に変更をデプロイするための方法論であり、Azureのようなスケールを持つクラウドでは不可欠な考え方である。具体的には、特定のテスト環境(カナリーリージョン)での事前リリースとベイクタイム(様子見の期間)を経て、段階的に対象リージョンを広げていく。もし問題が発生した場合には、自動ロールバックが即時に発動する仕組みも組み込まれている。またSDPではHealth Signal(正常性指標)が活用され、システムの挙動をリアルタイムで観測しながら、影響の兆候を捉える。
さらに、信頼性の測定にはSLI(Service Level Indicator)とSLO(Service Level Objective)が用いられる。SREチームはまず「クリティカルユーザージャーニー(CUJO)」を定義し、ユーザーが期待する操作の成功率などをSLIとして設定する。そして、それに基づくSLOを策定し、ダッシュボード化・自動監視を通じて運用中も継続的に妥当性を検証する。このようにして、サービスの信頼性を定量的に捉え、計画的に維持・改善していくのである。
変更レビュー -- 変更が最大のリスクだからこそ
Azureのような大規模クラウドにおいて、最も重大な障害原因は「変更」である。新機能の投入、設定の変更、コード修正といった日々の更新作業が、しばしば意図しない形でサービス停止を引き起こす。SREにとって、この「変更」をいかに安全に進めるかは、信頼性を守るうえで避けて通れないテーマである。
「サービス停止の多くは変更に起因します。そのリスクを極限まで減らすことが、Change SREの役割です」と乃村氏は語る。
マイクロソフトのSREチームでは、オンボーディング(事前準備)から変更レビュー、承認、実施までを一貫したフローとして設計している。まず、開発チームはSREに対してサービスの構成やリリース頻度、デプロイ手順を説明し、SRE側は変更レビューの重要性と手順を共有する。この双方向のやり取りを通じて、運用に対する相互理解と信頼関係を築いていく。
実際のレビューでは、「Pre-deployment Call」と呼ばれる確認ミーティングが実施される。開発担当(リクエスター)、SRE(ファシリテーター)、品質管理者(VPやディレクター)らが参加し、SDP(Safe Deployment Practice)の原則に沿ってリスクを評価する。ここでは、ロールバック手順の有無、Health Signalの設定、カナリー展開やベイクタイムの実施状況、テストの実施状況など、複数の観点で総合的に判断が行われる。
とはいえ、Azureでは1日に数百件の変更が行われており、すべてを人手でレビューするのは現実的ではない。そこでチームでは、作業を支援するツールの内製化にも取り組んでいる。
たとえば「レビューツールいい感じにしてくれる君」は、レビューポータル上で日付ミスやロールバック未設定といった問題点を自動でハイライト表示するブラウザ拡張である。また「仮想的にレビューしてくれる君」は、LangChainベースのエージェントが開発担当やレビュアー役を模倣し、変更内容からリスクを自動評価する仕組みだ。これにより、事前準備にかかる作業時間を肌感覚で約20%削減できたという。
進化し続けるAIOps -- インシデント管理とトリアージの未来
Azureの運用現場では、膨大なサービス群が常に動き続けており、そこでは日々、多数のインシデントが発生している。マイクロソフトでは、これらのインシデントを一元管理するためにIcM(Incident Communication Management)という専用CRMを用いており、障害の内容や影響範囲、対応状況などがすべて記録される。
ここで区別されるのが、インシデントとOutage(障害停止)である。インシデントとはサービス内の問題を指し、ユーザー影響の有無を問わない。一方Outageは実際にユーザー影響が出た障害であり、優先度や対応体制が異なる。これらを迅速かつ的確に捉え、対処するためには、従来の監視・アラートの限界を超えた対応が求められる。
そこでマイクロソフトは、AIOps(AIによる運用自動化)の取り組みを早期から進めてきた。代表的な仕組みがBRAINである。これは機械学習ベースで構築され、インシデントの検出、トリアージ(優先度判定)、相関関係の可視化を自動で行う。BRAINは時系列データとイベントシーケンスを解析し、問題の発生を即座に検出するだけでなく、関連するインシデントを束ねて、担当チームの特定まで支援する。これにより、TTD(Time to Detect)、TTE(Time to Engage)、TTM(Time to Mitigate)といった対応速度のKPIが大きく改善された。
さらに近年登場したのが、Triangleという新たなAIOpsアプローチである。これはBRAINとは異なり、大規模言語モデル(LLM)と複数エージェントの連携により、トリアージの精度と自律性を高める仕組みである。Triangleでは、障害の場所・症状・対応スキルといった要素をLLMが抽出し、三つの役割を担う仮想エージェント(分析担当・判断担当・チーム調整担当)が対話しながら最適な対応チームを決定する。これにより、従来人手に頼っていた判断プロセスを高精度かつ高速に代替可能となり、TTEの短縮やトリアージ精度の向上が報告されている。
最後に乃村氏はセッションをまとめた。
クラウド全盛の時代であっても、サービスの信頼性は「地道な運用」の積み重ねによって支えられている。SLI/SLOの設計や、インシデントと向き合う姿勢、そしてSafe Deployment Practiceに基づく変更管理――これらはすべて、Azureを支えるSREたちの日常業務の一部である。
一方で、AIOpsの進化によって、トリアージやインシデント対応の自動化が現実のものとなり、SREの働き方にも新たな可能性が広がっている。人と機械が協調する運用の未来が、すでに始まっているのだ。
「AzureのSREたちは、日々パッションを持って進化と改善に熱中しています」と野村氏は語った。その言葉どおり、クラウドの信頼性は、仕組みだけでなく、それを支える人の情熱と地道な努力によって築かれている。
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- CNDT 2022、SLOの自動化についてGoogleのエンジニアが解説
- CNDT 2022、ChatworkのSREがSLO策定にカオスエンジニアリングを使った経験を解説
- Observability Conference 2022、利用者目線のオブザーバビリティ実装をドコモのSREが解説
- Observability Conference 2022、オブザーバビリティから組織、ルールを見直した事例を紹介
- Cloud Operator Days Tokyo 2021開催、New Relicとドコモのセッションを振り返る
- CloudNative Days Tokyo 2023から、Yahoo! JAPANを支えるKaaS運用の安定化やトイル削減の取り組みを紹介
- 自宅から推しテクへの愛を叫ぼう!「July Tech Festa 2021 winter ~推しテク総選挙~」レポート
- CI/CDから障害の復旧までハイレベルの運用自動化を実現するKeptnとは
- CNDT2020シリーズ:メルペイのマイクロサービスの現状をSREが解説
- Observability Conference 2022、TVerによるNew Relic One導入事例を紹介




