KubeCon China 2025、中国のショートビデオサイトによるMLOpsのユースケースセッションを紹介

KubeCon+CloudNativeCon China 2025では多くのセッションが英語ではなく中国語で行われていた。キーノートセッションではスクリーンの上部に自動翻訳された英語によるキャプションが表示されていたことで、ある程度は内容を把握できるが、細かいニュアンスまでは伝わらない。しかし中国語を母国語とするエンジニアが英語で解説する場合に比べて明らかに語数が増え、英語で解説するよりも多くの情報が伝達されていたと想像できる。
今回はそんな中国語によるセッションを紹介する。中国語を聞き取れない筆者としては英語のスライドに記載されている内容を紹介するのが精一杯ということになるが、ご容赦頂きたい。動画は以下から参照できる。
●動画:Portrait Service: AI-Driven PB-Scale Data Mining for Cost Optimization and Stability Enhancement
プレゼンテーションを行ったのは英語表記でKuaishou、中国語表記では「快手」と呼ばれるショート動画の投稿サイトを運営している企業のエンジニア、Zhiheng Sun氏とYuji Liu氏だ。
Kuaishouについて特に何の説明もなかったのは、中国では誰もが知っている動画サイトだからということだろう。以下のスクリーンショットから判断すると、ユーザーが投稿する自作の動画だけではなく映画やアニメなどの一部分にキャプションを付けて投稿し、それをユーザーが共有するサイトのようだ。中国版TikTokとも呼ばれているというが、TikTokが音楽やダンス、パフォーマンスをメインにした大都市の若者層向けの投稿サイトであるのに対して、Kuaishouは地方都市、農村部などに暮らすユーザーをターゲットにした動画投稿サイトであるらしい。
中国では大都市と地方都市及び農村において生活や嗜好の違いが大きいという。また人口も多いことから動画投稿サイトもターゲットごとに存在するということだろう。
セッションはKuaishouのシステムについて解説するところから始まった。このスライドでは巨大なKubernetesクラスターにおいて性能、コスト、安定稼働という3つの側面から課題を整理し、ショートビデオの処理においてプラットフォームエンジニアとして解決する方法を模索しているという内容が紹介されている。ここではクラスターで実行されるアプリケーションやインフラストラクチャーが生成するメトリクスなどのオブザーバビリティデータからクラスターを最適化したいというのが目的だ。
次のスライドでは実際にシステムから取得されたデータをその特徴から分類し、CPUの利用率や立ち上がりにかかる時間などを数値化することで、そのソフトウェアの特性を判定するという発想を紹介した。これはPodやノード、クラスターがどのような特性を持っているのかを、ポートレイトというKuaishouが命名したタグで整理して、その特性に合わせたスケジューリングを行うという主旨のものである。
システムで稼働するノードやPodなどのコンポーネントの特性を分類するのがポートレイトサービス、特性をタグとして定義してその後のスケジューリングなどの目的に使うというのがこのシステムの概要だ。
このサービスが何に使われるのか? を整理したのが次のスライドだ。ここではFinOpsや性能の最適化などが挙げられている。これ以降はコロケーションを目的として使った場合の概要を解説している。
コロケーションでは複数の組織やユーザーが同じシステムを利用するためそれぞれの目的に応じて最適化を行うことが必要だが、Kuaishouにおいてはオンラインタスクとオフラインタスクを同居させることを意味しているようだ。オンラインタスクの場合は、直接ユーザーと接点を持つためレイテンシーを最小化することが必要だが、ビデオのエンコードのようにバッチ式に行われるタスクにおいてはレイテンシーよりもコンピューティング資源を無駄なく使うことが優先される。
システムにおいて利用している資源と利用可能な資源の割合に閾値を設けて、その閾値を変動させずに稼働させることができれば、コストの観点やユーザーの満足度などにおいても高い満足度を維持できるというのが論理的には正しい。しかしすべてのハードウェアが同一ではなく、閾値については差異が出てくるため、最適な閾値は一概には決められないということが問題点のひとつだろう。
システムの利用効率を最大化する際のフローについて解説。ここでは先にオフラインのバッチタスクを実行してからオンラインタスクを配備して、レイテンシーがSLO(Service Level Objective、サービスレベル目標)を超えないように制御するという発想だ。SLOを満たしている間はオフラインタスクを追加しても良いが、SLOを超えるレイテンシーが発生した場合は、オフラインタスクを減らすという単純な方法である。
この場合、オンラインタスクのレイテンシーを常に観測して続けてその変動を感知する必要があるが、その取得間隔が2分という状態であったため、秒レベルで観測をする必要があったと説明。ここから機械学習を使った予測システムを開発したという。
システムとしてQoS(Quality of Service)を意識した制御が可能になったとして、それぞれのハードウェアに最適な閾値の設定と動的な制御が可能になったことを解説。
結果としてユーザーに対するレイテンシーを最小化しながら、コストも最適化できたことをグラフで説明した。
ここからシステムのアーキテクチャーを紹介。特に機械学習でポートレイトタグを生成する部分にはApache Kafka、Hive、ClickHouse、Spark、Flinkなどのビッグデータではお馴染みのコンポーネントが使われていることがわかる。
このシステムをKubernetes上に実装した場合のアーキテクチャーも紹介。Kubernetesクラスター内部のそれぞれのコンポーネントに対してタグを追加する仕組みを開発している。またオンラインタスクを実行するPodのリアルタイムレイテンシー予測のシステム構成も紹介。ここではノード内にInference Agentが実装されてメトリクスからリアルタイムのレイテンシーを予測する形になっている。
最後に今後のプランを紹介。現状はルールベースでデータからの対応を実装しているようだが、これからはLLMを活用してより動的な分析を行いたいという。またポートレイトタグの生成についてもMCPを使うことなどが書かれているが、多分に現在流行っている最先端の用語を並べているという雰囲気は伝わってきた。もちろん、中国語で具体的な実装方法などが解説されたのかも知れないが、中国語が理解できず、自動翻訳もない状況では推測するしかない。
印象的だったのは、若いエンジニアがエネルギッシュに語るようすと、セッション後スピーカーに押し寄せる質問者の数だ。アイデアそのものはシンプルでシステムのコンポーネントの特性をタグで表してそれをKubernetesのスケジューリングの中に組み込んで最適化するというものだが、B2CサービスでMLOpsを実装している例としてはわかりやすかったと言える。
ただ、中国人エンジニアにありがちなパターンだが、このサービスの実装で難しかった部分やまだ改善しなければいけない部分などについてはまったく言及されておらず、成功体験、もしくは良いところだけを選択して解説しているように見えたのが残念と言える。質問者が殺到したのも「本当のところはどうなの?」を聞きたかったのかもしれない。中国人エンジニアにとってネガティブな部分を紹介するというのはハードルが高いのかもしれない。
今回のような中国語によるセッションを体験して感じるのは、KubeCon Japanでも日本語によるセッションを解禁して欲しいということだ。やはり母国語ではない言語でプレゼンテーションを行うのは負担が大きいし、解説内容も限定的になってしまうだろう。大多数を占める中国語圏からの参加者の利益を最大限にするためには中国語で行うことが最善であり、それは日本という環境においても同様だろう。英語を母国語とする少数の参加者の利便性を優先するという建前を捨てて、2026年のKubeCon Japanでは日本語によるセッションの解禁を強く願う。
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- KubeCon China 2025開催、中国ベンダーによるキーノートを紹介
- KubeCon EU 2022からバッチシステムをKubernetesで実装するVolcanoを紹介
- KubeCon China 2024、GPUノードのテストツールKWOKを解説するセッションを紹介
- KubeCon Europe 2025、3日目のキーノートでGoogleとByteDanceが行ったセッションを紹介
- KubeCon NA 2024開催、前日の共催カンファレンスからAIワークロードのスケジューリングに関するセッションを紹介
- KubeCon Europe 2025、GoogleとMicrosoftがSIG発の管理用ツールを紹介
- KubeCon North America 2024からAIワークロードのスケジューリングに関するセッションを紹介
- CNDT 2022、ChatworkのSREがSLO策定にカオスエンジニアリングを使った経験を解説
- KubeCon NA 2020 LinkerdとAmbassadorを使ったマルチクラスター通信を紹介
- Red HatがOpenShift向けカオスエンジニアリングツールKrakenを発表