KubeCon Europe 2025、エッジでAIを実行するKubeEdge Sednaのセッションを紹介

KubeCon+CloudNativeCon Europe 2025の併催イベントCloud Native+Kubernetes AI Dayで行われた、エッジとクラウドで推論を分担させる仕組みについて解説したセッションを紹介する。これは「Manage Cloud Native Workloads Across Edge and Cloud Seamlessly Using KubeEdge and WasmEdge」と題されたセッションで、プレゼンターはWasmEdgeの開発元として知られているSecond StateのVivian Hu氏とHuawei CloudのFei Xu氏だ。
最初に解説したのは「どうして推論をエッジ側で行う必要があるのか?」についてである。
ここではエッジ側で推論を実行することでレイテンシーをなくせること、データがエッジ側から出ないことでプライバシーを確保できること、アプリケーションに特化したカスタマイズができること、そしてスケーラビリティなどを挙げている。アプリケーションに特化したという部分では、スマートアグリカルチャーが例として挙げられているのが興味深い。これの実装の例としては、GoogleのTensorFlowを使ってキュウリの選別に機械学習を使ったユースケースが当てはまるだろう。2016年にGoogleのブログで紹介されたこの実装例ではクラウドの使用は必須だったが、それをクラウドを使わずエッジでできるようにすることでコストを抑えることが可能となる。コストに関してはHu氏は言及していないが、レイテンシーやプライバシーとは違う観点でビジネスオーナーにとっては大きな要点だろう。
●参考:キュウリの自動選別:キュウリ農家とディープラーニングをつなぐ TensorFlow
一方、エッジでの推論における課題として、ハードウェアに関する制約、モデルを小さくすることと性能のトレードオフ、クラウドとは異なりモデルやミドルウェア、ツールなどのエコシステムが多様化し過ぎることなどを挙げた。
次のスライドでは、エッジでの推論の実装について必要な特性について説明した。ここでは前のスライドの課題を解決するという内容になっており、軽量であること、どのプラットフォームでも実行可能な移植性を備えること、エッジとクラウドが連携できること、そしてクラウドに対応していることなどを挙げている。3つ目のエッジとクラウドの連携については軽量なアプリケーションはエッジ側で、負荷が高いアプリケーションはクラウド側で実行することで、エッジとクラウドが分担することを説明しているが、この特徴は後述のHuawei Cloudでのデモアプリケーションでの実装と合致していると言える。
Hu氏はSecond Stateが開発をリードしているWasmEdgeについて解説。WasmEdgeはCNCFのインキュベーションプロジェクトであり、軽量高速なWebAssemblyランタイムで多くのユースケースを中国企業において持っていることが特徴的なソフトウェアだ。Second StateのCEOであるMichael Yuan氏は中国出身で、Second Stateは開発部門を中国にも持っていることから中国企業での採用が多いのは納得できる。実際にWasmEdgeのユースケースのページには多くの中国企業が社内ユースとしてWasmEdgeを使っていることがわかる。
●参考:WasmEdge Users and Collaborators
WasmEdgeはWASMのランタイムだが、近年は大規模言語モデルの実行のためのランタイムという訴求にシフトしており、2024年に香港で行われたKubeCon ChinaでもYuan氏がプレゼンテーションを行っていた。
●参考:KubeCon China 2024から、ローカルでLLMを実行するSecond Stateのセッションを紹介
WasmEdgeの特徴としては、軽量かつCPU/GPU/TPU/NPUなどの各種プロセッサで実行できることなどを挙げた。そしてLlamaEdgeについても紹介し、OpenAI互換のAPIを持ち多くのモデルを実行できることを特徴として挙げた。
ここからはHuawei CloudのXu氏にバトンタッチしてLlamaEdgeについて解説を行うターンとなった。
KubeEdgeはエッジとクラウドが連携してコンテナアプリケーションを実行するためのソフトウェアだが、KubeEdgeをベースにLLMの実行にカスタマイズしたのがKubeEdge Sednaという新しいソフトウェアという理解で正しいだろう。
KubeEdge Sednaではクラウドとエッジがそれぞれモデルを持ち、推論を行うことが図式化されている。クラウド側にGlobal Managerと呼ばれるソフトウェアが配備され、クラウドとエッジのノードを管理し、それぞれのLocal Controllerと連携して実行されるという。
ここではクラウドとエッジが協調して推論を行うモデルが解説されているが、興味深いのはエッジ側での推論は浅い(小規模)モデルを使い、その結果が満足できるレベルに達しない場合にクラウド側の深い(大規模)モデルで推論を行うという協調の仕組みだ。このスライドでは「Confidence Level」という用語で示されているが、推論した結果が信頼できるレベルに達しない場合、クラウド側のより大容量のモデルで推論を行うということになる。これはこの後のデモでも示されている内容だ。
このスライドではKubernetesのマニフェストが例示され、エッジとクラウドでそれぞれ違うコンテナイメージが指定され、それぞれ小規模なモデル、大規模なモデルが定義されているのがわかる。
この後、Huawei CloudのXu氏は動画を使ってエッジ側とクラウド側で実装されたイメージデータから画像認識を行うデモを見せた。
ここでのデモは建設現場の写真から作業員がヘルメットを装着しているかどうかを判定するというもので、実際にエッジ側だけの推論ではConfidence Levelが低いケースにおいて、クラウド側でも推論を行うことでより正確な画像認識が可能になったということを見せた。
デモでは同じ画像に対してエッジとクラウドで画像認識を行い、より精度を上げることが可能であることを示している。これは実際のアプリケーションとして稼働しているのか、PoCとしての実装なのか、単なるデモアプリケーションなのかは解説されなかったが、同じ画像に対しての精度が変化していることを見せた内容となった。往々にして中国の企業が行うデモは、いろいろな物が省略されて結果だけを提示する、いわゆるお料理番組風の内容になっていることがある。実際このデモも、クラウドとエッジで協調する際のレイテンシーと品質のトレードオフの詳細などには触れられていなかったのが残念なポイントだと言えるだろう。
また運用の観点ではエッジ側の可用性やオブザーバビリティについても特に言及がなかった。2025年6月に行われるKubeCon Chinaでは多くの中国企業のセッションが行われると思われ、今回のHuawei Cloudのデモについてもより詳細に解説を聴く機会があることを期待したい。
連載バックナンバー
Think ITメルマガ会員登録受付中
全文検索エンジンによるおすすめ記事
- KubeCon China 2024から、ローカルでLLMを実行するSecond Stateのセッションを紹介
- KubeCon China 2024から車載システムの開発をクラウドで行うNIOのセッションを紹介
- KubeCon China:中国ベンダーが大量に登壇した3日目のキーノート
- 写真で見るKubeCon China 2024:欧米では見かけないベンダーが目立っていたショーケース会場を紹介
- WasmCon 2023からLLMをWASMで実装するセッションを紹介
- KubeCon Europe 2024からWASMとeBPFを使ってストリーム処理を解説するセッションを紹介
- Cloud Native Wasm Dayから大規模言語モデルをWasmで実行するデモを解説するセッションを紹介
- 「KubeCon NA 2022」から、WasmEdgeを開発するSecond StateのMichael Yuanのインタビュー
- 「KubeCon NA 2022」のプレカンファレンスからCloudNative Wasm DAYを紹介
- KubeCon EU 2021でRed Hatが発表した複数のKubernetesを制御するkcpを紹介