
2026 年、オンデバイス AI への移行 — いくつかの観察
最近、特定の劇的な出来事を伴わずに、徐々に見えやすくなってきた方向性があります。AI のワークロードのうちかなりの割合が、クラウドから再び端末に戻ってきているということです。予測ではなく、自分たちの仕事と評価しているツールの中で観察されている事実として記しておきます。
この移行は一様ではありません。重い学習はデータセンターに残ります — そこは変わっていません。しかし日常的なタスクの推論 — 音声認識、文字起こし、その場の翻訳、コード補完、画像の整え、簡単な要約 — はますます利用者のマシン上で動くようになっています。とくに知識労働者が実際に使う macOS / Windows ラップトップ上で。
静かに効いているイネーブラが三つあります。第一にモデルサイズが現実的になったこと。量子化、蒸留、アーキテクチャの反復によって、2023 年にはサーバが必要だったモデルが、いまではコンシューマ向けラップトップで動きます。第二に端末側のアクセラレータが追いついたこと。Apple Silicon、最新の統合 GPU、近年の x86 プラットフォームの専用 NPU により、ローカル推論は「ローカルらしさ」を感じられる速度に達しました。第三にランタイム層 — コンパクトなモデルを汎用ハードウェアで走らせる OSS フレームワーク群 — が、2 年前にはなかった成熟度に達したこと。
ツールを作る側から見ると、「推論をどこで行うか」を選べるようになった、ということです。以前はその選択肢自体がありませんでした。クラウドか、もしくは諦めるか、でした。

指摘しておきたい示唆は四つあります。一つ目はレイテンシ。ローカルで動くものはサーバへのラウンドトリップを避けられ、インタラクティブな用途 — 音声入力、補完、サジェスト — では 80ms と 800ms の体感差は決定的です。二つ目はプライバシー。ホットパスがローカルに移ると、「何が端末から出ていくか」がデフォルトの結果ではなく製品としての決定事項になります。三つ目は信頼性。飛行機の中、トンネルの中、悪い Wi-Fi、外向き通信が制限された社内ネットワーク、いずれでも動きます。四つ目はコスト構造。API 呼び出しがなければ、呼び出しごとの課金は積み上がりません。
ただしどれも絶対ではありません。要求の高いタスクでは、ローカル推論はいまだに最大級のクラウドモデルに有意に劣ります。クラウドが本当に必要な作業もあります。多くの製品にとって正解は「常にローカル」でも「常にクラウド」でもなく、ホットパスはローカル、重い処理や稀な処理はリモート、というハイブリッドです。
面白い設計上の問いは「製品に AI を入れるか」ではなくなりました。問いは、どの能力が即時でなければならないか、どれが二秒待てるか、どれは時々動けば十分か、です。それぞれの答えが別々のランタイム位置にマップされます。このマッピングを当てた製品は速く安定して感じられ、すべてをクラウドに置いた製品は遅く脆く感じられ、すべてをローカルに置いた製品は能力的に物足りなく感じられるはずです。
我々自身はしばらく前からこの前提で動いています。ORDO(旧称 HUM)はコアパスをローカルで動かしています。他のツールも同じ形 — 利用者に向くループはデバイス上で締めて、ネットワークに出るのは明確に値打ちがある作業のときだけ — をとっています。これが今後数年のデスクトップ AI ツールのデフォルト形になると我々は見ています。


