オンデバイスの生成AI機能の導入
最新の情報によれば、Appleは次世代iPhone 16シリーズにiOS 18でデビューする予定のSiriの生成AIバージョンを搭載するために取り組んでいます。これにより、iPhone上でオンデバイスでの生成AIが可能となり、ユーザーエクスペリエンスが一段と向上する見込みです。
Siriの生成AIバージョンとは
Siriの返答がどのように生成されているかを表すのが「生成AIバージョン」です。
当初のSiriは、開発者があらかじめ作った質問例とそれに対する正解答えから、返事を選んでいました。
しかし、AIの進歩に合わせてSiriも最新の技術を取り入れています。現在のSiriは、ニューラルネットワークというAI技術を使っています。これは、入力された質問文脈から正しい単語を選びながら、自然な文章をグセグセと作り出していきます。
つまりSiriの返事は、人間のように話し合っているといっても過言ではありません。
SiriはAI技術の進化に合わせ、より人間性のある対話力を高めています。
モバイルデバイスにおけるRAM制限の克服
Appleの研究者は、モバイルデバイスのRAM制限を克服する新しい方法を開発しました。これにより、iPhone上で高度な言語モデルを正常に実行することが可能となります。従来の大規模言語モデルではサーバーが必要でしたが、Appleの独自の言語モデルにより、サーバーに頼らずにオンデバイスで処理することができます。
つまり、RAM制限や処理能力の不足があるモバイルデバイスならではの課題をクリアした新技術です。
これにより、Siriは高度なAIモデルをiPhone上で動作させ、応答精度と処理速度が向上する見込みです。サーバ依存から脱却し、オフラインでも高性能な対話が可能になる波及効果が期待できる技術開発だと言えます。
モバイルSoCの量子化によるパフォーマンス向上
モバイルSoCの性能向上により、より大規模な言語モデルの処理が可能になります。Qualcommの最新のSnapdragon 8 Gen 3 SoCは、最大100億パラメータの生成AI言語モデルをサポートできると主張されています。
また、GoogleのGemini Nanoというモバイル向け言語モデルも登場し、パラメータ数を効率的に削減する量子化技術を採用しています。
Gemini Nanoとは
Gemini Nanoはスマホなどの小さな端末で動く人工知能の一種です。通常の人工知能は規模が大きく、スマホの性能では動きません。でも、Gemini Nanoはパラメータ(設定値)の数を他の人工知能よりずっと少なく設計されています。そのため、メモリや処理能力が限られたスマホでも動作できる小型モデルなのです。
質問に答えたり、自然言語を処理したりする力量は、通常の人工知能とほとんど変わりません。他の人工知能はサーバーに依存していますが、Gemini Nanoはスマホ自bodyで学習できるので秘密保持にも優れています。chatボットアプリや翻訳アプリなど、スマホ向けの便利なサービスにGemini Nanoは活用できそうです。
フラッシュストレージを活用したオンボードRAMの補完
Appleの研究者は、フラッシュストレージを利用してデバイスのオンボードシステムRAMを補完する方法を開発しました。これにより、制限されたメモリ容量でも効率的な大規模言語モデルの推論が可能となります。具体的には、ウィンドウ処理と行列のバンドルの組み合わせによって処理速度が向上します。
まとめ
今回の話が本当であれば、Pixel 8 ProとiPhoneの間のAIアシスタント(SiriとGoogleアシスタント)の性能差が来年以降縮小する可能性が高いと考えられますね。
現在、Pixel 8 Proに実装されているGemini Nanoは18億~36億パラメータのLLMモデルですが、Qualcommの新SoCでは最大100億パラメータに対応するため、Googleは性能向上版を搭載するでしょう。
一方、Appleは独自の技術”Flash LLM”でフラッシュストレージをRAM補完に利用し、大容量モデルをiPhone上で実行できる方法を開発しています。次期iPhone 16 Proでは、より高性能なLLMモデルの提供が見込まれますけど、実際のところはまだ未定ですので、過剰な期待は禁物ですよね・・・。
また両社ともにモデル規模の拡大と量子化効率化を進めており、実用レベルのAIアシスタントを提供できる見込みです。以上のことから、2024年以降はオンデバイスAIの競争が激化する可能性が高いので、来年もスマホ市場は盛り上がって行きそうですね。