プロダクト ニュース

自動プロンプト最適化により ML Kit の GenAI Prompt API の品質が向上する仕組み

所要時間: 3 分

自動プロンプト最適化(APO)

ML Kit Prompt API のユースケースを本番環境に導入するうえで、Vertex AI のオンデバイス モデルを対象とした自動プロンプト最適化(APO)を発表できることを嬉しく思います。自動プロンプト最適化は、ユースケースに最適なプロンプトを自動的に見つけるのに役立つツールです。

オンデバイス AI の時代は、もはや約束ではなく、現実のものとなっています。Gemini Nano v3 のリリースにより、前例のない言語理解とマルチモーダル機能をユーザーの手のひらに直接提供します。Gemini Nano モデル ファミリーを通じて、Android エコシステム全体でサポートされているデバイスを幅広くカバーしています。しかし、次世代のインテリジェント アプリを構築するデベロッパーにとって、強力なモデルへのアクセスは最初のステップにすぎません。真の課題はカスタマイズです。モバイル ハードウェアの制約を破ることなく、特定のユースケースに合わせて基盤モデルをエキスパート レベルのパフォーマンスに調整するにはどうすればよいでしょうか?

サーバーサイドの世界では、大規模な LLM は高性能で、ドメイン適応の必要性が少ない傾向があります。必要に応じて、LoRA(Low-Rank Adaptation)ファインチューニングなどのより高度なオプションも実行可能です。ただし、Android AICore の独自のアーキテクチャでは、共有のメモリ効率の高いシステムモデルが優先されます。つまり、個々のアプリごとにカスタム LoRA アダプタをデプロイすると、これらの共有システム サービスに課題が生じます。

しかし、同等の影響を与える別の方法があります。Vertex AI の Automated Prompt Optimization(APO)を活用することで、デベロッパーはネイティブの Android 実行環境内でシームレスに作業しながら、ファインチューニングに近い品質を実現できます。優れたシステム指示に焦点を当てることで、APO を使用すると、従来のファインチューニング ソリューションよりも堅牢性と拡張性に優れた方法でモデルの動作を調整できます。

注: Gemini Nano V3 は、高い評価を得ている Gemma 3N モデルの品質最適化バージョンです。オープンソースの Gemma 3N モデルで行われたプロンプトの最適化は、Gemini Nano V3 にも適用されます。サポートされているデバイスでは、ML Kit GenAI API は nano-v3 モデルを活用して、Android デベロッパー向けの品質を最大限に高めます。

APO ブロック図.jpg

APO は、プロンプトを静的なテキストではなく、最適化可能なプログラマブルなサーフェスとして扱います。サーバーサイド モデル(Gemini Pro や Flash など)を活用して、プロンプトを提案し、バリエーションを評価して、特定のタスクに最適なプロンプトを見つけます。このプロセスでは、パフォーマンスを最大化するために 3 つの特定の技術メカニズムが使用されます。

  1. 自動エラー分析: APO は、トレーニング データからエラー パターンを分析し、初期プロンプトの特定の弱点を自動的に特定します。
  2. セマンティック命令の蒸留: 大量のトレーニング例を分析してタスクの「真の意図」を抽出し、実際のデータ分布をより正確に反映した指示を作成します。
  3. 並列候補テスト: APO は、一度に 1 つのアイデアをテストするのではなく、多数のプロンプト候補を並行して生成してテストし、品質のグローバル最大値を特定します。

APO がファインチューニングの品質にアプローチできる理由

ファインチューニングは常にプロンプトよりも品質が向上するという誤解がよくあります。Gemini Nano v3 などの最新の基盤モデルでは、プロンプト エンジニアリング自体が大きな影響を与える可能性があります。

  • 汎用機能の維持: ファインチューニング(PEFT/LoRA)では、モデルの重みが特定のデータ分布に過剰にインデックス登録されます。多くの場合、これにより「壊滅的な忘却」が発生し、モデルは特定の構文には優れるものの、一般的なロジックや安全性には劣るようになります。APO は重みを変更しないため、ベースモデルの機能が維持されます。
  • 指示の実行と戦略の発見: Gemini Nano v3 は、複雑なシステム指示に従うように厳密にトレーニングされています。APO は、モデルの潜在的な能力を引き出す正確な指示構造を見つけることで、この点を活用します。多くの場合、人間のエンジニアが見つけるのが難しい戦略を発見します。

このアプローチを検証するために、さまざまな本番環境ワークロードで APO を評価しました。Google の検証では、さまざまなユースケースで一貫して 5 ~ 8% の精度向上が確認されています。APO は、複数のオンデバイス機能で品質を大幅に向上させました。

ユースケースタスクタイプタスクの説明指標APO の改善
トピック分類テキスト分類ニュース記事を金融やスポーツなどのトピックに分類する精度+5%
インテント分類テキスト分類カスタマー サービス クエリをインテントに分類する精度+8.0%
ウェブページの翻訳テキスト翻訳ウェブページを英語からローカル言語に翻訳するBLEU+8.57%

シームレスなエンドツーエンドのデベロッパー ワークフロー

ファインチューニングは常にプロンプトよりも品質が向上するという誤解がよくあります。Gemini Nano v3 などの最新の基盤モデルでは、プロンプト エンジニアリング自体が大きな影響を与える可能性があります。

  • 汎用機能の維持: ファインチューニング(PEFT/LoRA)では、モデルの重みが特定のデータ分布に過剰にインデックス登録されます。多くの場合、これにより「壊滅的な忘却」が発生し、モデルは特定の構文には優れるものの、一般的なロジックや安全性には劣るようになります。APO は重みを変更しないため、ベースモデルの機能が維持されます。
  • 指示の実行と戦略の発見: Gemini Nano v3 は、複雑なシステム指示に従うように厳密にトレーニングされています。APO は、モデルの潜在的な能力を引き出す正確な指示構造を見つけることで、この点を活用します。多くの場合、人間のエンジニアが見つけるのが難しい戦略を発見します。

このアプローチを検証するために、さまざまな本番環境ワークロードで APO を評価しました。Google の検証では、さまざまなユースケースで一貫して 5 ~ 8% の精度向上が確認されています。APO は、複数のオンデバイス機能で品質を大幅に向上させました。

まとめ

自動プロンプト最適化(APO)のリリースは、オンデバイスの生成 AI の転換点となります。基盤モデルとエキスパート レベルのパフォーマンスのギャップを埋めることで、デベロッパーがより堅牢なモバイル アプリケーションを構築するためのツールを提供します。ゼロショット最適化を始めたばかりの場合でも、データドリブンの改善で本番環境にスケーリングする場合でも、高品質なオンデバイス インテリジェンスへの道筋がより明確になりました。ML Kit の Prompt API と Vertex AI の Automated Prompt Optimization を使用して、オンデバイスのユースケースを今すぐ本番環境にリリースしましょう。

関連リンク: 

作成者:

続きを読む