Google は、高品質の Android アプリをより迅速かつ簡単に構築できるようにしたいと考えています。生産性を高めるための方法の一つとして、AI を活用しています。Google は、Android プラットフォームのニュアンスを真に理解する AI を求めていることを認識しています。そのため、LLM が Android 開発タスクをどの程度実行できるかを測定してきました。本日、Android 開発向けの LLM の公式リーダーボードである Android Bench の最初のバージョンをリリースしました。
Google の目標は、モデル作成者に Android 開発用の LLM 機能を評価するためのベンチマークを提供することです。高品質な Android 開発の明確で信頼性の高い基準を確立することで、モデル作成者がギャップを特定して改善を加速できるよう支援します。これにより、デベロッパーは AI アシスタンスに役立つ幅広いモデルを選択して、より効率的に作業できるようになります。最終的には、Android エコシステム全体でアプリの品質が向上します。
実際の Android 開発タスクを想定して設計
ベンチマークは、Android 開発の幅広い一般的領域を対象としたタスクセットをキュレートして作成しました。これは、GitHub の公開 Android リポジトリから取得した、難易度の異なる実際の課題で構成されています。シナリオには、Android リリース間の破壊的変更の解決、ウェアラブルのネットワーキングなどのドメイン固有のタスク、Jetpack Compose の最新バージョンへの移行などがあります。
各評価では、LLM がタスクで報告された問題を修正しようとし、その結果を単体テストまたは計測テストで検証します。このモデルに依存しないアプローチにより、複雑なコードベースをナビゲートし、依存関係を理解し、日常的に発生する問題を解決するモデルの能力を測定できます。
この手法は、JetBrains を含む複数の LLM メーカーによって検証されています。
「AI が Android に与える影響を測定することは非常に難しいことなので、このような健全で現実的なフレームワークができたことは素晴らしいことです。Google はベンチマークを積極的に実施していますが、Android Bench はユニークで歓迎すべき追加です。この手法は、まさに今 Android デベロッパーが必要としている厳密な評価です。」
- JetBrains、AI 統合責任者、Kirill Smelov 氏。
最初の Android Bench の結果
今回の初回リリースでは、モデルのパフォーマンスを純粋に測定し、エージェントやツールの使用に焦点を当てないようにしました。モデルはタスクの 16 ~ 72% を正常に完了できました。この範囲は、一部の LLM がすでに Android の知識の強力なベースラインを持っている一方で、他の LLM には改善の余地があることを示しています。現在のモデルの状況に関係なく、LLM メーカーに Android 開発用のモデルの強化を促すことで、継続的な改善が期待されます。
この最初のリリースで最も高い平均スコアを獲得した LLM は Gemini 3.1 Pro で、Claude Opus 4.6 がそれに続いています。Android Studio の最新の安定版で API キーを使用すると、Android プロジェクトの AI アシスタンス用に評価したすべてのモデルを試すことができます。
デベロッパーと LLM メーカーに透明性を提供
Google はオープンで透明性の高いアプローチを重視しているため、Google の手法、データセット、テストハーネスを GitHub で一般公開しています。
公開ベンチマークの課題の一つは、データ汚染のリスクです。モデルがトレーニング プロセス中に評価タスクを認識している可能性があります。エージェントの軌跡の徹底的な手動レビューや、トレーニングを抑制するためのカナリア文字列の統合など、結果が暗記や推測ではなく、真の推論を反映するように対策を講じています。
今後も、データセットの完全性を維持しながら、ベンチマークの将来のリリースに向けて、タスクの量と複雑さを増やすなど、方法論を進化させていきます。
Android Bench が AI アシスタントの長期的な改善にどのように貢献するかを楽しみにしています。私たちのビジョンは、コンセプトと高品質なコードのギャップを埋めることです。Android は、思い描いたものを何でも構築できる未来の基盤を構築しています。
続きを読む
-
プロダクト ニュース
本日、複雑な推論と自律的なツール呼び出し機能を備えた最先端のオープンモデルである Gemma 4 を導入し、Android 開発を強化します。
Matthew McCullough • 所要時間: 2 分
-
プロダクト ニュース
Android 17 は本日、ベータ版 3 で正式にプラットフォームの安定版に到達しました。つまり、API サーフェスがロックされ、最終的な互換性テストを実施して、Android 17 をターゲットとするアプリを Google Play ストアにプッシュできるようになります。
Matthew McCullough • 所要時間: 5 分
-
プロダクト ニュース
本日、Android 17 の 2 つ目のベータ版をリリースします。プライバシー、セキュリティ、洗練されたパフォーマンスを重視したプラットフォームの構築に向けた取り組みを継続しています。
Matthew McCullough • 所要時間: 6 分
メールを受け取る
Android 開発に関する最新の分析情報を毎週メールでお届けします。