プロダクト ニュース

AI を活用した Android 開発の強化と Android Bench による LLM の改善

2 分で読了
Matthew McCullough
Android デベロッパー向けプロダクト マネジメント担当バイス プレジデント

Google は、高品質の Android アプリをより迅速かつ簡単に構築できるようにしたいと考えています。そのために、AI を活用してデベロッパーの生産性を高める取り組みを行っています。デベロッパーの皆様は、Android プラットフォームのニュアンスを真に理解する AI を求めていることを Google は認識しています。そのため、LLM が Android 開発タスクをどのように実行するかを測定してきました。本日、Android 開発向けの LLM の公式リーダーボードである Android Bench の最初のバージョンをリリースしました。

Google の目標は、モデル作成者に Android 開発向けの LLM の機能を評価するためのベンチマークを提供することです。高品質な Android 開発の明確で信頼性の高いベースラインを確立することで、モデル作成者はギャップを特定して改善を加速させることができます。これにより、デベロッパーは AI アシスタンスに役立つ幅広いモデルを選択して、より効率的に作業できるようになります。最終的には、Android エコシステム全体でアプリの品質が向上します。

実際の Android 開発タスクを想定して設計

Google は、Android 開発の幅広い一般的領域を対象としたタスクセットを厳選して、ベンチマークを作成しました。このタスクセットは、GitHub の公開 Android リポジトリから提供された、難易度の異なる実際の課題で構成されています。シナリオには、Android リリースの破壊的変更の解決、ウェアラブルでのネットワーキングなどのドメイン固有のタスク、Jetpack Compose の最新バージョンへの移行などがあります。

各評価では、LLM にタスクで報告された問題を修正させ、その結果をユニットテストまたはインストルメンテーション テストで検証します。このモデルに依存しないアプローチにより、複雑なコードベースをナビゲートし、依存関係を理解し、日常的に発生する問題を解決するモデルの能力を測定できます。

Google は、JetBrains を含む複数の LLM メーカーと協力して、この方法論を検証しました。

Android に対する AI の影響を測定することは非常に困難なため、このような健全で現実的なフレームワークが登場したことは素晴らしいことです。当社は自社のベンチマークを積極的に行っていますが、Android Bench はユニークで歓迎すべき追加機能です。この方法論は、Android デベロッパーが現在必要としている厳格な評価にまさに合致しています。」 
- Kirill Smelov(JetBrains、AI インテグレーション部門責任者)

Android Bench の最初の結果

今回の最初のリリースでは、モデルのパフォーマンスを純粋に測定し、エージェントやツールの使用に焦点を当てないようにしました。モデルはタスクの 16 ~ 72% を正常に完了できました。この範囲は広く、一部の LLM はすでに Android の知識の強力なベースラインを持っている一方で、改善の余地があることを示しています。モデルの現在の状況に関係なく、LLM メーカーが Android 開発向けのモデルを強化することを奨励しているため、今後も改善が続くことが期待されます。

今回の最初のリリースで平均スコアが最も高かった LLM は Gemini 3.1 Pro で、Claude Opus 4.6 がそれに続いています。Android プロジェクトの AI アシスタンスで評価したすべてのモデルを試すには、Android Studio の最新の安定版で API キーを使用します。

androidBench2.png

デベロッパーと LLM メーカーに透明性を提供

Google はオープンで透明性の高いアプローチを重視しているため、方法論、データセット、テストハーネスをGitHub で公開しました

公開ベンチマークの課題の 1 つは、データ汚染のリスクです。モデルがトレーニング プロセス中に評価タスクを目にしている可能性があります。Google は、エージェントの軌跡の徹底的な手動レビューや、トレーニングを抑制するためのカナリア文字列の統合など、結果が暗記や推測ではなく真の推論を反映するように対策を講じています。

今後も、データセットの完全性を維持するために方法論を進化させ、ベンチマークの今後のリリースに向けて改善を進めていきます。たとえば、タスクの量と複雑さを増やします。

Google は、Android Bench が AI アシスタンスを長期的にどのように改善できるかを楽しみにしています。Google のビジョンは、コンセプトと高品質のコードのギャップを埋めることです。Google は、想像したものを Android で構築できる未来の基盤を構築しています。

執筆者:

続きを読む