Berita Produk
Meningkatkan pengembangan Android yang dibantu AI dan meningkatkan kualitas LLM dengan Android Bench
Waktu baca: 2 menit
Kami ingin mempermudah dan mempercepat Anda dalam membangun aplikasi Android berkualitas tinggi, dan salah satu cara kami membantu Anda menjadi lebih produktif adalah dengan menghadirkan AI di ujung jari Anda. Kami tahu Anda menginginkan AI yang benar-benar memahami nuansa platform Android, itulah sebabnya kami mengukur performa LLM dalam tugas pengembangan Android. Hari ini kami merilis versi pertama Android Bench, papan peringkat resmi LLM kami untuk pengembangan Android.
Tujuan kami adalah menyediakan tolok ukur bagi pembuat model untuk mengevaluasi kemampuan LLM dalam pengembangan Android. Dengan menetapkan dasar yang jelas dan andal untuk seperti apa pengembangan Android berkualitas tinggi, kami membantu pembuat model mengidentifikasi kesenjangan dan mempercepat peningkatan—yang memungkinkan developer bekerja lebih efisien dengan berbagai model bermanfaat yang lebih luas untuk dipilih sebagai bantuan AI—yang pada akhirnya akan menghasilkan aplikasi berkualitas lebih tinggi di seluruh ekosistem Android.
Dirancang dengan tugas pengembangan Android dunia nyata
Kami membuat tolok ukur dengan menyusun serangkaian tugas yang mencakup berbagai area pengembangan Android umum. Terdiri dari tantangan nyata dengan tingkat kesulitan yang bervariasi, yang bersumber dari repositori Android GitHub publik. Skenarionya mencakup mengatasi perubahan yang tidak kompatibel di seluruh rilis Android, tugas khusus domain seperti jaringan di perangkat wearable, dan bermigrasi ke Jetpack Compose versi terbaru, dan masih banyak lagi.
Setiap evaluasi mencoba membuat LLM memperbaiki masalah yang dilaporkan dalam tugas, yang kemudian kami verifikasi menggunakan pengujian unit atau instrumentasi. Pendekatan agnostik model ini memungkinkan kita mengukur kemampuan model untuk menavigasi codebase yang kompleks, memahami dependensi, dan memecahkan jenis masalah yang Anda temui setiap hari.
Kami memvalidasi metodologi ini dengan beberapa pembuat LLM, termasuk JetBrains.
“Mengukur dampak AI pada Android adalah tantangan besar, jadi sangat bagus melihat framework yang begitu solid dan realistis ini. Meskipun kami aktif dalam melakukan tolok ukur sendiri, Android Bench adalah tambahan yang unik dan disambut baik. Metodologi ini adalah jenis evaluasi ketat yang dibutuhkan developer Android saat ini.”
- Kirill Smelov, Head of AI Integrations di JetBrains.
Hasil Benchmark Android pertama
Untuk rilis awal ini, kami ingin mengukur performa model secara murni dan tidak berfokus pada penggunaan alat atau agen. Model berhasil menyelesaikan 16-72% tugas. Rentang ini menunjukkan bahwa beberapa LLM sudah memiliki dasar yang kuat untuk pengetahuan Android, sementara yang lain masih perlu ditingkatkan. Terlepas dari kondisi model saat ini, kami mengantisipasi peningkatan berkelanjutan karena kami mendorong pembuat LLM untuk meningkatkan kualitas model mereka untuk pengembangan Android.
LLM dengan skor rata-rata tertinggi untuk rilis pertama ini adalah Gemini 3.1 Pro, diikuti oleh Claude Opus 4.6. Anda dapat mencoba semua model yang kami evaluasi untuk bantuan AI bagi project Android Anda dengan menggunakan kunci API di versi stabil terbaru Android Studio.
Memberikan transparansi kepada developer dan pembuat LLM
Kami menghargai pendekatan yang terbuka dan transparan, jadi kami membuat metodologi, set data, dan test harness tersedia secara publik di GitHub.
Salah satu tantangan untuk tolok ukur publik adalah risiko kontaminasi data, di mana model mungkin telah melihat tugas evaluasi selama proses pelatihannya. Kami telah mengambil langkah-langkah untuk memastikan hasil kami mencerminkan penalaran yang sebenarnya, bukan hafalan atau tebakan, termasuk peninjauan manual menyeluruh terhadap lintasan agen, atau integrasi string canary untuk mencegah pelatihan.
Ke depannya, kami akan terus mengembangkan metodologi kami untuk menjaga integritas set data, sekaligus melakukan peningkatan untuk rilis tolok ukur mendatang—misalnya, meningkatkan kuantitas dan kompleksitas tugas.
Kami menantikan bagaimana Android Bench dapat meningkatkan kualitas bantuan AI dalam jangka panjang. Visi kami adalah memperkecil kesenjangan antara konsep dan kode berkualitas. Kami sedang membangun fondasi untuk masa depan di mana apa pun yang Anda bayangkan, Anda dapat membuatnya di Android.
Lanjutkan membaca
-
Berita Produk
Hari ini, kami meningkatkan pengembangan Android dengan Gemma 4, model open source canggih terbaru kami yang dirancang dengan kemampuan penalaran kompleks dan pemanggilan alat secara mandiri.
Matthew McCullough • Waktu baca: 2 menit
-
Berita Produk
Android 17 secara resmi telah mencapai stabilitas platform hari ini dengan Beta 3. Artinya, permukaan API dikunci; Anda dapat melakukan pengujian kompatibilitas akhir dan mengirimkan aplikasi yang menargetkan Android 17 ke Play Store.
Matthew McCullough • Waktu baca: 5 menit
-
Berita Produk
Hari ini kami merilis versi beta kedua Android 17, melanjutkan upaya kami untuk membangun platform yang memprioritaskan privasi, keamanan, dan performa yang lebih baik.
Matthew McCullough • Waktu baca: 6 menit
Terus dapatkan informasi
Dapatkan insight pengembangan Android terbaru yang dikirim ke kotak masuk Anda setiap minggu.