Tin tức về sản phẩm

Nâng cao hiệu quả phát triển ứng dụng Android có sự hỗ trợ của AI và cải thiện các mô hình ngôn ngữ lớn (LLM) bằng Android Bench

2 phút đọc
Matthew McCullough
Phó chủ tịch, Quản lý sản phẩm, Nhà phát triển Android

Chúng tôi muốn giúp bạn xây dựng các ứng dụng Android chất lượng cao một cách nhanh chóng và dễ dàng hơn. Một trong những cách chúng tôi giúp bạn làm việc hiệu quả hơn là cung cấp AI (trí tuệ nhân tạo) ngay trong tầm tay bạn. Chúng tôi biết bạn muốn AI thực sự hiểu rõ các sắc thái của nền tảng Android. Đó là lý do chúng tôi đã đo lường hiệu suất của các LLM trong các tác vụ phát triển Android. Hôm nay, chúng tôi đã phát hành phiên bản đầu tiên của Android Bench, bảng xếp hạng chính thức của chúng tôi về các LLM dành cho quá trình phát triển Android.

Mục tiêu của chúng tôi là cung cấp cho người tạo mô hình một điểm chuẩn để đánh giá khả năng của LLM trong quá trình phát triển Android. Bằng cách thiết lập một đường cơ sở rõ ràng và đáng tin cậy cho quá trình phát triển Android chất lượng cao, chúng tôi đang giúp người tạo mô hình xác định các điểm thiếu sót và đẩy nhanh quá trình cải thiện. Điều này giúp nhà phát triển làm việc hiệu quả hơn với nhiều mô hình hữu ích để lựa chọn cho sự hỗ trợ của AI. Cuối cùng, điều này sẽ dẫn đến các ứng dụng chất lượng cao hơn trong hệ sinh thái Android.

Được thiết kế với các tác vụ phát triển Android trong thế giới thực

Chúng tôi đã tạo điểm chuẩn bằng cách tuyển chọn một tập hợp tác vụ dựa trên nhiều lĩnh vực phát triển Android phổ biến. Tập hợp này bao gồm các thử thách thực tế có độ khó khác nhau, được lấy từ các kho lưu trữ Android công khai trên GitHub. Các tình huống bao gồm giải quyết các thay đổi gây lỗi trên các bản phát hành Android, các tác vụ dành riêng cho miền như kết nối mạng trên thiết bị đeo và di chuyển sang phiên bản mới nhất của Jetpack Compose, v.v.

Mỗi lần đánh giá đều cố gắng để một LLM (mô hình ngôn ngữ lớn) khắc phục vấn đề được báo cáo trong tác vụ. Sau đó, chúng tôi sẽ xác minh bằng các bài kiểm tra đơn vị hoặc kiểm thử đo lường. Phương pháp không phụ thuộc vào mô hình này cho phép chúng tôi đo lường khả năng của một mô hình trong việc điều hướng các cơ sở mã phức tạp, hiểu các phần phụ thuộc và giải quyết các loại vấn đề mà bạn gặp phải hằng ngày. 

Chúng tôi đã xác thực phương pháp này với một số nhà sản xuất LLM, bao gồm cả JetBrains. 

"Việc đo lường tác động của AI đối với Android là một thử thách lớn. Vì vậy, thật tuyệt khi thấy một khung công tác có tính thực tế và hợp lý như vậy. Mặc dù chúng tôi đang tích cực tự đánh giá, nhưng Android Bench là một sự bổ sung độc đáo và đáng hoan nghênh. Phương pháp này chính xác là loại đánh giá nghiêm ngặt mà nhà phát triển Android cần ngay bây giờ." 
- Kirill Smelov, Trưởng bộ phận Tích hợp AI tại JetBrains.

Kết quả đầu tiên của Android Bench

Đối với bản phát hành ban đầu này, chúng tôi muốn chỉ đo lường hiệu suất của mô hình và không tập trung vào việc sử dụng tác nhân hoặc công cụ. Các mô hình đã hoàn thành thành công từ 16% đến 72% tác vụ. Đây là một phạm vi rộng cho thấy một số LLM đã có đường cơ sở vững chắc về kiến thức Android, trong khi những LLM khác có nhiều cơ hội cải thiện hơn. Bất kể các mô hình đang ở đâu, chúng tôi đều dự đoán sẽ có sự cải thiện liên tục khi khuyến khích các nhà sản xuất LLM nâng cao mô hình của họ cho quá trình phát triển Android. 

LLM có điểm trung bình cao nhất cho bản phát hành đầu tiên này là Gemini 3.1 Pro, tiếp theo là Claude Opus 4.6. Bạn có thể dùng thử tất cả các mô hình mà chúng tôi đã đánh giá để được AI hỗ trợ cho các dự án Android của mình bằng cách sử dụng khoá API trong phiên bản ổn định mới nhất của Android Studio.

androidBench2.png

Đảm bảo tính minh bạch cho nhà phát triển và nhà sản xuất LLM

Chúng tôi coi trọng phương pháp tiếp cận mở và minh bạch. Vì vậy, chúng tôi đã công khai phương pháp, tập dữ liệu và bộ kiểm tra của mình trên GitHub.

Một thách thức đối với mọi điểm chuẩn công khai là nguy cơ ô nhiễm dữ liệu, trong đó các mô hình có thể đã thấy các tác vụ đánh giá trong quá trình huấn luyện. Chúng tôi đã thực hiện các biện pháp để đảm bảo kết quả phản ánh khả năng suy luận thực sự thay vì ghi nhớ hoặc đoán, bao gồm cả việc xem xét thủ công kỹ lưỡng các quỹ đạo của tác nhân hoặc tích hợp một chuỗi canary để ngăn chặn quá trình huấn luyện. 

Trong tương lai, chúng tôi sẽ tiếp tục phát triển phương pháp của mình để duy trì tính toàn vẹn của tập dữ liệu, đồng thời cải thiện các bản phát hành điểm chuẩn trong tương lai, chẳng hạn như tăng số lượng và độ phức tạp của các tác vụ.

Chúng tôi mong muốn Android Bench có thể cải thiện sự hỗ trợ của AI về lâu dài. Tầm nhìn của chúng tôi là thu hẹp khoảng cách giữa khái niệm và mã chất lượng. Chúng tôi đang xây dựng nền tảng cho một tương lai mà bất kể bạn hình dung điều gì, bạn đều có thể xây dựng điều đó trên Android. 

Tác giả:

Tiếp tục đọc