ما میخواهیم ساخت برنامههای اندروید با کیفیت بالا را برای شما سریعتر و آسانتر کنیم، و یکی از راههایی که به شما کمک میکنیم تا بهرهوری بیشتری داشته باشید، قرار دادن هوش مصنوعی در دسترس شماست. ما میدانیم که شما هوش مصنوعی میخواهید که واقعاً ظرافتهای پلتفرم اندروید را درک کند، به همین دلیل است که ما نحوه انجام وظایف توسعه اندروید توسط LLMها را اندازهگیری کردهایم. امروز اولین نسخه Android Bench ، جدول امتیازات رسمی LLMهای ما برای توسعه اندروید، را منتشر کردیم.
هدف ما این است که به سازندگان مدل، معیاری برای ارزیابی قابلیتهای LLM برای توسعه اندروید ارائه دهیم. با ایجاد یک مبنای واضح و قابل اعتماد برای آنچه که توسعه اندروید با کیفیت بالا به نظر میرسد، ما به سازندگان مدل کمک میکنیم تا شکافها را شناسایی کرده و پیشرفتها را تسریع کنند - که به توسعهدهندگان قدرت میدهد تا با طیف وسیعتری از مدلهای مفید برای انتخاب به عنوان دستیار هوش مصنوعی، کارآمدتر کار کنند - که در نهایت منجر به برنامههای با کیفیت بالاتر در سراسر اکوسیستم اندروید خواهد شد.
طراحی شده با وظایف توسعه اندروید در دنیای واقعی
ما این معیار را با انتخاب مجموعهای از وظایف در برابر طیف وسیعی از حوزههای رایج توسعه اندروید ایجاد کردیم. این معیار از چالشهای واقعی با سختیهای مختلف تشکیل شده است که از مخازن عمومی اندروید GitHub گرفته شدهاند. سناریوها شامل حل تغییرات اساسی در نسخههای مختلف اندروید، وظایف خاص دامنه مانند شبکهسازی در دستگاههای پوشیدنی و مهاجرت به آخرین نسخه Jetpack Compose و موارد دیگر میشود.
هر ارزیابی تلاش میکند تا یک LLM مشکل گزارش شده در وظیفه را برطرف کند، که سپس ما با استفاده از تستهای واحد یا ابزار دقیق آن را تأیید میکنیم. این رویکرد مستقل از مدل به ما امکان میدهد تا توانایی یک مدل را در پیمایش پایگاههای کد پیچیده، درک وابستگیها و حل انواع مشکلاتی که هر روز با آنها مواجه میشوید، بسنجیم.
ما این روش را با چندین سازنده LLM، از جمله JetBrains، اعتبارسنجی کردیم.
« اندازهگیری تأثیر هوش مصنوعی بر اندروید یک چالش عظیم است، بنابراین دیدن چارچوبی تا این حد دقیق و واقعبینانه بسیار عالی است. در حالی که ما خودمان در زمینه بنچمارکگیری فعال هستیم، Android Bench یک افزونه منحصر به فرد و مورد استقبال است. این روش دقیقاً همان نوع ارزیابی دقیقی است که توسعهدهندگان اندروید در حال حاضر به آن نیاز دارند.»
- کریل اسملوف، رئیس بخش یکپارچهسازی هوش مصنوعی در جتبرینز
اولین نتایج بنچمارک اندروید
برای این نسخه اولیه، ما میخواستیم صرفاً عملکرد مدل را اندازهگیری کنیم و روی استفاده از عامل یا ابزار تمرکز نکنیم. مدلها توانستند ۱۶ تا ۷۲ درصد از وظایف را با موفقیت انجام دهند. این طیف وسیعی است که نشان میدهد برخی از LLMها از قبل پایه قوی برای دانش اندروید دارند، در حالی که برخی دیگر جای پیشرفت بیشتری دارند. صرف نظر از اینکه مدلها در حال حاضر در کجا قرار دارند، ما پیشبینی میکنیم که پیشرفت ادامه یابد، زیرا سازندگان LLM را تشویق میکنیم تا مدلهای خود را برای توسعه اندروید بهبود بخشند.
نرمافزار LLM با بالاترین میانگین امتیاز برای اولین نسخه، Gemini 3.1 Pro است و پس از آن Claude Opus 4.6 با اختلاف کمی قرار دارد. شما میتوانید تمام مدلهایی را که ما برای کمک هوش مصنوعی برای پروژههای اندروید شما ارزیابی کردهایم، با استفاده از کلیدهای API در آخرین نسخه پایدار اندروید استودیو امتحان کنید.

ارائه شفافیت به توسعهدهندگان و تولیدکنندگان LLM
ما برای یک رویکرد باز و شفاف ارزش قائلیم، بنابراین روششناسی، مجموعه دادهها و ابزار تست خود را در گیتهاب در دسترس عموم قرار دادهایم.
یکی از چالشهای هر معیار عمومی، خطر آلودگی دادهها است، جایی که مدلها ممکن است در طول فرآیند آموزش خود، وظایف ارزیابی را دیده باشند. ما اقداماتی را انجام دادهایم تا اطمینان حاصل کنیم که نتایج ما منعکس کننده استدلال واقعی هستند نه حفظ کردن یا حدس زدن، از جمله بررسی دستی کامل مسیرهای عامل یا ادغام یک رشته قناری برای جلوگیری از آموزش.
با نگاه به آینده، ما به تکامل روششناسی خود برای حفظ یکپارچگی مجموعه دادهها ادامه خواهیم داد، ضمن اینکه برای نسخههای آینده این معیار نیز بهبودهایی ایجاد خواهیم کرد - برای مثال، افزایش کمیت و پیچیدگی وظایف.
ما مشتاقانه منتظریم که ببینیم اندروید بنچ چگونه میتواند در درازمدت به بهبود دستیار هوش مصنوعی کمک کند. چشمانداز ما این است که شکاف بین مفهوم و کد باکیفیت را از بین ببریم. ما در حال ساختن پایه و اساس آیندهای هستیم که در آن هر آنچه را که تصور میکنید، میتوانید روی اندروید بسازید.
ادامه مطلب

اخبار محصول
امروز، ما توسعه اندروید را با Gemma 4، جدیدترین مدل متنباز پیشرفته ما که با استدلال پیچیده و قابلیتهای فراخوانی خودکار ابزار طراحی شده است، بهبود میبخشیم.
Matthew McCullough • ۲ دقیقه مطالعه

اخبار محصول
اندروید ۱۷ امروز رسماً با نسخه بتا ۳ به پایداری پلتفرم رسید. این بدان معناست که سطح API قفل شده است؛ شما میتوانید آزمایش سازگاری نهایی را انجام داده و برنامههای هدفمند اندروید ۱۷ خود را به پلی استور ارسال کنید.
Matthew McCullough • ۵ دقیقه مطالعه

اخبار محصول
امروز ما دومین نسخه بتای اندروید ۱۷ را منتشر میکنیم و به کار خود برای ساخت پلتفرمی که اولویت را به حریم خصوصی، امنیت و عملکرد بهبود یافته میدهد، ادامه میدهیم.
Matthew McCullough • ۶ دقیقه مطالعه
در جریان باشید
جدیدترین بینشهای توسعه اندروید را به صورت هفتگی در صندوق ورودی خود دریافت کنید.


