ارتقای توسعه اندروید با کمک هوش مصنوعی و بهبود LLMها با Android Bench

ما می‌خواهیم ساخت برنامه‌های اندروید با کیفیت بالا را برای شما سریع‌تر و آسان‌تر کنیم، و یکی از راه‌هایی که به شما کمک می‌کنیم تا بهره‌وری بیشتری داشته باشید، قرار دادن هوش مصنوعی در دسترس شماست. ما می‌دانیم که شما هوش مصنوعی می‌خواهید که واقعاً ظرافت‌های پلتفرم اندروید را درک کند، به همین دلیل است که ما نحوه انجام وظایف توسعه اندروید توسط LLMها را اندازه‌گیری کرده‌ایم. امروز اولین نسخه Android Bench ، جدول امتیازات رسمی LLMهای ما برای توسعه اندروید، را منتشر کردیم.

هدف ما این است که به سازندگان مدل، معیاری برای ارزیابی قابلیت‌های LLM برای توسعه اندروید ارائه دهیم. با ایجاد یک مبنای واضح و قابل اعتماد برای آنچه که توسعه اندروید با کیفیت بالا به نظر می‌رسد، ما به سازندگان مدل کمک می‌کنیم تا شکاف‌ها را شناسایی کرده و پیشرفت‌ها را تسریع کنند - که به توسعه‌دهندگان قدرت می‌دهد تا با طیف وسیع‌تری از مدل‌های مفید برای انتخاب به عنوان دستیار هوش مصنوعی، کارآمدتر کار کنند - که در نهایت منجر به برنامه‌های با کیفیت بالاتر در سراسر اکوسیستم اندروید خواهد شد.

طراحی شده با وظایف توسعه اندروید در دنیای واقعی

ما این معیار را با انتخاب مجموعه‌ای از وظایف در برابر طیف وسیعی از حوزه‌های رایج توسعه اندروید ایجاد کردیم. این معیار از چالش‌های واقعی با سختی‌های مختلف تشکیل شده است که از مخازن عمومی اندروید GitHub گرفته شده‌اند. سناریوها شامل حل تغییرات اساسی در نسخه‌های مختلف اندروید، وظایف خاص دامنه مانند شبکه‌سازی در دستگاه‌های پوشیدنی و مهاجرت به آخرین نسخه Jetpack Compose و موارد دیگر می‌شود.

هر ارزیابی تلاش می‌کند تا یک LLM مشکل گزارش شده در وظیفه را برطرف کند، که سپس ما با استفاده از تست‌های واحد یا ابزار دقیق آن را تأیید می‌کنیم. این رویکرد مستقل از مدل به ما امکان می‌دهد تا توانایی یک مدل را در پیمایش پایگاه‌های کد پیچیده، درک وابستگی‌ها و حل انواع مشکلاتی که هر روز با آنها مواجه می‌شوید، بسنجیم.

ما این روش را با چندین سازنده LLM، از جمله JetBrains، اعتبارسنجی کردیم.

« اندازه‌گیری تأثیر هوش مصنوعی بر اندروید یک چالش عظیم است، بنابراین دیدن چارچوبی تا این حد دقیق و واقع‌بینانه بسیار عالی است. در حالی که ما خودمان در زمینه بنچمارک‌گیری فعال هستیم، Android Bench یک افزونه منحصر به فرد و مورد استقبال است. این روش دقیقاً همان نوع ارزیابی دقیقی است که توسعه‌دهندگان اندروید در حال حاضر به آن نیاز دارند.»
- کریل اسملوف، رئیس بخش یکپارچه‌سازی هوش مصنوعی در جت‌برینز

اولین نتایج بنچمارک اندروید

برای این نسخه اولیه، ما می‌خواستیم صرفاً عملکرد مدل را اندازه‌گیری کنیم و روی استفاده از عامل یا ابزار تمرکز نکنیم. مدل‌ها توانستند ۱۶ تا ۷۲ درصد از وظایف را با موفقیت انجام دهند. این طیف وسیعی است که نشان می‌دهد برخی از LLMها از قبل پایه قوی برای دانش اندروید دارند، در حالی که برخی دیگر جای پیشرفت بیشتری دارند. صرف نظر از اینکه مدل‌ها در حال حاضر در کجا قرار دارند، ما پیش‌بینی می‌کنیم که پیشرفت ادامه یابد، زیرا سازندگان LLM را تشویق می‌کنیم تا مدل‌های خود را برای توسعه اندروید بهبود بخشند.

نرم‌افزار LLM با بالاترین میانگین امتیاز برای اولین نسخه، Gemini 3.1 Pro است و پس از آن Claude Opus 4.6 با اختلاف کمی قرار دارد. شما می‌توانید تمام مدل‌هایی را که ما برای کمک هوش مصنوعی برای پروژه‌های اندروید شما ارزیابی کرده‌ایم، با استفاده از کلیدهای API در آخرین نسخه پایدار اندروید استودیو امتحان کنید.

ارائه شفافیت به توسعه‌دهندگان و تولیدکنندگان LLM

ما برای یک رویکرد باز و شفاف ارزش قائلیم، بنابراین روش‌شناسی، مجموعه داده‌ها و ابزار تست خود را در گیت‌هاب در دسترس عموم قرار داده‌ایم.

یکی از چالش‌های هر معیار عمومی، خطر آلودگی داده‌ها است، جایی که مدل‌ها ممکن است در طول فرآیند آموزش خود، وظایف ارزیابی را دیده باشند. ما اقداماتی را انجام داده‌ایم تا اطمینان حاصل کنیم که نتایج ما منعکس کننده استدلال واقعی هستند نه حفظ کردن یا حدس زدن، از جمله بررسی دستی کامل مسیرهای عامل یا ادغام یک رشته قناری برای جلوگیری از آموزش.

با نگاه به آینده، ما به تکامل روش‌شناسی خود برای حفظ یکپارچگی مجموعه داده‌ها ادامه خواهیم داد، ضمن اینکه برای نسخه‌های آینده این معیار نیز بهبودهایی ایجاد خواهیم کرد - برای مثال، افزایش کمیت و پیچیدگی وظایف.

ما مشتاقانه منتظریم که ببینیم اندروید بنچ چگونه می‌تواند در درازمدت به بهبود دستیار هوش مصنوعی کمک کند. چشم‌انداز ما این است که شکاف بین مفهوم و کد باکیفیت را از بین ببریم. ما در حال ساختن پایه و اساس آینده‌ای هستیم که در آن هر آنچه را که تصور می‌کنید، می‌توانید روی اندروید بسازید.

نوشته شده توسط:

Matthew McCullough
معاون رئیس، مدیریت محصول، توسعه‌دهنده اندروید
read_more مشاهده پروفایل

ادامه مطلب

۲ آوریل ۲۰۲۶
۲ آوریل ۲۰۲۶
اخبار محصول
جما ۴: استاندارد جدید برای هوش عامل محلی در اندروید
arrow_forward
امروز، ما توسعه اندروید را با Gemma 4، جدیدترین مدل متن‌باز پیشرفته ما که با استدلال پیچیده و قابلیت‌های فراخوانی خودکار ابزار طراحی شده است، بهبود می‌بخشیم.
Matthew McCullough • ۲ دقیقه مطالعه
- #اندروید استودیو
۲۶ مارس ۲۰۲۶
۲۶ مارس ۲۰۲۶
اخبار محصول
سومین نسخه بتای اندروید ۱۷
arrow_forward
اندروید ۱۷ امروز رسماً با نسخه بتا ۳ به پایداری پلتفرم رسید. این بدان معناست که سطح API قفل شده است؛ شما می‌توانید آزمایش سازگاری نهایی را انجام داده و برنامه‌های هدفمند اندروید ۱۷ خود را به پلی استور ارسال کنید.
Matthew McCullough • ۵ دقیقه مطالعه
- #اندروید ۱۷
- #بتا
۲۶ فوریه ۲۰۲۶
۲۶ فوریه ۲۰۲۶
اخبار محصول
دومین نسخه بتای اندروید ۱۷
arrow_forward
امروز ما دومین نسخه بتای اندروید ۱۷ را منتشر می‌کنیم و به کار خود برای ساخت پلتفرمی که اولویت را به حریم خصوصی، امنیت و عملکرد بهبود یافته می‌دهد، ادامه می‌دهیم.
Matthew McCullough • ۶ دقیقه مطالعه

طراحی شده با وظایف توسعه اندروید در دنیای واقعی

اولین نتایج بنچمارک اندروید

ارائه شفافیت به توسعه‌دهندگان و تولیدکنندگان LLM

نوشته شده توسط:

معاون رئیس، مدیریت محصول، توسعه‌دهنده اندروید

ادامه مطلب

Matthew McCullough • ۲ دقیقه مطالعه

Matthew McCullough • ۵ دقیقه مطالعه

Matthew McCullough • ۶ دقیقه مطالعه

در جریان باشید