חדשות על מוצרים

שיפור פיתוח אפליקציות ל-Android בעזרת AI ושיפור מודלים גדולים של שפה (LLM) באמצעות Android Bench

משך הקריאה: 2 דקות
Matthew McCullough
סמנכ"ל ניהול מוצר, Android Developer

אנחנו רוצים לעזור לכם ליצור אפליקציות ל-Android באיכות גבוהה בצורה מהירה וקלה יותר. אחת הדרכים שבהן אנחנו עוזרים לכם לשפר את הפרודוקטיביות היא באמצעות AI. אנחנו יודעים שאתם רוצים AI שמבין באמת את הניואנסים של פלטפורמת Android, ולכן אנחנו בודקים את הביצועים של מודלים גדולים של שפה (LLM) במשימות פיתוח ל-Android. היום השקנו את הגרסה הראשונה של Android Bench, טבלת המובילים הרשמית שלנו של מודלים גדולים של שפה (LLM) לפיתוח Android.

המטרה שלנו היא לספק ליוצרי מודלים נקודת השוואה להערכת היכולות של מודלים גדולים של שפה (LLM) לפיתוח אפליקציות ל-Android. אנחנו עוזרים ליוצרי מודלים לזהות פערים ולשפר את המודלים שלהם מהר יותר, על ידי יצירת בסיס ברור ומהימן להגדרת פיתוח איכותי של אפליקציות ל-Android. כך מפתחים יכולים לעבוד בצורה יעילה יותר עם מגוון רחב יותר של מודלים מועילים של AI, ובסופו של דבר ליצור אפליקציות באיכות גבוהה יותר בסביבת Android.

מבוסס על משימות פיתוח אמיתיות ל-Android

יצרנו את המדד על ידי אוסף של משימות במגוון תחומים נפוצים בפיתוח ל-Android. הוא מורכב מאתגרים אמיתיים ברמות קושי שונות, שנלקחו ממאגרי Android ציבוריים ב-GitHub. דוגמאות לתרחישים: פתרון שינויי תוכנה שעלולים לגרום לכשל בגרסאות שונות של Android, משימות ספציפיות לדומיין כמו רישות בגאדג'טים לבישים ומעבר לגרסה העדכנית של Jetpack פיתוח נייטיב.

בכל הערכה, מנסים לגרום למודל LLM לתקן את הבעיה שדווחה במשימה, ואז מאמתים את התיקון באמצעות בדיקות יחידה או בדיקות מכשור. הגישה הזו לא תלויה במודל ספציפי, והיא מאפשרת לנו למדוד את היכולת של המודל לנווט בבסיסי קוד מורכבים, להבין תלויות ולפתור את סוג הבעיות שאתם נתקלים בהן מדי יום. 

אימתנו את המתודולוגיה הזו עם כמה יוצרי LLM, כולל JetBrains. 

“Measuring AI’s impact on Android is a massive challenge, so it’s great to see a framework that’s this sound and realistic. אנחנו משתמשים באופן פעיל בהשוואה לשוק, ולכן Android Bench הוא תוספת ייחודית ומבורכת. המתודולוגיה הזו היא בדיוק סוג ההערכה הקפדנית שמפתחי Android צריכים כרגע". 
– קיריל סמילוב, ראש תחום שילובי ה-AI ב-JetBrains.

התוצאות הראשונות של Android Bench

בגרסה הראשונית הזו, רצינו למדוד את ביצועי המודל בלבד ולא להתמקד בשימוש בסוכנים או בכלים. המודלים הצליחו להשלים 16-72% מהמשימות. זהו טווח רחב שמראה שלחלק מה-LLM כבר יש בסיס חזק של ידע ב-Android, בעוד שלחלקם יש מקום לשיפור. לא משנה מה מצב המודלים כרגע, אנחנו צופים שיפור מתמשך כי אנחנו מעודדים את יוצרי ה-LLM לשפר את המודלים שלהם לפיתוח לאנדרואיד. 

ה-LLM עם הציון הממוצע הכי גבוה בגרסה הראשונה הזו הוא Gemini 3.1 Pro, ואחריו Claude Opus 4.6. אתם יכולים לנסות את כל המודלים שבדקנו לצורך סיוע מ-AI בפרויקטים של Android באמצעות מפתחות API בגרסה היציבה האחרונה של Android Studio.

androidBench2.png

שקיפות למפתחים וליוצרי מודלים של שפה גדולה (LLM)

אנחנו מאמינים בגישה פתוחה ושקופה, ולכן פרסמנו ב-GitHub את המתודולוגיה, מערך הנתונים ומערכת הבדיקה לשימוש הציבור.

אחד האתגרים בכל מדד השוואה ציבורי הוא הסיכון לזיהום נתונים, שבו יכול להיות שהמודלים ראו משימות הערכה במהלך תהליך האימון שלהם. נקטנו אמצעים כדי לוודא שהתוצאות שלנו משקפות חשיבה רציונלית אמיתית ולא שינון או ניחוש, כולל בדיקה ידנית יסודית של מסלולי הסוכן או שילוב של מחרוזת קנרית כדי למנוע אימון. 

בעתיד, נמשיך לפתח את המתודולוגיה שלנו כדי לשמור על השלמות של מערך הנתונים, וגם נבצע שיפורים בגרסאות הבאות של המדד – למשל, נגדיל את כמות המשימות ואת מורכבותן.

אנחנו מצפים לראות איך Android Bench יכול לשפר את העזרה מ-AI בטווח הארוך. החזון שלנו הוא לגשר על הפער בין קונספט לקוד איכותי. אנחנו מניחים את היסודות לעתיד שבו תוכלו לבנות כל דבר שרק תדמיינו ב-Android. 

נכתב על ידי:

להמשך הקריאה