प्रॉडक्ट से जुड़ी खबरें
Android Bench की मदद से, एआई की मदद से Android ऐप्लिकेशन बनाने की प्रोसेस को बेहतर बनाना और एलएलएम को बेहतर बनाना
दो मिनट में पढ़ें
हम चाहते हैं कि आप अच्छी क्वालिटी वाले Android ऐप्लिकेशन को तेज़ी से और आसानी से बना सकें. हम एआई को आपके लिए उपलब्ध करा रहे हैं, ताकि आप ज़्यादा से ज़्यादा काम कर सकें. हम जानते हैं कि आपको ऐसा एआई चाहिए जो Android प्लैटफ़ॉर्म की बारीकियों को समझता हो. इसलिए, हम यह मेज़र कर रहे हैं कि एलएलएम, Android डेवलपमेंट के टास्क कैसे पूरे करते हैं. आज हमने Android Bench का पहला वर्शन रिलीज़ किया है. यह Android डेवलपमेंट के लिए, LLM का आधिकारिक लीडरबोर्ड है.
हमारा लक्ष्य, मॉडल क्रिएटर्स को एक ऐसा बेंचमार्क उपलब्ध कराना है जिससे वे Android ऐप्लिकेशन बनाने के लिए, एलएलएम की क्षमताओं का आकलन कर सकें. Android ऐप्लिकेशन बनाने के लिए, बेहतर क्वालिटी के स्टैंडर्ड तय करके हम मॉडल क्रिएटर्स की मदद कर रहे हैं. इससे वे कमियों का पता लगा सकते हैं और उन्हें तेज़ी से ठीक कर सकते हैं. इससे डेवलपर को ज़्यादा असरदार तरीके से काम करने में मदद मिलती है. साथ ही, वे एआई की मदद पाने के लिए, ज़्यादा मददगार मॉडल चुन सकते हैं. इससे Android ईकोसिस्टम में बेहतर क्वालिटी वाले ऐप्लिकेशन उपलब्ध कराए जा सकेंगे.
इसे Android डेवलपमेंट के असल टास्क के हिसाब से डिज़ाइन किया गया है
हमने Android डेवलपमेंट के सामान्य क्षेत्रों से जुड़े टास्क का एक सेट तैयार करके, बेंचमार्क बनाया है. इसमें अलग-अलग मुश्किल लेवल की असली चुनौतियां शामिल हैं. इन्हें सार्वजनिक तौर पर उपलब्ध GitHub Android रिपॉज़िटरी से लिया गया है. इनमें Android के अलग-अलग वर्शन में होने वाले बड़े बदलावों को ठीक करना, डोमेन से जुड़े टास्क (जैसे, पहनने लायक डिवाइसों पर नेटवर्किंग) करना, और Jetpack Compose के नए वर्शन पर माइग्रेट करना शामिल है.
हर आकलन में, एलएलएम को टास्क में बताई गई समस्या को ठीक करने के लिए कहा जाता है. इसके बाद, हम यूनिट या इंस्ट्रुमेंटेशन टेस्ट का इस्तेमाल करके इसकी पुष्टि करते हैं. इस मॉडल-अग्नोस्टिक अप्रोच से, हमें यह पता चलता है कि कोई मॉडल, मुश्किल कोडबेस को नेविगेट करने, डिपेंडेंसी को समझने, और रोज़मर्रा की समस्याओं को हल करने में कितना सक्षम है.
हमने इस तरीके की पुष्टि, एलएलएम बनाने वाली कई कंपनियों के साथ की है. इनमें JetBrains भी शामिल है.
“Android पर एआई के असर का आकलन करना एक बड़ी चुनौती है. इसलिए, इस तरह के फ़्रेमवर्क को देखना बहुत अच्छा है, जो भरोसेमंद और असलियत के काफ़ी करीब है. हम खुद को बेंचमार्क करने के लिए लगातार काम कर रहे हैं. ऐसे में, Android Bench एक यूनीक और बेहतरीन प्लैटफ़ॉर्म है. यह तरीका, Android डेवलपर के लिए काफ़ी मददगार है.”
- किरिल स्मेलोव, हेड ऑफ़ एआई इंटिग्रेशन, JetBrains.
Android Bench के पहले नतीजे
इस शुरुआती रिलीज़ के लिए, हम सिर्फ़ मॉडल की परफ़ॉर्मेंस को मेज़र करना चाहते थे. हमारा फ़ोकस, एजेंटिक या टूल के इस्तेमाल पर नहीं था. मॉडल, 16 से 72% टास्क को पूरा कर पाए. यह एक बड़ी रेंज है. इससे पता चलता है कि कुछ एलएलएम के पास Android के बारे में पहले से ही अच्छी जानकारी है, जबकि अन्य एलएलएम में सुधार की गुंजाइश है. फ़िलहाल, मॉडल की परफ़ॉर्मेंस कैसी भी हो, हमें उम्मीद है कि इसमें लगातार सुधार होता रहेगा. ऐसा इसलिए, क्योंकि हम एलएलएम बनाने वाली कंपनियों को Android डेवलपमेंट के लिए अपने मॉडल को बेहतर बनाने के लिए बढ़ावा दे रहे हैं.
पहली रिलीज़ के लिए, सबसे ज़्यादा औसत स्कोर पाने वाला एलएलएम Gemini 3.1 Pro है. इसके बाद, Claude Opus 4.6 का स्कोर सबसे ज़्यादा है. हमने Android प्रोजेक्ट के लिए, एआई की मदद से काम करने वाले जिन मॉडल का आकलन किया है उन्हें आज़माया जा सकता है. इसके लिए, Android Studio के नए स्टेबल वर्शन में एपीआई पासकोड का इस्तेमाल करें.
डेवलपर और एलएलएम बनाने वालों को पारदर्शिता के साथ जानकारी देना
हम खुले और पारदर्शी तरीके को अहमियत देते हैं. इसलिए, हमने अपनी कार्यप्रणाली, डेटासेट, और टेस्ट हार्नेस को GitHub पर सार्वजनिक तौर पर उपलब्ध कराया है.
किसी भी सार्वजनिक बेंचमार्क के लिए, डेटा में गड़बड़ी होने का जोखिम एक चुनौती है. ऐसा इसलिए, क्योंकि ट्रेनिंग के दौरान मॉडल ने आकलन के टास्क देखे हो सकते हैं. हमने यह पक्का करने के लिए कई कदम उठाए हैं कि हमारे जवाब, रटकर या अंदाज़ा लगाकर नहीं दिए गए हैं, बल्कि सही तर्क के साथ दिए गए हैं. इनमें एजेंट के जवाबों की मैन्युअल तरीके से पूरी समीक्षा करना या ट्रेनिंग को हतोत्साहित करने के लिए कैनरी स्ट्रिंग को इंटिग्रेट करना शामिल है.
हम आने वाले समय में, डेटासेट की अखंडता को बनाए रखने के लिए, अपनी कार्यप्रणाली को बेहतर बनाते रहेंगे. साथ ही, बेंचमार्क के आने वाले वर्शन में सुधार करते रहेंगे. उदाहरण के लिए, टास्क की संख्या और जटिलता को बढ़ाना.
हम यह देखने के लिए उत्सुक हैं कि Android Bench, एआई की मदद से काम करने वाली सुविधाओं को लंबे समय तक कैसे बेहतर बना सकता है. हमारा लक्ष्य, कॉन्सेप्ट और अच्छी क्वालिटी के कोड के बीच के अंतर को कम करना है. हम आने वाले समय के लिए, Android को इस तरह से तैयार कर रहे हैं कि आप जो भी चाहें, उसे Android पर बना सकें.
पढ़ना जारी रखें
-
प्रॉडक्ट से जुड़ी खबरें
आज The Android Show के दौरान यह एलान किया गया कि Android, ऑपरेटिंग सिस्टम से इंटेलिजेंस सिस्टम में बदल रहा है. इससे आपके ऐप्लिकेशन के साथ लोगों की दिलचस्पी बढ़ाने के ज़्यादा अवसर मिलेंगे.
Matthew McCullough • 4 मिनट में पढ़ें
-
प्रॉडक्ट से जुड़ी खबरें
आज हम Android डेवलपमेंट को Gemma 4 की मदद से बेहतर बना रहे हैं. यह हमारा सबसे नया और बेहतरीन ओपन मॉडल है. इसे जटिल तर्कों और ऑटोनॉमस टूल-कॉलिंग की क्षमताओं के साथ डिज़ाइन किया गया है.
Matthew McCullough • दो मिनट में पढ़ें
-
प्रॉडक्ट से जुड़ी खबरें
Android 17 का बीटा 3 वर्शन आज आधिकारिक तौर पर लॉन्च हो गया है. इसका मतलब है कि एपीआई की सतह लॉक हो गई है. अब, डिवाइस के साथ काम करने से जुड़ी फ़ाइनल टेस्टिंग की जा सकती है. साथ ही, Android 17 को टारगेट करने वाले ऐप्लिकेशन को Play Store पर पुश किया जा सकता है.
Matthew McCullough • पांच मिनट में पढ़ें
अप-टू-डेट रहें
Android डेवलपमेंट से जुड़ी नई अहम जानकारी, हर हफ़्ते अपने इनबॉक्स में पाएं.