ยกระดับการพัฒนา Android ด้วยความช่วยเหลือจาก AI และปรับปรุง LLM ด้วย Android Bench
ใช้เวลาอ่าน 2 นาที
เราต้องการช่วยให้คุณสร้างแอป Android คุณภาพสูงได้ง่ายและรวดเร็วขึ้น และวิธีหนึ่งที่เราใช้เพื่อช่วยให้คุณทำงานได้อย่างมีประสิทธิภาพมากขึ้นคือการนำ AI มาไว้เพียงปลายนิ้วสัมผัส เราทราบว่าคุณต้องการ AI ที่เข้าใจความแตกต่างของแพลตฟอร์ม Android อย่างแท้จริง ซึ่งเป็นเหตุผลที่เราวัดประสิทธิภาพของ LLM ในการทำงานด้านการพัฒนา Android วันนี้เราได้เปิดตัว Android Bench เวอร์ชันแรก ซึ่งเป็นลีดเดอร์บอร์ดอย่างเป็นทางการของ LLM สำหรับการพัฒนา Android
เป้าหมายของเราคือการมอบเกณฑ์มาตรฐานให้ผู้สร้างโมเดลใช้ประเมินความสามารถของ LLM สำหรับการพัฒนา Android การกำหนดเกณฑ์มาตรฐานที่ชัดเจนและเชื่อถือได้สำหรับลักษณะของการพัฒนา Android คุณภาพสูงจะช่วยให้ผู้สร้างโมเดลระบุช่องว่างและเร่งการปรับปรุงได้ ซึ่งจะช่วยให้นักพัฒนาแอปทำงานได้อย่างมีประสิทธิภาพมากขึ้นด้วยโมเดลที่เป็นประโยชน์ที่หลากหลายมากขึ้นเพื่อเลือกใช้ในการรับความช่วยเหลือจาก AI และท้ายที่สุดจะนำไปสู่แอปที่มีคุณภาพสูงขึ้นในระบบนิเวศของ Android
ออกแบบโดยอิงตามงานการพัฒนา Android ในโลกแห่งความเป็นจริง
เราสร้างเกณฑ์มาตรฐานโดยการคัดสรรชุดงานที่อิงตามพื้นที่การพัฒนา Android ทั่วไป ชุดงานนี้ประกอบด้วยความท้าทายที่เกิดขึ้นจริงซึ่งมีความยากแตกต่างกันไป โดยนำมาจากที่เก็บสาธารณะของ GitHub สำหรับ Android สถานการณ์ต่างๆ ได้แก่ การแก้ไขการเปลี่ยนแปลงที่ทำให้เกิดข้อผิดพลาดในการเผยแพร่ Android, งานเฉพาะโดเมน เช่น การสร้างเครือข่ายในอุปกรณ์สวมใส่ และการย้ายข้อมูลไปยัง Jetpack Compose เวอร์ชันล่าสุด เป็นต้น
การประเมินแต่ละครั้งจะพยายามให้ LLM แก้ไขปัญหาที่รายงานในงาน ซึ่งเราจะตรวจสอบโดยใช้การทดสอบหน่วยหรือการทดสอบการทำงาน แนวทางที่ไม่ขึ้นอยู่กับโมเดลนี้ช่วยให้เราวัดความสามารถของโมเดลในการจัดการฐานโค้ดที่ซับซ้อน ทำความเข้าใจการพึ่งพา และแก้ปัญหาที่คุณพบเจอทุกวันได้
เราได้ตรวจสอบความถูกต้องของระเบียบวิธีนี้กับผู้สร้าง LLM หลายราย รวมถึง JetBrains
"การวัดผลกระทบของ AI ต่อ Android เป็นความท้าทายที่ยิ่งใหญ่ ดังนั้นจึงเป็นเรื่องน่ายินดีที่ได้เห็นเฟรมเวิร์กที่มีความสมเหตุสมผลและสมจริงเช่นนี้ แม้ว่าเราจะทำการเปรียบเทียบประสิทธิภาพด้วยตนเองอยู่แล้ว แต่ Android Bench ก็เป็นส่วนเสริมที่ไม่เหมือนใครและน่ายินดี ระเบียบวิธีนี้เป็นการประเมินที่เข้มงวดซึ่งนักพัฒนาแอป Android ต้องการในตอนนี้”
- Kirill Smelov, หัวหน้าฝ่ายการผสานรวม AI ที่ JetBrains
ผลลัพธ์แรกของ Android Bench
สำหรับการเปิดตัวครั้งแรกนี้ เราต้องการวัดประสิทธิภาพของโมเดลอย่างแท้จริงและไม่มุ่งเน้นการใช้ Agentic AI หรือเครื่องมือ โมเดลสามารถทำงานได้สำเร็จ 16-72% ของงาน ช่วงนี้กว้างมาก ซึ่งแสดงให้เห็นว่า LLM บางรายการมีพื้นฐานความรู้เกี่ยวกับ Android ที่แข็งแกร่งอยู่แล้ว ในขณะที่บางรายการยังมีโอกาสปรับปรุงอีกมาก ไม่ว่าโมเดลจะอยู่ในระดับใดในตอนนี้ เราคาดว่าจะมีการปรับปรุงอย่างต่อเนื่องเมื่อเราสนับสนุนให้ผู้สร้าง LLM ปรับปรุงโมเดลสำหรับการพัฒนา Android
LLM ที่มีคะแนนเฉลี่ยสูงสุดสำหรับการเปิดตัวครั้งแรกนี้คือ Gemini 3.1 Pro ตามมาด้วย Claude Opus 4.6 คุณลองใช้โมเดลทั้งหมดที่เราประเมินเพื่อรับความช่วยเหลือจาก AI สำหรับโปรเจ็กต์ Android ได้โดยใช้คีย์ API ใน Android Studio เวอร์ชันเสถียรล่าสุดของ Android Studio
มอบความโปร่งใสแก่นักพัฒนาแอปและผู้สร้าง LLM
เราให้ความสำคัญกับแนวทางที่เปิดกว้างและโปร่งใส ดังนั้นเราจึงเผยแพร่ระเบียบวิธี ชุดข้อมูล และชุดทดสอบต่อสาธารณะใน GitHub
ความท้าทายอย่างหนึ่งของเกณฑ์มาตรฐานสาธารณะคือความเสี่ยงที่ข้อมูลจะปนเปื้อน ซึ่งโมเดลอาจเห็นงานการประเมินระหว่างกระบวนการฝึก เราได้ใช้มาตรการเพื่อให้มั่นใจว่าผลลัพธ์ของเราสะท้อนถึงการให้เหตุผลที่แท้จริงแทนที่จะเป็นการจดจำหรือการคาดเดา ซึ่งรวมถึงการตรวจสอบเส้นทางของ Agent อย่างละเอียดด้วยตนเอง หรือการผสานรวมสตริง Canary เพื่อไม่ให้มีการฝึก
ในอนาคต เราจะยังคงพัฒนาระเบียบวิธีของเราต่อไปเพื่อรักษาความสมบูรณ์ของชุดข้อมูล พร้อมทั้งทำการปรับปรุงสำหรับการเปิดตัวเกณฑ์มาตรฐานในอนาคต เช่น การเพิ่มปริมาณและความซับซ้อนของงาน
เราหวังว่า Android Bench จะช่วยปรับปรุงความช่วยเหลือจาก AI ในระยะยาว วิสัยทัศน์ของเราคือการปิดช่องว่างระหว่างแนวคิดกับโค้ดคุณภาพ เรากำลังวางรากฐานสำหรับอนาคตที่คุณจะสร้างทุกสิ่งที่จินตนาการไว้บน Android ได้
-
ข่าวสารเกี่ยวกับผลิตภัณฑ์งาน Google I/O '26 มีการประกาศที่สำคัญ 17 รายการสำหรับนักพัฒนาแอป Android โดยมุ่งเน้นที่ประสิทธิภาพการทำงานที่นำโดย Agentic AI, Compose First เป็นมาตรฐาน UI และสื่อประสิทธิภาพสูงและการพัฒนาแบบปรับเปลี่ยนได้สำหรับระบบนิเวศที่ขยายตัว
Matthew McCullough • ใช้เวลาอ่าน 8 นาที -
ข่าวสารเกี่ยวกับผลิตภัณฑ์Android กำลังเปลี่ยนจากระบบปฏิบัติการไปเป็นระบบอัจฉริยะ ซึ่งจะสร้างโอกาสในการมีส่วนร่วมกับแอปของคุณมากขึ้น โดยมีการประกาศในวันนี้ระหว่างงาน The Android Show
Matthew McCullough • ใช้เวลาอ่าน 4 นาที -
ข่าวสารเกี่ยวกับผลิตภัณฑ์วันนี้เราจะยกระดับการพัฒนา Android ด้วย Gemma 4 ซึ่งเป็นโมเดลโอเพนซอร์สที่ล้ำสมัยที่สุดของเราที่ออกแบบมาให้มีความสามารถในการให้เหตุผลที่ซับซ้อนและการเรียกใช้เครื่องมือโดยอัตโนมัติ
Matthew McCullough • ใช้เวลาอ่าน 2 นาที
รับข้อมูลเชิงลึกด้านการพัฒนา Android ล่าสุดส่งตรงถึงกล่องจดหมายของคุณ ทุกสัปดาห์