ข่าวสารเกี่ยวกับผลิตภัณฑ์

ยกระดับการพัฒนา Android ด้วยความช่วยเหลือจาก AI และปรับปรุง LLM ด้วย Android Bench

ใช้เวลาอ่าน 2 นาที
ดูโปรไฟล์ของ Matthew McCullough
Matthew McCullough รองประธานฝ่ายจัดการผลิตภัณฑ์ นักพัฒนาแอป Android

เราต้องการช่วยให้คุณสร้างแอป Android คุณภาพสูงได้ง่ายและรวดเร็วขึ้น และวิธีหนึ่งที่เราใช้เพื่อช่วยให้คุณทำงานได้อย่างมีประสิทธิภาพมากขึ้นคือการนำ AI มาไว้เพียงปลายนิ้วสัมผัส เราทราบว่าคุณต้องการ AI ที่เข้าใจความแตกต่างของแพลตฟอร์ม Android อย่างแท้จริง ซึ่งเป็นเหตุผลที่เราวัดประสิทธิภาพของ LLM ในการทำงานด้านการพัฒนา Android วันนี้เราได้เปิดตัว Android Bench เวอร์ชันแรก ซึ่งเป็นลีดเดอร์บอร์ดอย่างเป็นทางการของ LLM สำหรับการพัฒนา Android

เป้าหมายของเราคือการมอบเกณฑ์มาตรฐานให้ผู้สร้างโมเดลใช้ประเมินความสามารถของ LLM สำหรับการพัฒนา Android การกำหนดเกณฑ์มาตรฐานที่ชัดเจนและเชื่อถือได้สำหรับลักษณะของการพัฒนา Android คุณภาพสูงจะช่วยให้ผู้สร้างโมเดลระบุช่องว่างและเร่งการปรับปรุงได้ ซึ่งจะช่วยให้นักพัฒนาแอปทำงานได้อย่างมีประสิทธิภาพมากขึ้นด้วยโมเดลที่เป็นประโยชน์ที่หลากหลายมากขึ้นเพื่อเลือกใช้ในการรับความช่วยเหลือจาก AI และท้ายที่สุดจะนำไปสู่แอปที่มีคุณภาพสูงขึ้นในระบบนิเวศของ Android

ออกแบบโดยอิงตามงานการพัฒนา Android ในโลกแห่งความเป็นจริง

เราสร้างเกณฑ์มาตรฐานโดยการคัดสรรชุดงานที่อิงตามพื้นที่การพัฒนา Android ทั่วไป ชุดงานนี้ประกอบด้วยความท้าทายที่เกิดขึ้นจริงซึ่งมีความยากแตกต่างกันไป โดยนำมาจากที่เก็บสาธารณะของ GitHub สำหรับ Android สถานการณ์ต่างๆ ได้แก่ การแก้ไขการเปลี่ยนแปลงที่ทำให้เกิดข้อผิดพลาดในการเผยแพร่ Android, งานเฉพาะโดเมน เช่น การสร้างเครือข่ายในอุปกรณ์สวมใส่ และการย้ายข้อมูลไปยัง Jetpack Compose เวอร์ชันล่าสุด เป็นต้น

การประเมินแต่ละครั้งจะพยายามให้ LLM แก้ไขปัญหาที่รายงานในงาน ซึ่งเราจะตรวจสอบโดยใช้การทดสอบหน่วยหรือการทดสอบการทำงาน แนวทางที่ไม่ขึ้นอยู่กับโมเดลนี้ช่วยให้เราวัดความสามารถของโมเดลในการจัดการฐานโค้ดที่ซับซ้อน ทำความเข้าใจการพึ่งพา และแก้ปัญหาที่คุณพบเจอทุกวันได้

เราได้ตรวจสอบความถูกต้องของระเบียบวิธีนี้กับผู้สร้าง LLM หลายราย รวมถึง JetBrains

"การวัดผลกระทบของ AI ต่อ Android เป็นความท้าทายที่ยิ่งใหญ่ ดังนั้นจึงเป็นเรื่องน่ายินดีที่ได้เห็นเฟรมเวิร์กที่มีความสมเหตุสมผลและสมจริงเช่นนี้ แม้ว่าเราจะทำการเปรียบเทียบประสิทธิภาพด้วยตนเองอยู่แล้ว แต่ Android Bench ก็เป็นส่วนเสริมที่ไม่เหมือนใครและน่ายินดี ระเบียบวิธีนี้เป็นการประเมินที่เข้มงวดซึ่งนักพัฒนาแอป Android ต้องการในตอนนี้” 
- Kirill Smelov, หัวหน้าฝ่ายการผสานรวม AI ที่ JetBrains

ผลลัพธ์แรกของ Android Bench

สำหรับการเปิดตัวครั้งแรกนี้ เราต้องการวัดประสิทธิภาพของโมเดลอย่างแท้จริงและไม่มุ่งเน้นการใช้ Agentic AI หรือเครื่องมือ โมเดลสามารถทำงานได้สำเร็จ 16-72% ของงาน ช่วงนี้กว้างมาก ซึ่งแสดงให้เห็นว่า LLM บางรายการมีพื้นฐานความรู้เกี่ยวกับ Android ที่แข็งแกร่งอยู่แล้ว ในขณะที่บางรายการยังมีโอกาสปรับปรุงอีกมาก ไม่ว่าโมเดลจะอยู่ในระดับใดในตอนนี้ เราคาดว่าจะมีการปรับปรุงอย่างต่อเนื่องเมื่อเราสนับสนุนให้ผู้สร้าง LLM ปรับปรุงโมเดลสำหรับการพัฒนา Android

LLM ที่มีคะแนนเฉลี่ยสูงสุดสำหรับการเปิดตัวครั้งแรกนี้คือ Gemini 3.1 Pro ตามมาด้วย Claude Opus 4.6 คุณลองใช้โมเดลทั้งหมดที่เราประเมินเพื่อรับความช่วยเหลือจาก AI สำหรับโปรเจ็กต์ Android ได้โดยใช้คีย์ API ใน Android Studio เวอร์ชันเสถียรล่าสุดของ Android Studio

androidBench2.png

มอบความโปร่งใสแก่นักพัฒนาแอปและผู้สร้าง LLM

เราให้ความสำคัญกับแนวทางที่เปิดกว้างและโปร่งใส ดังนั้นเราจึงเผยแพร่ระเบียบวิธี ชุดข้อมูล และชุดทดสอบต่อสาธารณะใน GitHub

ความท้าทายอย่างหนึ่งของเกณฑ์มาตรฐานสาธารณะคือความเสี่ยงที่ข้อมูลจะปนเปื้อน ซึ่งโมเดลอาจเห็นงานการประเมินระหว่างกระบวนการฝึก เราได้ใช้มาตรการเพื่อให้มั่นใจว่าผลลัพธ์ของเราสะท้อนถึงการให้เหตุผลที่แท้จริงแทนที่จะเป็นการจดจำหรือการคาดเดา ซึ่งรวมถึงการตรวจสอบเส้นทางของ Agent อย่างละเอียดด้วยตนเอง หรือการผสานรวมสตริง Canary เพื่อไม่ให้มีการฝึก

ในอนาคต เราจะยังคงพัฒนาระเบียบวิธีของเราต่อไปเพื่อรักษาความสมบูรณ์ของชุดข้อมูล พร้อมทั้งทำการปรับปรุงสำหรับการเปิดตัวเกณฑ์มาตรฐานในอนาคต เช่น การเพิ่มปริมาณและความซับซ้อนของงาน

เราหวังว่า Android Bench จะช่วยปรับปรุงความช่วยเหลือจาก AI ในระยะยาว วิสัยทัศน์ของเราคือการปิดช่องว่างระหว่างแนวคิดกับโค้ดคุณภาพ เรากำลังวางรากฐานสำหรับอนาคตที่คุณจะสร้างทุกสิ่งที่จินตนาการไว้บน Android ได้

เขียนโดย:
อ่านต่อ