Google은 개발자가 고품질 Android 앱을 더 빠르고 쉽게 빌드할 수 있도록 지원하고자 하며, 생산성을 높이는 한 가지 방법은 AI를 손쉽게 사용할 수 있도록 하는 것입니다. Google은 개발자가 Android 플랫폼의 미묘한 차이를 진정으로 이해하는 AI를 원한다는 것을 알고 있으므로 LLM이 Android 개발 작업을 수행하는 방식을 측정해 왔습니다. 오늘 Google은 Android 개발을 위한 LLM의 공식 리더보드인 Android Bench의 첫 번째 버전을 출시했습니다.
Google의 목표는 모델 제작자에게 Android 개발을 위한 LLM 기능을 평가할 수 있는 벤치마크를 제공하는 것입니다. 고품질 Android 개발의 기준을 명확하고 안정적으로 설정함으로써 Google은 모델 제작자가 격차를 파악하고 개선을 가속화할 수 있도록 지원합니다. 이를 통해 개발자는 AI 어시스턴스를 위해 선택할 수 있는 다양한 유용한 모델을 사용하여 더 효율적으로 작업할 수 있으며, 궁극적으로 Android 생태계 전반에서 더 높은 품질의 앱을 만들 수 있습니다.
실제 Android 개발 작업을 기반으로 설계
Google은 다양한 일반적인 Android 개발 영역에 대한 작업 세트를 선별하여 벤치마크를 만들었습니다. 벤치마크는 공개 GitHub Android 저장소에서 가져온 다양한 난이도의 실제 문제로 구성됩니다. 시나리오에는 Android 출시 전반에서 호환성이 손상되는 변경사항 해결, 웨어러블 네트워킹과 같은 도메인별 작업, Jetpack Compose의 최신 버전으로 마이그레이션 등이 있습니다.
각 평가는 LLM이 작업에 보고된 문제를 해결하도록 시도한 후 단위 테스트 또는 계측 테스트를 사용하여 이를 확인합니다. 이 모델에 구애받지 않는 접근 방식을 사용하면 모델의 복잡한 코드베이스 탐색, 종속 항목 이해, 매일 발생하는 문제 해결 능력을 측정할 수 있습니다.
Google은 JetBrains를 비롯한 여러 LLM 제작자와 이 방법론을 검증했습니다.
“Android에 대한 AI의 영향을 측정하는 것은 매우 어려운 일이므로 이처럼 건전하고 현실적인 프레임워크를 보게 되어 기쁩니다. Google은 자체 벤치마킹에 적극적으로 참여하고 있지만 Android Bench는 독특하고 환영할 만한 추가 기능입니다. 이 방법론은 현재 Android 개발자에게 필요한 엄격한 평가입니다.”
- Kirill Smelov, JetBrains AI 통합 책임자
첫 번째 Android Bench 결과
이 초기 출시에서는 모델 성능을 순수하게 측정하고 에이전트 또는 도구 사용에 집중하지 않으려고 했습니다. 모델은 작업의 16~72% 를 성공적으로 완료할 수 있었습니다. 이는 일부 LLM이 이미 Android 지식에 대한 강력한 기준을 보유하고 있는 반면 다른 LLM은 개선의 여지가 더 많다는 것을 보여주는 광범위한 범위입니다. 현재 모델의 상태와 관계없이 Google은 LLM 제작자가 Android 개발을 위해 모델을 개선하도록 장려함에 따라 지속적인 개선을 기대하고 있습니다.
이 첫 번째 출시에서 평균 점수가 가장 높은 LLM은 Gemini 3.1 Pro이며 Claude Opus 4.6이 그 뒤를 바짝 쫓고 있습니다. Android 스튜디오의 최신 안정화 버전에서 API 키를 사용하여 Android 프로젝트의 AI 어시스턴스를 위해 평가한 모든 모델을 사용해 볼 수 있습니다.
개발자와 LLM 제작자에게 투명성 제공
Google은 개방적이고 투명한 접근 방식을 중요하게 생각하므로 방법론, 데이터 세트, 테스트 하니스를 GitHub에서 공개적으로 제공했습니다.
공개 벤치마크의 한 가지 과제는 모델이 학습 과정에서 평가 작업을 보았을 수 있는 데이터 오염 위험입니다. Google은 에이전트 궤적에 대한 철저한 수동 검토 또는 학습을 방지하기 위한 카나리아 문자열 통합을 비롯하여 결과가 암기 또는 추측이 아닌 진정한 추론을 반영하도록 보장하기 위한 조치를 취했습니다.
앞으로도 Google은 데이터 세트의 무결성을 유지하기 위해 방법론을 계속 발전시키는 동시에 작업의 양과 복잡성을 늘리는 등 벤치마크의 향후 출시를 위한 개선사항을 적용할 것입니다.
Google은 Android Bench가 장기적으로 AI 어시스턴스를 개선할 수 있는 방법을 기대하고 있습니다. Google의 비전은 개념과 고품질 코드 간의 격차를 해소하는 것입니다. Google은 상상하는 모든 것을 Android에서 빌드할 수 있는 미래를 위한 토대를 마련하고 있습니다.
계속 읽기
-
제품 소식
오늘 Google은 복잡한 추론 및 자율 도구 호출 기능으로 설계된 최신 최첨단 오픈 모델인 Gemma 4로 Android 개발을 개선하고 있습니다.
Matthew McCullough • 2분 읽기
-
제품 소식
Android 17은 오늘 베타 3에서 공식적으로 플랫폼 안정성에 도달했습니다. 즉, API 노출 영역이 잠겨 있습니다. 최종 호환성 테스트를 실행하고 Android 17을 타겟팅하는 앱을 Play 스토어에 푸시할 수 있습니다.
Matthew McCullough • 5분 읽기
-
월 26일월 26일
제품 소식
오늘 Google은 개인 정보 보호, 보안, 세련된 성능을 우선시하는 플랫폼을 빌드하기 위한 노력을 계속하면서 Android 17의 두 번째 베타를 출시합니다.
Matthew McCullough • 6분 읽기
소식 받아 보기
Android 개발 관련 최신 정보를 이메일로 받아 보세요. 매주