Novidades do produto

Aprimorando o desenvolvimento do Android com a ajuda de IA e melhorando os LLMs com o Android Bench

Leitura de 2 minutos
Matthew McCullough
Vice-presidente de gerenciamento de produtos, Android Developer

Queremos tornar mais rápido e fácil para você criar apps Android de alta qualidade, e uma maneira de ajudar você a ser mais produtivo é colocar a IA ao seu alcance. Sabemos que você quer uma IA que realmente entenda as nuances da plataforma Android. Por isso, estamos medindo o desempenho dos LLMs em tarefas de desenvolvimento do Android. Hoje, lançamos a primeira versão do Android Bench, nosso ranking oficial de LLMs para desenvolvimento do Android.

Nosso objetivo é fornecer aos criadores de modelos um comparativo de mercado para avaliar os recursos de LLM para desenvolvimento do Android. Ao estabelecer uma base clara e confiável para o desenvolvimento do Android de alta qualidade, estamos ajudando os criadores de modelos a identificar lacunas e acelerar as melhorias, o que permite que os desenvolvedores trabalhem com mais eficiência com uma variedade maior de modelos úteis para escolher a assistência de IA. Isso, em última análise, leva a apps de maior qualidade em todo o ecossistema Android.

Projetado com tarefas de desenvolvimento do Android do mundo real

Criamos o comparativo de mercado selecionando um conjunto de tarefas em várias áreas comuns de desenvolvimento do Android. Ele é composto por desafios reais de dificuldade variada, extraídos de repositórios públicos do GitHub Android. Os cenários incluem a resolução de mudanças interruptivas em versões do Android, tarefas específicas do domínio, como rede em wearables, e a migração para a versão mais recente do Jetpack Compose, entre outros.

Cada avaliação tenta fazer com que um LLM corrija o problema informado na tarefa, que verificamos usando testes de unidade ou instrumentação. Essa abordagem independente do modelo nos permite medir a capacidade de um modelo de navegar por bases de código complexas, entender dependências e resolver os tipos de problemas que você encontra todos os dias. 

Validamos essa metodologia com vários fabricantes de LLM, incluindo a JetBrains. 

"Medir o impacto da IA no Android é um desafio enorme. Por isso, é ótimo ver um framework tão sólido e realista. Embora estejamos ativos na nossa própria avaliação comparativa, o Android Bench é uma adição única e bem-vinda. Essa metodologia é exatamente o tipo de avaliação rigorosa que os desenvolvedores Android precisam agora." 
- Kirill Smelov, chefe de integrações de IA da JetBrains.

Os primeiros resultados do Android Bench

Para esse lançamento inicial, queríamos medir apenas a performance do modelo e não nos concentrar no uso de agentes ou ferramentas. Os modelos conseguiram concluir de 16% a 72% das tarefas. Essa é uma ampla variedade que demonstra que alguns LLMs já têm uma base sólida para o conhecimento do Android, enquanto outros têm mais espaço para melhorias. Independentemente de onde os modelos estão agora, esperamos uma melhoria contínua à medida que incentivamos os fabricantes de LLM a aprimorar seus modelos para o desenvolvimento do Android. 

O LLM com a maior pontuação média para esse primeiro lançamento é o Gemini 3.1 Pro, seguido de perto pelo Claude Opus 4.6. Você pode testar todos os modelos que avaliamos para assistência de IA nos seus projetos Android usando chaves de API na versão estável mais recente do Android Studio.

androidBench2.png

Oferecendo transparência aos desenvolvedores e fabricantes de LLM

Valorizamos uma abordagem aberta e transparente. Por isso, disponibilizamos nossa metodologia, conjunto de dados e plataforma de testes publicamente no GitHub.

Um desafio para qualquer comparativo de mercado público é o risco de contaminação de dados, em que os modelos podem ter visto tarefas de avaliação durante o processo de treinamento. Tomamos medidas para garantir que nossos resultados reflitam o raciocínio genuíno, em vez de memorização ou adivinhação, incluindo uma revisão manual completa das trajetórias do agente ou a integração de uma string canário para desencorajar o treinamento. 

No futuro, vamos continuar evoluindo nossa metodologia para preservar a integridade do conjunto de dados, além de fazer melhorias para versões futuras do comparativo de mercado, por exemplo, aumentando a quantidade e a complexidade das tarefas.

Estamos ansiosos para saber como o Android Bench pode melhorar a assistência de IA a longo prazo. Nossa visão é reduzir a lacuna entre o conceito e o código de qualidade. Estamos construindo a base para um futuro em que, não importa o que você imagine, é possível criar no Android. 

Escrito por:

Continuar lendo