Novidades do produto
Aprimorando o desenvolvimento do Android com a ajuda de IA e melhorando os LLMs com o Android Bench
Leitura de 2 minutos
Queremos tornar mais rápido e fácil para você criar apps Android de alta qualidade, e uma maneira de ajudar você a ser mais produtivo é colocar a IA ao seu alcance. Sabemos que você quer uma IA que realmente entenda as nuances da plataforma Android. Por isso, estamos medindo o desempenho dos LLMs em tarefas de desenvolvimento do Android. Hoje, lançamos a primeira versão do Android Bench, nosso ranking oficial de LLMs para desenvolvimento do Android.
Nosso objetivo é fornecer aos criadores de modelos um comparativo de mercado para avaliar os recursos de LLM para desenvolvimento do Android. Ao estabelecer uma base clara e confiável para o desenvolvimento do Android de alta qualidade, estamos ajudando os criadores de modelos a identificar lacunas e acelerar as melhorias, o que permite que os desenvolvedores trabalhem com mais eficiência com uma variedade maior de modelos úteis para escolher a assistência de IA. Isso, em última análise, leva a apps de maior qualidade em todo o ecossistema Android.
Projetado com tarefas de desenvolvimento do Android do mundo real
Criamos o comparativo de mercado selecionando um conjunto de tarefas em várias áreas comuns de desenvolvimento do Android. Ele é composto por desafios reais de dificuldade variada, extraídos de repositórios públicos do GitHub Android. Os cenários incluem a resolução de mudanças interruptivas em versões do Android, tarefas específicas do domínio, como rede em wearables, e a migração para a versão mais recente do Jetpack Compose, entre outros.
Cada avaliação tenta fazer com que um LLM corrija o problema informado na tarefa, que verificamos usando testes de unidade ou instrumentação. Essa abordagem independente do modelo nos permite medir a capacidade de um modelo de navegar por bases de código complexas, entender dependências e resolver os tipos de problemas que você encontra todos os dias.
Validamos essa metodologia com vários fabricantes de LLM, incluindo a JetBrains.
"Medir o impacto da IA no Android é um desafio enorme. Por isso, é ótimo ver um framework tão sólido e realista. Embora estejamos ativos na nossa própria avaliação comparativa, o Android Bench é uma adição única e bem-vinda. Essa metodologia é exatamente o tipo de avaliação rigorosa que os desenvolvedores Android precisam agora."
- Kirill Smelov, chefe de integrações de IA da JetBrains.
Os primeiros resultados do Android Bench
Para esse lançamento inicial, queríamos medir apenas a performance do modelo e não nos concentrar no uso de agentes ou ferramentas. Os modelos conseguiram concluir de 16% a 72% das tarefas. Essa é uma ampla variedade que demonstra que alguns LLMs já têm uma base sólida para o conhecimento do Android, enquanto outros têm mais espaço para melhorias. Independentemente de onde os modelos estão agora, esperamos uma melhoria contínua à medida que incentivamos os fabricantes de LLM a aprimorar seus modelos para o desenvolvimento do Android.
O LLM com a maior pontuação média para esse primeiro lançamento é o Gemini 3.1 Pro, seguido de perto pelo Claude Opus 4.6. Você pode testar todos os modelos que avaliamos para assistência de IA nos seus projetos Android usando chaves de API na versão estável mais recente do Android Studio.
Oferecendo transparência aos desenvolvedores e fabricantes de LLM
Valorizamos uma abordagem aberta e transparente. Por isso, disponibilizamos nossa metodologia, conjunto de dados e plataforma de testes publicamente no GitHub.
Um desafio para qualquer comparativo de mercado público é o risco de contaminação de dados, em que os modelos podem ter visto tarefas de avaliação durante o processo de treinamento. Tomamos medidas para garantir que nossos resultados reflitam o raciocínio genuíno, em vez de memorização ou adivinhação, incluindo uma revisão manual completa das trajetórias do agente ou a integração de uma string canário para desencorajar o treinamento.
No futuro, vamos continuar evoluindo nossa metodologia para preservar a integridade do conjunto de dados, além de fazer melhorias para versões futuras do comparativo de mercado, por exemplo, aumentando a quantidade e a complexidade das tarefas.
Estamos ansiosos para saber como o Android Bench pode melhorar a assistência de IA a longo prazo. Nossa visão é reduzir a lacuna entre o conceito e o código de qualidade. Estamos construindo a base para um futuro em que, não importa o que você imagine, é possível criar no Android.
Continuar lendo
-
Novidades do produto
Hoje, estamos aprimorando o desenvolvimento do Android com o Gemma 4, nosso modelo aberto de última geração projetado com raciocínio complexo e recursos autônomos de chamada de ferramentas.
Matthew McCullough • Leitura de 2 minutos
-
Novidades do produto
O Android 17 atingiu oficialmente a estabilidade da plataforma hoje com o Beta 3. Isso significa que a superfície da API está bloqueada. Você pode realizar testes de compatibilidade finais e enviar seus apps direcionados ao Android 17 para a Google Play Store.
Matthew McCullough • Leitura de 5 minutos
-
Novidades do produto
Hoje, estamos lançando o segundo Beta do Android 17, continuando nosso trabalho para criar uma plataforma que priorize privacidade, segurança e performance refinada.
Matthew McCullough • Leitura de 6 minutos
Fique por dentro
Receba os insights mais recentes sobre o desenvolvimento do Android na sua caixa de entrada semanalmente.