Notícias sobre produtos

Como a otimização automática de comandos aumenta a qualidade da API GenAI Prompt do Kit de ML

Leitura de 3 minutos

Otimização automática de comandos (APO)

Para ajudar ainda mais a levar seus casos de uso da API Kit de ML Prompt para produção, temos o prazer de anunciar a Otimização automática de comandos (APO) para modelos no dispositivo na Vertex AI. A Otimização automática de comandos é uma ferramenta que ajuda você a encontrar automaticamente o comando ideal para seus casos de uso.

A era da IA no dispositivo não é mais uma promessa, mas sim uma realidade de produção. Com o lançamento do Gemini Nano v3, estamos colocando recursos multimodais e de compreensão de linguagem sem precedentes diretamente nas mãos dos usuários. Com a família de modelos Gemini Nano, temos uma ampla cobertura de dispositivos compatíveis em todo o ecossistema Android. Mas, para os desenvolvedores que criam a próxima geração de apps inteligentes, o acesso a um modelo avançado é apenas a primeira etapa. O verdadeiro desafio está na personalização: como adaptar um modelo de fundação para ter uma performance de nível especialista no seu caso de uso específico sem violar as restrições do hardware móvel?

No mundo do lado do servidor, os LLMs maiores tendem a ser altamente capazes e exigem menos adaptação de domínio. Mesmo quando necessário, opções mais avançadas, como o ajuste fino de LoRA (adaptação de classificação baixa), podem ser viáveis. No entanto, a arquitetura exclusiva do Android AICore prioriza um modelo de sistema compartilhado e eficiente em termos de memória. Isso significa que a implantação de adaptadores LoRA personalizados para cada app individual apresenta desafios nesses serviços compartilhados do sistema.

Mas há um caminho alternativo que pode ser igualmente impactante. Ao aproveitar a Otimização automática de comandos (APO) na Vertex AI, os desenvolvedores podem alcançar uma qualidade semelhante ao ajuste refinado, tudo isso trabalhando perfeitamente no ambiente de execução nativo do Android. Ao se concentrar em instruções de sistema superiores, o APO permite que os desenvolvedores personalizem o comportamento do modelo com mais robustez e escalonabilidade do que as soluções tradicionais de ajuste refinado.

Observação : o Gemini Nano V3 é uma versão otimizada para qualidade do aclamado modelo Gemma 3N. Todas as otimizações de comandos feitas no modelo de código aberto Gemma 3N também serão aplicadas ao Gemini Nano V3. Em dispositivos compatíveis, as APIs GenAI do Kit de ML usam o modelo nano-v3 para maximizar a qualidade para desenvolvedores Android.

APO block diagram.jpg

A APO trata o comando não como um texto estático, mas como uma superfície programável que pode ser otimizada. Ele usa modelos do lado do servidor (como o Gemini Pro e o Flash) para sugerir comandos, avaliar variações e encontrar a melhor opção para sua tarefa específica. Esse processo usa três mecanismos técnicos específicos para maximizar a performance:

  1. Análise de erros automatizada:a APO analisa padrões de erros dos dados de treinamento para identificar automaticamente falhas específicas no comando inicial.
  2. Destilação de instruções semânticas:analisa exemplos de treinamento em massa para destilar a "verdadeira intenção" de uma tarefa, criando instruções que refletem com mais precisão a distribuição de dados reais.
  3. Teste paralelo de candidatos:em vez de testar uma ideia por vez, a APO gera e testa vários candidatos de comandos em paralelo para identificar o máximo global de qualidade.

Por que a APO pode se aproximar da qualidade do ajuste de detalhes

É um equívoco comum achar que o ajuste fino sempre gera uma qualidade melhor do que o uso de comandos. Para modelos de fundação modernos, como o Gemini Nano v3, a engenharia de comandos pode ser impactante por si só:

  • Preservar recursos gerais:o ajuste fino ( PEFT/LoRA) força os pesos de um modelo a indexar demais uma distribuição específica de dados. Isso geralmente leva ao "esquecimento catastrófico", em que o modelo melhora na sua sintaxe específica, mas piora na lógica geral e na segurança. A APO não altera os pesos, preservando os recursos do modelo de base.
  • Seguir instruções e descobrir estratégias:o Gemini Nano v3 foi treinado rigorosamente para seguir instruções complexas do sistema. A APO explora isso encontrando a estrutura de instrução exata que desbloqueia as capacidades latentes do modelo, muitas vezes descobrindo estratégias que podem ser difíceis de encontrar para engenheiros humanos. 

Para validar essa abordagem, avaliamos a APO em diversas cargas de trabalho de produção. Nossa validação mostrou ganhos de acurácia consistentes de 5 a 8% em vários casos de uso.Em vários recursos implantados no dispositivo, a APO proporcionou melhorias significativas na qualidade.

Caso de usoTipo de tarefaDescrição da tarefaMétricaMelhoria da APO
Classificação dos temasClassificação de textoClassificar uma notícia em temas como finanças, esportes etc.Precisão+5%
Classificação de intentsClassificação de textoClassificar uma consulta de atendimento ao cliente em intentsPrecisão+8%
Tradução de páginas da WebTradução de textoTraduzir uma página da Web do inglês para um idioma localBLEU+8,57%

Um fluxo de trabalho de desenvolvedor completo e integrado

É um equívoco comum achar que o ajuste fino sempre gera uma qualidade melhor do que o uso de comandos. Para modelos de fundação modernos, como o Gemini Nano v3, a engenharia de comandos pode ser impactante por si só:

  • Preservar recursos gerais:o ajuste fino ( PEFT/LoRA) força os pesos de um modelo a indexar demais uma distribuição específica de dados. Isso geralmente leva ao "esquecimento catastrófico", em que o modelo melhora na sua sintaxe específica, mas piora na lógica geral e na segurança. A APO não altera os pesos, preservando os recursos do modelo de base.
  • Seguir instruções e descobrir estratégias:o Gemini Nano v3 foi treinado rigorosamente para seguir instruções complexas do sistema. A APO explora isso encontrando a estrutura de instrução exata que desbloqueia as capacidades latentes do modelo, muitas vezes descobrindo estratégias que podem ser difíceis de encontrar para engenheiros humanos. 

Para validar essa abordagem, avaliamos a APO em diversas cargas de trabalho de produção. Nossa validação mostrou ganhos de acurácia consistentes de 5 a 8% em vários casos de uso.Em vários recursos implantados no dispositivo, a APO proporcionou melhorias significativas na qualidade.

Conclusão

O lançamento da Otimização automática de comandos (APO, na sigla em inglês) marca um ponto de virada para a IA generativa no dispositivo. Ao preencher a lacuna entre modelos de fundação e desempenho de nível especializado, estamos oferecendo aos desenvolvedores as ferramentas para criar aplicativos móveis mais robustos. Se você está começando com a otimização zero-shot ou escalonando para produção com o refinamento orientado por dados, o caminho para uma inteligência de alta qualidade no dispositivo agora está mais claro. Lance seus casos de uso no dispositivo para produção hoje mesmo com a API Prompt do ML Kit e a otimização automática de comandos da Vertex AI. 

Links relevantes: 

Escrito por:

Continuar lendo