Notizie sui prodotti

In che modo l'ottimizzazione automatica dei prompt migliora la qualità dell'API Prompt di AI generativa di ML Kit

3 minuti di lettura

Ottimizzazione automatica dei prompt (APO)

Per aiutarti a portare in produzione i casi d'uso dell'API Prompt di ML Kit, siamo felici di annunciare l'ottimizzazione automatica dei prompt (APO) per i modelli on-device su Vertex AI. L'ottimizzazione automatica dei prompt è uno strumento che ti aiuta a trovare automaticamente il prompt ottimale per i tuoi casi d'uso.

L'era dell'AI on-device non è più una promessa, ma una realtà di produzione. Con il rilascio di Gemini Nano v3, mettiamo nelle mani degli utenti funzionalità di comprensione del linguaggio e multimodali senza precedenti. Grazie alla famiglia di modelli Gemini Nano, abbiamo un'ampia copertura dei dispositivi supportati nell'ecosistema Android. Tuttavia, per gli sviluppatori che creano la prossima generazione di app intelligenti, l'accesso a un modello potente è solo il primo passo. La vera sfida è la personalizzazione: come si fa ad adattare un foundation model per ottenere prestazioni di livello esperto per il tuo caso d'uso specifico senza violare i vincoli dell'hardware mobile?

Nel mondo lato server, i modelli linguistici di grandi dimensioni tendono a essere altamente capaci e richiedono meno adattamento al dominio. Anche quando è necessario, le opzioni più avanzate come l'ottimizzazione di LoRA (Low-Rank Adaptation) possono essere opzioni fattibili. Tuttavia, l'architettura unica di Android AI Core dà la priorità a un modello di sistema condiviso ed efficiente in termini di memoria. Ciò significa che il deployment di adattatori LoRA personalizzati per ogni singola app comporta delle sfide per questi servizi di sistema condivisi.

Esiste però un percorso alternativo che può essere altrettanto efficace. Sfruttando l'ottimizzazione automatica dei prompt (APO) su Vertex AI, gli sviluppatori possono ottenere una qualità simile all'ottimizzazione, il tutto lavorando senza problemi nell'ambiente di esecuzione Android nativo. Concentrandosi su istruzioni di sistema di qualità superiore, l'APO consente agli sviluppatori di personalizzare il comportamento del modello con maggiore robustezza e scalabilità rispetto alle soluzioni di ottimizzazione tradizionali.

Nota: Gemini Nano V3 è una versione ottimizzata per la qualità del modello Gemma 3N, molto apprezzato. Qualsiasi ottimizzazione dei prompt apportata al modello Gemma 3N open source verrà applicata anche a Gemini Nano V3. Sui dispositivi supportati, le API di AI generativa di ML Kit sfruttano il modello nano-v3 per massimizzare la qualità per gli sviluppatori Android.

APO block diagram.jpg

L'APO considera il prompt non come un testo statico, ma come una superficie programmabile che può essere ottimizzata. Sfrutta i modelli lato server (come Gemini Pro e Flash) per proporre prompt, valutare le varianti e trovare quella ottimale per la tua attività specifica. Questo processo utilizza tre meccanismi tecnici specifici per massimizzare le prestazioni:

  1. Analisi automatica degli errori: l'APO analizza i pattern di errore dei dati di addestramento per identificare automaticamente le debolezze specifiche nel prompt iniziale.
  2. Distillazione semantica delle istruzioni: analizza enormi esempi di addestramento per distillare la "vera intenzione" di un'attività, creando istruzioni che riflettono in modo più accurato la distribuzione dei dati reali.
  3. Test parallelo dei candidati: anziché testare un'idea alla volta, l'APO genera e testa in parallelo numerosi prompt candidati per identificare il massimo globale per la qualità.

Perché l'APO può avvicinarsi alla qualità dell'ottimizzazione

È un errore comune pensare che l'ottimizzazione produca sempre una qualità migliore rispetto ai prompt. Per i modelli di base moderni come Gemini Nano v3, l'ingegneria dei prompt può essere efficace di per sé:

  • Preservare le funzionalità generali: l'ottimizzazione ( PEFT/LoRA) forza i pesi di un modello a indicizzare eccessivamente una distribuzione specifica dei dati. Questo spesso porta a una "dimenticanza catastrofica", in cui il modello migliora la sintassi specifica, ma peggiora la logica generale e la sicurezza. L'APO lascia i pesi invariati, preservando le funzionalità del modello di base.
  • Seguire le istruzioni e scoprire le strategie: Gemini Nano v3 è stato addestrato rigorosamente per seguire istruzioni di sistema complesse. L'APO sfrutta questa funzionalità trovando la struttura di istruzioni esatta che sblocca le funzionalità latenti del modello, spesso scoprendo strategie che potrebbero essere difficili da trovare per gli ingegneri umani. 

Per convalidare questo approccio, abbiamo valutato l'APO in diversi carichi di lavoro di produzione. La nostra convalida ha mostrato miglioramenti di accuratezza costanti del 5-8% in vari casi d'uso.In più funzionalità on-device implementate, l'APO ha fornito miglioramenti significativi della qualità.

Caso d'usoTipo di attivitàDescrizione dell'attivitàMetricaMiglioramento dell'APO
Classificazione degli argomentiClassificazione del testoClassifica un articolo di notizie in argomenti come finanza, sport e così viaAccuratezza+5%
Classificazione delle intenzioniClassificazione del testoClassifica una query di assistenza clienti in intenzioniAccuratezza+8,0%
Traduzione di pagine webTraduzione del testoTraduci una pagina web dall'inglese a una lingua localeBLEU+8,57%

Un flusso di lavoro di sviluppo end-to-end senza interruzioni

È un errore comune pensare che l'ottimizzazione produca sempre una qualità migliore rispetto ai prompt. Per i modelli di base moderni come Gemini Nano v3, l'ingegneria dei prompt può essere efficace di per sé:

  • Preservare le funzionalità generali: l'ottimizzazione ( PEFT/LoRA) forza i pesi di un modello a indicizzare eccessivamente una distribuzione specifica dei dati. Questo spesso porta a una "dimenticanza catastrofica", in cui il modello migliora la sintassi specifica, ma peggiora la logica generale e la sicurezza. L'APO lascia i pesi invariati, preservando le funzionalità del modello di base.
  • Seguire le istruzioni e scoprire le strategie: Gemini Nano v3 è stato addestrato rigorosamente per seguire istruzioni di sistema complesse. L'APO sfrutta questa funzionalità trovando la struttura di istruzioni esatta che sblocca le funzionalità latenti del modello, spesso scoprendo strategie che potrebbero essere difficili da trovare per gli ingegneri umani. 

Per convalidare questo approccio, abbiamo valutato l'APO in diversi carichi di lavoro di produzione. La nostra convalida ha mostrato miglioramenti di accuratezza costanti del 5-8% in vari casi d'uso.In più funzionalità on-device implementate, l'APO ha fornito miglioramenti significativi della qualità.

Conclusione

Il rilascio dell'ottimizzazione automatica dei prompt (APO) segna un punto di svolta per l'AI generativa on-device. Colmando il divario tra i modelli di base e le prestazioni di livello esperto, offriamo agli sviluppatori gli strumenti per creare applicazioni mobile più robuste. Che tu stia iniziando a utilizzare l'ottimizzazione zero-shot o che tu stia scalando la produzione con il perfezionamento basato sui dati, il percorso verso l'intelligenza on-device di alta qualità è ora più chiaro. Inizia oggi stesso a utilizzare i casi d'uso on-device in produzione con l'API Prompt di ML Kit e l'ottimizzazione automatica dei prompt di Vertex AI. 

Link pertinenti: 

Scritto da:

Continua a leggere