Produktneuheiten

Wie die automatische Prompt-Optimierung die Qualität der GenAI Prompt API von ML Kit verbessert

3 Minuten Lesezeit

Automatische Prompt-Optimierung (Automated Prompt Optimization, APO)

Um Sie bei der Produktion Ihrer ML Kit Prompt API-Anwendungsfälle noch besser zu unterstützen, stellen wir die automatische Prompt-Optimierung (Automated Prompt Optimization, APO) für On-Device-Modelle in Vertex AI vor. Mit der automatischen Prompt-Optimierung können Sie automatisch den optimalen Prompt für Ihre Anwendungsfälle finden.

Die Ära der On-Device-KI ist keine Zukunftsvision mehr, sondern Realität. Mit der Veröffentlichung von Gemini Nano v3 stellen wir Nutzern beispiellose Funktionen für das Sprachverständnis und multimodale Funktionen direkt auf ihren Geräten zur Verfügung. Die Modelle der Gemini Nano-Familie decken eine Vielzahl unterstützter Geräte im gesamten Android-Ökosystem ab. Für Entwickler, die die nächste Generation intelligenter Apps entwickeln, ist der Zugriff auf ein leistungsstarkes Modell jedoch nur der erste Schritt. Die eigentliche Herausforderung liegt in der Anpassung: Wie können Sie ein Foundation Model so anpassen, dass es für Ihren spezifischen Anwendungsfall eine Leistung auf Expertenniveau bietet, ohne die Einschränkungen der mobilen Hardware zu überschreiten?

Auf Serverseite sind die größeren LLMs in der Regel sehr leistungsstark und erfordern weniger Anpassung an den jeweiligen Bereich. Auch wenn dies erforderlich ist, können erweiterte Optionen wie das Fine-Tuning mit LoRA (Low-Rank Adaptation) infrage kommen. Die einzigartige Architektur von Android AICore priorisiert jedoch ein gemeinsames, speichereffizientes Systemmodell. Das bedeutet, dass die Bereitstellung benutzerdefinierter LoRA-Adapter für jede einzelne App Herausforderungen für diese gemeinsamen Systemdienste mit sich bringt.

Es gibt jedoch eine alternative Methode, die ebenso effektiv sein kann. Durch die Nutzung der automatischen Prompt-Optimierung (Automated Prompt Optimization, APO) in Vertex AI können Entwickler eine Qualität erreichen, die dem Fine-Tuning nahekommt, und gleichzeitig nahtlos in der nativen Android-Ausführungsumgebung arbeiten. Durch die Konzentration auf eine überlegene Systemanweisung ermöglicht die automatische Prompt-Optimierung Entwicklern, das Modellverhalten robuster und skalierbarer anzupassen als mit herkömmlichen Fine-Tuning-Lösungen.

Hinweis:  Gemini Nano V3 ist eine qualitätsoptimierte Version des hochgelobten Gemma 3N-Modells. Alle Prompt-Optimierungen, die am Open-Source-Modell Gemma 3N vorgenommen werden, gelten auch für Gemini Nano V3. Auf unterstützten Geräten nutzen die GenAI APIs von ML Kit das Modell nano-v3, um die Qualität für Android-Entwickler zu maximieren.

APO block diagram.jpg

Bei der automatischen Prompt-Optimierung wird der Prompt nicht als statischer Text, sondern als programmierbare Oberfläche behandelt, die optimiert werden kann. Dabei werden serverseitige Modelle wie Gemini Pro und Flash verwendet, um Prompts vorzuschlagen, Variationen zu bewerten und den optimalen Prompt für Ihre spezifische Aufgabe zu finden. Dieser Prozess nutzt drei spezifische technische Mechanismen, um die Leistung zu maximieren:

  1. Automatische Fehleranalyse:Die automatische Prompt-Optimierung analysiert Fehlermuster aus Trainingsdaten, um automatisch spezifische Schwachstellen im ursprünglichen Prompt zu identifizieren.
  2. Semantische Anweisungsdestillation:Dabei werden umfangreiche Trainingsbeispiele analysiert, um die „wahre Absicht“ einer Aufgabe zu ermitteln und Anweisungen zu erstellen, die die tatsächliche Datenverteilung genauer widerspiegeln.
  3. Paralleles Testen von Kandidaten:Anstatt jeweils eine Idee zu testen, werden mit der automatischen Prompt-Optimierung mehrere Prompt-Kandidaten parallel generiert und getestet, um das globale Maximum für die Qualität zu ermitteln.

Warum die automatische Prompt-Optimierung die Qualität des Fine-Tunings erreichen kann

Es ist ein weitverbreiteter Irrglaube, dass das Fine-Tuning immer eine bessere Qualität als das Prompting liefert. Bei modernen Foundation Models wie Gemini Nano v3 kann das Prompt Engineering allein schon wirkungsvoll sein:

  • Allgemeine Fähigkeiten beibehalten:Beim Fine-Tuning ( PEFT/LoRA) werden die Gewichte eines Modells so angepasst, dass sie eine bestimmte Datenverteilung überbetonen. Dies führt oft zu „katastrophalem Vergessen“, bei dem das Modell zwar besser in Ihrer spezifischen Syntax wird, aber schlechter in allgemeiner Logik und Sicherheit. Bei der automatischen Prompt-Optimierung bleiben die Gewichte unverändert, sodass die Fähigkeiten des Basismodells erhalten bleiben.
  • Anweisungen befolgen und Strategien entdecken:Gemini Nano v3 wurde intensiv darauf trainiert, komplexe Systemanweisungen zu befolgen. Die automatische Prompt-Optimierung nutzt dies, indem sie die genaue Anweisungsstruktur findet, die die latenten Fähigkeiten des Modells freisetzt. Dabei werden oft Strategien entdeckt, die für menschliche Entwickler schwer zu finden wären.

Um diesen Ansatz zu validieren, haben wir die automatische Prompt-Optimierung für verschiedene Produktionsarbeitslasten bewertet. Unsere Validierung hat über verschiedene Anwendungsfälle hinweg konsistente Genauigkeitssteigerungen von 5 bis 8% gezeigt.Bei mehreren bereitgestellten On-Device-Funktionen hat die automatische Prompt-Optimierung die Qualität deutlich verbessert.

AnwendungsfallAufgabentypAufgabenbeschreibungMesswertVerbesserung durch automatische Prompt-Optimierung
ThemenklassifizierungTextklassifizierungEinen Nachrichtenartikel in Themen wie Finanzen, Sport usw. klassifizierenGenauigkeit+5%
AbsichtsklassifizierungTextklassifizierungEine Kundenserviceanfrage nach Absichten klassifizierenGenauigkeit+8,0%
WebseitenübersetzungTextübersetzungEine Webseite aus dem Englischen in eine lokale Sprache übersetzenBLEU+8,57%

Nahtloser End-to-End-Workflow für Entwickler

Es ist ein weitverbreiteter Irrglaube, dass das Fine-Tuning immer eine bessere Qualität als das Prompting liefert. Bei modernen Foundation Models wie Gemini Nano v3 kann das Prompt Engineering allein schon wirkungsvoll sein:

  • Allgemeine Fähigkeiten beibehalten:Beim Fine-Tuning ( PEFT/LoRA) werden die Gewichte eines Modells so angepasst, dass sie eine bestimmte Datenverteilung überbetonen. Dies führt oft zu „katastrophalem Vergessen“, bei dem das Modell zwar besser in Ihrer spezifischen Syntax wird, aber schlechter in allgemeiner Logik und Sicherheit. Bei der automatischen Prompt-Optimierung bleiben die Gewichte unverändert, sodass die Fähigkeiten des Basismodells erhalten bleiben.
  • Anweisungen befolgen und Strategien entdecken:Gemini Nano v3 wurde intensiv darauf trainiert, komplexe Systemanweisungen zu befolgen. Die automatische Prompt-Optimierung nutzt dies, indem sie die genaue Anweisungsstruktur findet, die die latenten Fähigkeiten des Modells freisetzt. Dabei werden oft Strategien entdeckt, die für menschliche Entwickler schwer zu finden wären.

Um diesen Ansatz zu validieren, haben wir die automatische Prompt-Optimierung für verschiedene Produktionsarbeitslasten bewertet. Unsere Validierung hat über verschiedene Anwendungsfälle hinweg konsistente Genauigkeitssteigerungen von 5 bis 8% gezeigt.Bei mehreren bereitgestellten On-Device-Funktionen hat die automatische Prompt-Optimierung die Qualität deutlich verbessert.

Fazit

Die Veröffentlichung der automatischen Prompt-Optimierung (Automated Prompt Optimization, APO) markiert einen Wendepunkt für generative KI auf Geräten. Indem wir die Lücke zwischen Foundation Models und Leistung auf Expertenniveau schließen, geben wir Entwicklern die Tools an die Hand, um robustere mobile Anwendungen zu entwickeln. Egal, ob Sie gerade erst mit der Zero-Shot-Optimierung beginnen oder mit der datengestützten Optimierung auf die Produktion skalieren – der Weg zu hochwertiger On-Device-Intelligenz ist jetzt klarer. Starten Sie noch heute Ihre On-Device-Anwendungsfälle mit der Prompt API von ML Kit und der automatischen Prompt-Optimierung von Vertex AI. 

Relevante Links: 

Geschrieben von:
Weiterlesen