Wiadomości o usługach

Interfejs Prompt API w ML Kit: odblokuj niestandardowe funkcje Gemini Nano na urządzeniu

Czas czytania: 2 min
3 Autorzy
Caren Chang, Chengji Yan, Penny Li

AI ułatwia tworzenie spersonalizowanych aplikacji, które przekształcają treści w odpowiedni format dla użytkowników. Wcześniej umożliwiliśmy deweloperom integrację z Gemini Nano za pomocą interfejsów ML Kit GenAI API dostosowanych do konkretnych zastosowań, takich jak podsumowywanie i opisywanie obrazów.

Dziś osiągamy ważny kamień milowy w rozwoju generatywnej AI na urządzeniach z Androidem. Ogłaszamy wersję alfa interfejsu ML Kit GenAI Prompt API. Ten interfejs API umożliwia wysyłanie do Gemini Nano żądań w języku naturalnym i multimodalnych, co odpowiada na zapotrzebowanie na większą kontrolę i elastyczność podczas tworzenia z użyciem modeli generatywnych.

Partnerzy tacy jak Kakao już korzystają z interfejsu Prompt API, tworząc unikalne rozwiązania, które mają realny wpływ na świat. Już dziś możesz wypróbować zaawansowane funkcje interfejsu Prompt API przy użyciu minimalnej ilości kodu.

 

 

Przejście od gotowych do niestandardowych funkcji generatywnej AI na urządzeniu

Interfejs Prompt API wykracza poza gotowe funkcje i obsługuje niestandardowe przypadki użycia generatywnej AI w aplikacjach. Umożliwia tworzenie unikalnych funkcji ze złożonym przekształcaniem danych. Interfejs Prompt API korzysta z modelu Gemini Nano na urządzeniu, aby przetwarzać dane lokalnie, co umożliwia działanie offline i zwiększa prywatność użytkowników.

Główne przypadki użycia interfejsu Prompt API:

Interfejs Prompt API umożliwia tworzenie wysoce spersonalizowanych przypadków użycia GenAI. Oto kilka przykładów: 

  • Rozpoznawanie obrazów: analizowanie zdjęć pod kątem klasyfikacji (np. tworzenie wersji roboczej posta w mediach społecznościowych lub identyfikowanie tagów takich jak „zwierzęta”, „jedzenie” czy „podróże”).
  • Inteligentne skanowanie dokumentów: użycie tradycyjnego modelu ML do wyodrębniania tekstu z paragonu, a następnie kategoryzowanie każdego elementu za pomocą interfejsu Prompt API.
  • Przekształcanie danych na potrzeby interfejsu: analizowanie długich treści w celu utworzenia krótkiego, angażującego tytułu powiadomienia.
  • Podpowiadanie treści: sugerowanie tematów nowych wpisów w dzienniku na podstawie preferencji użytkownika dotyczących motywów.
  • Analiza treści: klasyfikowanie opinii klientów jako pozytywnych, neutralnych lub negatywnych.
  • Wyodrębnianie informacji: wyodrębnianie ważnych szczegółów dotyczących nadchodzącego wydarzenia z wątku e-mail.

Implementacja
Interfejs Prompt API umożliwia tworzenie niestandardowych promptów i ustawianie opcjonalnych parametrów generowania za pomocą zaledwie kilku linii kodu:

Generation.getClient().generateContent(
   generateContentRequest(
       ImagePart(bitmapImage),
       TextPart("Categorize this image as one of the following: car, motorcycle, bike, scooter, other. Return only the category as the response."),
   ) {
       // Optional parameters
       temperature = 0.2f
       topK = 10
       candidateCount = 1
       maxOutputTokens = 10
   },
)

Bardziej szczegółowe przykłady implementacji interfejsu Prompt API znajdziesz w oficjalnej dokumentacjiprzykładzie na GitHubie.

Gemini Nano, wydajność i prototypowanie

Interfejs Prompt API działa obecnie najlepiej na urządzeniach z serii Pixel 10, które korzystają z najnowszej wersji Gemini Nano (nano-v3). Ta wersja Gemini Nano jest oparta na tej samej architekturze co Gemma 3n, czyli model, który po raz pierwszy udostępniliśmy społeczności modeli otwartych podczas konferencji I/O.

Wspólna podstawa modeli Gemma 3n i nano-v3 ułatwia programistom tworzenie prototypów funkcji. Jeśli nie masz Pixela 10, możesz już dziś zacząć eksperymentować z promptami, tworząc prototypy lokalnie za pomocą modelu Gemma 3n.

Pełną listę urządzeń obsługujących interfejsy API generatywnej AI znajdziesz w naszej dokumentacji dotyczącej obsługi urządzeń.

Więcej informacji

Zacznij wdrażać interfejs Prompt API w aplikacjach na Androida już dziś, korzystając z naszej oficjalnej dokumentacjiprzykładowego kodu na GitHubie.

Autor:

Czytaj dalej