ข่าวผลิตภัณฑ์

เพิ่มการมีส่วนร่วมของผู้ใช้ด้วยการสร้างรูปภาพด้วย AI

ใช้เวลาอ่าน 5 นาที

การเพิ่มรูปภาพที่กำหนดเองลงในแอปสามารถปรับปรุงและปรับเปลี่ยนประสบการณ์การใช้งานของผู้ใช้ในแบบของคุณได้อย่างมาก รวมถึงเพิ่มการมีส่วนร่วมของผู้ใช้ด้วย โพสต์นี้จะสำรวจความสามารถใหม่ 2 อย่างสำหรับการสร้างรูปภาพด้วย Firebase AI Logic ได้แก่ ฟีเจอร์แต่งภาพ Imagen แบบเฉพาะทาง ซึ่งปัจจุบันอยู่ในเวอร์ชันตัวอย่าง และ Gemini 2.5 Flash Image (หรือที่เรียกว่า "Nano Banana") ที่พร้อมให้บริการสำหรับผู้ใช้ทั่วไป ซึ่งออกแบบมาสำหรับการสร้างรูปภาพตามบริบทหรือแบบสนทนา

เพิ่มการมีส่วนร่วมของผู้ใช้ด้วยรูปภาพที่สร้างขึ้นผ่าน Firebase AI Logic

คุณสามารถใช้โมเดลการสร้างรูปภาพเพื่อสร้างอวาตาร์โปรไฟล์ผู้ใช้ที่กำหนดเอง หรือผสานรวมชิ้นงานภาพที่ปรับเปลี่ยนในแบบของคุณลงในโฟลว์หน้าจอหลักได้โดยตรง  

ตัวอย่างเช่น Imagen มีฟีเจอร์แต่งภาพใหม่ (ในเวอร์ชันตัวอย่างสำหรับนักพัฒนาซอฟต์แวร์) ตอนนี้คุณสามารถวาดมาสก์และใช้ Inpainting เพื่อสร้างพิกเซลภายในพื้นที่ที่มาสก์ได้แล้ว นอกจากนี้ ยังมี Outpainting ให้ใช้เพื่อสร้างพิกเซลนอกมาสก์ด้วย   

Imagen inpainting.png

Imagen รองรับ Inpainting ซึ่งช่วยให้คุณสร้างรูปภาพได้เพียงบางส่วน 

หรือ Gemini 2.5 Flash Image (หรือที่เรียกว่า Nano Banana) สามารถใช้ความรู้เกี่ยวกับโลกที่ขยายออกไปและความสามารถในการให้เหตุผลของโมเดล Gemini เพื่อสร้างรูปภาพที่เกี่ยวข้องตามบริบท ซึ่งเหมาะสำหรับการสร้างภาพประกอบแบบไดนามิกที่สอดคล้องกับประสบการณ์การใช้งานในแอปของผู้ใช้ในปัจจุบัน   

 

In-context nano banana illustration.png

ใช้ Gemini 2.5 Flash Image เพื่อสร้างภาพประกอบแบบไดนามิกที่เกี่ยวข้องตามบริบทกับแอปของคุณ

สุดท้าย ความสามารถในการแก้ไขรูปภาพแบบสนทนาและแบบทำซ้ำช่วยให้ผู้ใช้แก้ไขรูปภาพโดยใช้ภาษาธรรมชาติได้

 

photo edit natural language.png

ใช้ Gemini 2.5 Flash Image เพื่อแก้ไขรูปภาพโดยใช้ภาษาธรรมชาติ

เมื่อเริ่มผสานรวม AI เข้ากับแอปพลิเคชัน สิ่งสำคัญคือต้องเรียนรู้เกี่ยวกับความปลอดภัยของ AI โดยเฉพาะอย่างยิ่ง คุณต้องประเมินความเสี่ยงด้านความปลอดภัยของแอปพลิเคชัน พิจารณาการปรับเปลี่ยนเพื่อลดความเสี่ยงด้านความปลอดภัย ทำการทดสอบความปลอดภัยที่เหมาะสมกับกรณีการใช้งานของคุณ รวมถึงขอความคิดเห็นจากผู้ใช้และตรวจสอบเนื้อหา

Imagen หรือ Gemini: คุณเลือกได้

ความแตกต่างระหว่าง Gemini 2.5 Flash Image ("Nano Banana") กับ Imagen อยู่ที่จุดมุ่งหมายหลักและความสามารถขั้นสูง Gemini 2.5 Flash Image ซึ่งเป็นโมเดลรูปภาพในตระกูล Gemini ที่ใหญ่กว่า มีความโดดเด่นในการแก้ไขรูปภาพแบบสนทนา การรักษาบริบทและความสอดคล้องของเรื่องราวในหลายๆ ครั้ง รวมถึงใช้ประโยชน์จาก "ความรู้เกี่ยวกับโลกและการให้เหตุผล" เพื่อสร้างภาพที่เกี่ยวข้องตามบริบทหรือฝังภาพที่ถูกต้องภายในลำดับข้อความยาวๆ

Imagen เป็นโมเดลการสร้างรูปภาพแบบเฉพาะทางของ Google ซึ่งออกแบบมาเพื่อการควบคุมความคิดสร้างสรรค์ที่มากขึ้น โดยมีความเชี่ยวชาญในการสร้างผลลัพธ์ที่สมจริงอย่างมาก รายละเอียดทางศิลปะ สไตล์เฉพาะ และการควบคุมที่ชัดเจนสำหรับการระบุอัตราส่วนกว้างยาวหรือรูปแบบของรูปภาพที่สร้างขึ้น

Gemini 2.5 Flash Images 
(Nano Banana 🍌)
Imagen

🌎 ความรู้เกี่ยวกับโลกและการให้เหตุผลเพื่อรูปภาพที่เกี่ยวข้องตามบริบทมากขึ้น

💬 แก้ไขรูปภาพแบบสนทนาพร้อมทั้งรักษาบริบท

📖 ฝังภาพที่ถูกต้องภายในลำดับข้อความยาวๆ

📐 ระบุอัตราส่วนกว้างยาวหรือรูปแบบของรูปภาพที่สร้างขึ้น

 

🖌️รองรับการแก้ไขตามมาสก์สำหรับการซ่อมแซมส่วนที่เสียหายของรูปภาพและการสร้างพิกเซลนอกมาสก์

 

🎚️ ควบคุมรายละเอียดของรูปภาพที่สร้างขึ้นได้มากขึ้น (คุณภาพ รายละเอียดทางศิลปะ และสไตล์เฉพาะ)

มาดูวิธีใช้ในแอปกัน

การซ่อมแซมส่วนที่เสียหายของรูปภาพด้วย Imagen

เมื่อไม่กี่เดือนที่ผ่านมา เราได้เปิดตัวฟีเจอร์แต่งภาพใหม่สำหรับ Imagen แม้ว่าตอนนี้ Imagen จะพร้อมใช้งานจริงสำหรับการสร้างรูปภาพแล้ว แต่ฟีเจอร์แต่งภาพยังคงอยู่ใน เวอร์ชันตัวอย่างสำหรับนักพัฒนาซอฟต์แวร์

ฟีเจอร์แต่งภาพของ Imagen ได้แก่ การซ่อมแซมส่วนที่เสียหายของรูปภาพ และ การสร้างพิกเซลนอกมาสก์ ซึ่งเป็นฟีเจอร์แต่งภาพตามมาสก์ ความสามารถใหม่นี้ช่วยให้ผู้ใช้แก้ไขพื้นที่เฉพาะของรูปภาพได้โดยไม่ต้องสร้างรูปภาพทั้งหมดขึ้นมาใหม่ ซึ่งหมายความว่าคุณสามารถเก็บส่วนที่ดีที่สุดของรูปภาพไว้และเปลี่ยนเฉพาะส่วนที่ต้องการ

Imagen inpainting dog.png

ใช้ฟีเจอร์แต่งภาพของ Imagen เพื่อทำการเปลี่ยนแปลงที่กำหนดเป้าหมายอย่างแม่นยำในรูปภาพและรับประกันความสมบูรณ์ของรูปภาพส่วนที่เหลือ

การเปลี่ยนแปลงเหล่านี้จะเกิดขึ้นพร้อมทั้งรักษาองค์ประกอบหลักและความสมบูรณ์โดยรวมของรูปภาพต้นฉบับไว้ และแก้ไขเฉพาะพื้นที่ในมาสก์

หากต้องการใช้การซ่อมแซมส่วนที่เสียหายของรูปภาพด้วย Imagen ให้เริ่มต้นด้วยการเริ่มต้น imagen-3.0-capability-001 ซึ่งเป็นโมเดล Imagen เฉพาะที่รองรับฟีเจอร์แต่งภาพ โดยทำดังนี้

// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0
val editingModel =
        Firebase.ai(backend = GenerativeBackend.vertexAI()).imagenModel(
            "imagen-3.0-capability-001",
            generationConfig = ImagenGenerationConfig(
                numberOfImages = 1,
                aspectRatio = ImagenAspectRatio.SQUARE_1x1,
                imageFormat = ImagenImageFormat.jpeg(compressionQuality = 75),
            ),
        )

จากนั้นกำหนดฟังก์ชันการซ่อมแซมส่วนที่เสียหายของรูปภาพ

// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0

val prompt = "remove the pancakes and make it an omelet instead"

suspend fun inpaintImageWithMask(sourceImage: Bitmap, maskImage: Bitmap, prompt: String, editSteps: Int = 50): Bitmap {
        val imageResponse = editingModel.editImage(
            referenceImages = listOf(
                ImagenRawImage(sourceImage.toImagenInlineImage()),
                ImagenRawMask(maskImage.toImagenInlineImage()),
            ),
            prompt = prompt,
            config = ImagenEditingConfig(
                editMode = ImagenEditMode.INPAINT_INSERTION,
                editSteps = editSteps,
            ),
        )
        return imageResponse.images.first().asBitmap()
    }

คุณต้องระบุทั้ง sourceImage, maskImage และพรอมต์สำหรับการแก้ไข รวมถึงจำนวนขั้นตอนการแก้ไขที่จะดำเนินการ

คุณดูการทำงานของฟีเจอร์นี้ได้ในตัวอย่างการแก้ไข Imagen ในแคตตาล็อกตัวอย่าง AI ของ Android

นอกจากนี้ Imagen ยังรองรับ การสร้างพิกเซลนอกมาสก์ ซึ่งช่วยให้โมเดลสร้างพิกเซลนอกมาสก์ได้ นอกจากนี้ คุณยังใช้ความสามารถในการปรับแต่งรูปภาพของ Imagen เพื่อเปลี่ยนสไตล์ของรูปภาพหรืออัปเดตเรื่องราวในรูปภาพได้ด้วย อ่านข้อมูลเพิ่มเติมได้ในเอกสารประกอบสำหรับนักพัฒนาแอป Android

การสร้างรูปภาพแบบสนทนาด้วย Gemini 2.5 Flash Image

วิธีหนึ่งในการแก้ไขรูปภาพด้วย Gemini 2.5 Flash Image คือการใช้ความสามารถในการแชทหลายรอบของโมเดล

ขั้นแรก ให้เริ่มต้นโมเดล โดยทำดังนี้

// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0

val model = Firebase.ai(backend = GenerativeBackend.googleAI()).generativeModel(
    modelName = "gemini-2.5-flash-image",
    // Configure the model to respond with text and images (required)
    generationConfig = generationConfig {
        responseModalities = listOf(ResponseModality.TEXT,
        ResponseModality.IMAGE)
    }
)

หากต้องการให้ได้ผลลัพธ์ที่คล้ายกับวิธี Imagen ตามมาสก์ที่อธิบายไว้ข้างต้น เราสามารถใช้ chat API เพื่อเริ่มการสนทนากับ Gemini 2.5 Flash Image ได้

// Copyright 2025 Google LLC.
// SPDX-License-Identifier: Apache-2.0

// Initialize the chat
val chat = model.startChat()


// Load a bitmap
val source = ImageDecoder.createSource(context.contentResolver, uri)
val bitmap = ImageDecoder.decodeBitmap(source)


// Create the initial prompt instructing the model to edit the image
val prompt = content {
    image(bitmap)
    text("remove the pancakes and add an omelet")
}

// To generate an initial response, send a user message with the image and text prompt
var response = chat.sendMessage(prompt)

// Inspect the returned image
var generatedImageAsBitmap = response
    .candidates.first().content.parts.filterIsInstance<ImagePart>().firstOrNull()?.image

// Follow up requests do not need to specify the image again
response = chat.sendMessage("Now, center the omelet in the pan")
generatedImageAsBitmap = response
    .candidates.first().content.parts.filterIsInstance<ImagePart>().firstOrNull()?.image

คุณดูการทำงานของฟีเจอร์นี้ได้ในตัวอย่างการแชทรูปภาพของ Gemini ในแคตตาล็อกตัวอย่าง AI ของ Android และอ่านข้อมูลเพิ่มเติมได้ในเอกสารประกอบของ Android

สรุป

ทั้ง Imagen และ Gemini 2.5 Flash Image มีความสามารถอันทรงพลัง ซึ่งช่วยให้คุณเลือกโมเดลการสร้างรูปภาพที่เหมาะที่สุดเพื่อปรับเปลี่ยนแอปในแบบของคุณและเพิ่มการมีส่วนร่วมของผู้ใช้ได้ ทั้งนี้ขึ้นอยู่กับกรณีการใช้งานเฉพาะของคุณ

เขียนโดย

อ่านต่อ