Mempelajari kemampuan visi dengan Gemini API

Gemini API dapat menjalankan inferensi pada gambar dan video yang diteruskan ke Gemini API. Jika lulus gambar, serangkaian gambar, atau video, Gemini dapat:

  • Jelaskan atau jawab pertanyaan tentang konten
  • Rangkum konten
  • Ekstrapolasi dari konten

Tutorial ini menunjukkan beberapa kemungkinan cara untuk menjalankan perintah Gemini API dengan input gambar dan video. Semua output hanya berupa teks.

Langkah berikutnya

Panduan ini menunjukkan cara menggunakan generateContent dan untuk menghasilkan output teks dari input gambar dan video. Untuk mempelajari lebih lanjut, lihat referensi berikut:

  • Membuat perintah dengan file media: Gemini API mendukung pembuatan perintah dengan data teks, gambar, audio, dan video, yang dikenal sebagai multimodal prompting.
  • Petunjuk sistem: Sistem memungkinkan Anda mengarahkan perilaku model berdasarkan kebutuhan dan kasus penggunaan Anda.
  • Panduan keamanan: Terkadang AI generatif menghasilkan output yang tidak diharapkan, misalnya output yang tidak akurat, bias, atau menyinggung. Pascapemrosesan dan evaluasi manual sangat penting untuk membatasi risiko bahaya dari {i>output<i} tersebut.