Google Luncurkan Gemini Omni untuk Mempermudah Pembuatan Video Multimodal

3 minggu yang lalu

Google resmi memperkenalkan Gemini Omni, sebuah model kecerdasan buatan (AI) terbaru yang mengintegrasikan kemampuan penalaran dengan teknologi generatif multimodal. Dilansir dari Medcom, model ini dirancang untuk memfasilitasi pengguna dalam memproduksi konten video berkualitas tinggi menggunakan kombinasi input teks, gambar, audio, hingga video.

Raksasa teknologi tersebut memfokuskan pengembangan awal Gemini Omni pada pembuatan video dari berbagai jenis input media. Sistem ini mampu memadukan beragam sumber media secara simultan dan menghasilkan video yang tetap memahami konteks dunia nyata berkat basis pengetahuan yang dimiliki Gemini.

Sebagai langkah awal, versi pertama yang diluncurkan adalah Gemini Omni Flash. Varian model ini dikembangkan untuk memproduksi video serta audio secara bersamaan melalui pendekatan proses yang lebih cepat serta responsif.

Gemini Omni Flash tidak hanya memproses perintah berbasis teks untuk menciptakan video. Model ini juga memiliki fleksibilitas untuk memanfaatkan aset foto, potongan video, hingga rekaman audio sebagai material dasar dalam memproduksi konten baru.

Inovasi lain yang dihadirkan Google dalam sistem ini adalah dukungan fitur conversational editing. Fasilitas tersebut memungkinkan pengguna melakukan penyuntingan video secara langsung melalui percakapan alami bersama AI, tanpa perlu mengandalkan timeline editing konvensional yang biasa ditemukan pada perangkat lunak editor video.

Model ini memiliki perbedaan mendasar dengan Veo yang lebih berfokus pada teknologi text-to-video. Gemini Omni mempunyai cakupan pemahaman multimodal yang lebih luas karena melewati proses pelatihan menggunakan data dan kemampuan reasoning dari ekosistem Gemini.

Durasi Konten dan Rencana Integrasi Ekosistem

Melalui informasi resmi dari Google DeepMind, Gemini Omni Flash saat ini baru mampu memproduksi video dengan durasi hingga kisaran 10 detik. Walau demikian, Google menegaskan bahwa kapasitas durasi tayang tersebut akan terus ditingkatkan secara berkala pada tahap pengembangan selanjutnya.

Google memproyeksikan Gemini Omni sebagai bagian dari visi AI generatif yang menyatu secara utuh dengan multi-media, bukan sekadar alat video AI biasa. Ke depannya, kemampuan model ini akan diperluas agar dapat mendukung pembuatan gambar dan audio langsung dalam satu sistem terpadu.

Teknologi Gemini Omni nantinya bakal diintegrasikan ke sejumlah layanan utama Google. Pengguna dapat menjumpai sistem ini pada aplikasi Gemini, platform kreatif Google Flow, hingga fitur YouTube Shorts.

Langkah integrasi ini diharapkan dapat menyederhanakan alur kerja pembuatan konten kreatif langsung di dalam ekosistem perusahaan. Google juga memastikan setiap konten video sintetis yang diproduksi lewat Gemini Omni akan dilengkapi watermark SynthID demi menjaga transparansi.

Kehadiran Gemini Omni menjadi bagian penting dari strategi besar Google dalam memperluas era Agentic Gemini. Pada fase ini, kecerdasan buatan diposisikan tidak sekadar untuk menjawab pertanyaan, melainkan mampu membuat, menyunting, dan menyelesaikan tugas-tugas kreatif secara mandiri.